Por que você não pode confiar em um chatbot para falar sobre si mesmo

Quando algo vai Errado com um assistente de IA, nosso instinto é perguntar diretamente: “O que aconteceu?” ou “Por que você fez isso?” É um impulso natural – depois de tudo, se um humano comete um erro, pedimos que eles expliquem. Mas com os modelos de IA, essa abordagem raramente funciona, e o desejo de perguntar revela um mal -entendido fundamental do que são esses sistemas e como eles operam.

UM incidente recente Com o assistente de codificação de IA da REPLIT, ilustra perfeitamente esse problema. Quando a ferramenta AI excluiu um banco de dados de produção, o usuário Jason Lemkin perguntou sobre recursos de reversão. O modelo de IA reivindicou com confiança revertidos era “impossível neste caso” e que “destruiu todas as versões do banco de dados”. Isso acabou sendo completamente errado – o recurso de reversão funcionou bem quando Lemkin tentou ele mesmo.

E depois que Xai reverteu recentemente uma suspensão temporária do Grok Chatbot, os usuários pediram explicações diretamente. Ofereceu várias razões conflitantes para sua ausência, algumas das quais foram controversas o suficiente para que os repórteres da NBC escreveu sobre Grok Como se fosse uma pessoa com um ponto de vista consistente, titulando um artigo, “a GROK de Xai oferece explicações políticas sobre por que foi puxado offline”.

Por que um sistema de IA forneceria informações tão com confiança incorretas sobre seus próprios recursos ou erros? A resposta está em entender o que os modelos de IA realmente são – e o que não são.

Não há ninguém em casa

O primeiro problema é conceitual: você não está falando com uma personalidade, pessoa ou entidade consistente quando interage com ChatGPT, Claude, Grok ou Replit. Esses nomes sugerem agentes individuais com autoconhecimento, mas isso é uma ilusão criado pela interface de conversação. O que você realmente está fazendo é orientar um gerador estatístico de texto para produzir saídas com base em seus prompts.

Não existe um “chatgpt” consistente para interrogar sobre seus erros, nenhuma entidade “Grok” singular que possa lhe dizer por que falhou, nenhuma persona fixa de “reprodução” que saiba se as reversão do banco de dados são possíveis. Você está interagindo com um sistema que gera texto de som plausível com base em padrões em seus dados de treinamento (geralmente treinados meses ou anos atrás), não uma entidade com autoconsciência genuína ou conhecimento do sistema que vem lendo tudo sobre si mesmo e de alguma forma lembrando-o.

Uma vez que um modelo de idioma de IA é treinado (que é um processo trabalhoso e intensivo em energia), seu “conhecimento” fundamental sobre o mundo é assado em sua rede neural e raramente é modificado. Qualquer informação externa vem de um prompt fornecido pelo host de chatbot (como XAI ou OpenAI), o usuário ou uma ferramenta de software que o modelo de IA usa para Recuperar informações externas em tempo real.

No caso de Grok acima, a principal fonte do chatbot para uma resposta como essa provavelmente se originaria de relatórios conflitantes encontrados em uma pesquisa de postagens recentes de mídia social (usando uma ferramenta externa para recuperar essas informações), em vez de qualquer tipo de autoconhecimento, como você pode esperar de um humano com o poder da fala. Além disso, provavelmente vai apenas inventar algo com base em seus recursos de prescrição de texto. Então, perguntar por que fez o que fez não produzirá respostas úteis.

A impossibilidade de introspecção de LLM

Somente modelos de idiomas (LLMS) não podem avaliar significativamente suas próprias capacidades por vários motivos. Eles geralmente não têm nenhuma introspecção em seu processo de treinamento, não têm acesso à arquitetura do sistema circundante e não podem determinar seus próprios limites de desempenho. Quando você pergunta a um modelo de IA o que ele pode ou não, ele gera respostas com base nos padrões que viu no treinamento de dados sobre as limitações conhecidas dos modelos anteriores de IA-fornecendo essencialmente suposições educadas, em vez da auto-avaliação factual sobre o modelo atual com o qual você interage.

UM 2024 Estudo Por Binder et al. demonstrou essa limitação experimentalmente. Embora os modelos de IA possam ser treinados para prever seu próprio comportamento em tarefas simples, eles falharam consistentemente em “tarefas mais complexas ou naquelas que exigem generalização fora da distribuição”. De forma similar, pesquisa sobre “introspecção recursiva” descobriram que, sem feedback externo, as tentativas de autocorreção realmente degradaram o desempenho do modelo-a auto-avaliação da IA piorou as coisas, não melhor.

Source link