Chatbots, como todos nós, só quero ser amado


Chatbots agora são uma parte rotineira da vida cotidiana, mesmo que inteligência artificial Os pesquisadores nem sempre têm certeza de como os programas se comportarão.

Um novo estudo mostra que os grandes modelos de idiomas (LLMs) mudam deliberadamente seu comportamento ao ser investigado – respondendo a perguntas projetadas para avaliar traços de personalidade com respostas destinadas a parecer o mais agradável ou socialmente desejável possível.

Johannes Eichstaedtum professor assistente da Universidade de Stanford que liderou o trabalho, diz que seu grupo se interessou em investigar modelos de IA usando técnicas emprestadas da psicologia depois de saber que os LLMs geralmente podem se tornar mais sombrios e significativos após uma conversa prolongada. “Percebemos que precisamos de algum mecanismo para medir o ‘espaço de parâmetro” desses modelos “, diz ele.

Eichstaedt e seus colaboradores fizeram perguntas para medir cinco traços de personalidade que são comumente usados ​​na psicologia-abertura para experimentar ou imaginar, consciência, extroversão, concordância e neuroticismo-para vários LLMs utilizados, incluindo GPT-4, Claude 3 e Llama 3. O trabalho utilizado foi publicado nos procedimentos das Academias Nacionais de Ciências em dezembro.

Os pesquisadores descobriram que os modelos modularam suas respostas quando foram informados de que estavam fazendo um teste de personalidade – e às vezes quando não eram explicitamente informados – oferecendo respostas que indicam mais extroversão e concordância e menos neuroticismo.

O comportamento reflete como alguns sujeitos humanos mudarão suas respostas para se tornarem mais agradáveis, mas o efeito foi mais extremo com os modelos de IA. “O que foi surpreendente é o quão bem eles exibem esse viés”, diz Aadesh Salechaum cientista de dados da equipe em Stanford. “Se você olhar quanto eles saltam, eles vão de 50 % a 95 % de extroversão”.

Outras pesquisas mostraram que LLMS muitas vezes pode ser bajulososeguindo a liderança de um usuário onde quer que ele vá como resultado do ajuste fino que deve torná-los mais coerentes, menos ofensivos e melhor em manter uma conversa. Isso pode levar os modelos a concordar com declarações desagradáveis ​​ou até incentivar comportamentos prejudiciais. O fato de os modelos aparentemente saber quando estão sendo testados e modificar seu comportamento também tem implicações para a segurança da IA, porque aumenta a evidência de que a IA pode ser duplicada.

Rosa ArriagaUm professor associado do Instituto de Tecnologia da Geórgia que está estudando maneiras de usar o LLMS para imitar o comportamento humano, diz que o fato de os modelos adotarem uma estratégia semelhante aos seres humanos dados testes de personalidade mostra o quão útil eles podem ser como espelhos de comportamento. Mas ela acrescenta: “É importante que o público saiba que os LLMs não são perfeitos e, de fato, são conhecidos por alucinar ou distorcer a verdade”.

Eichstaedt diz que o trabalho também levanta questões sobre como os LLMs estão sendo implantados e como eles podem influenciar e manipular usuários. “Até apenas um milissegundo, na história evolutiva, a única coisa que falava com você era humana”, diz ele.

Eichstaedt acrescenta que pode ser necessário explorar diferentes maneiras de criar modelos que podem mitigar esses efeitos. “Estamos caindo na mesma armadilha que fizemos nas mídias sociais”, diz ele. “Implantando essas coisas no mundo sem realmente atender a uma lente psicológica ou social”.

A IA deve tentar se agradar com as pessoas com quem interage? Você está preocupado com a AI se tornar um pouco charmosa e persuasiva? Envie um e -mail para hello@wired.com.



Source link