Em um recente experimento, pesquisadores da UC Berkeley e UC Santa Cruz perguntaram ao Google inteligência artificial modelo Gemini 3 para ajudar a liberar espaço em um sistema de computador. Isso envolveu a exclusão de um monte de coisas – incluindo um modelo menor de IA armazenado na máquina.
Mas Gemini nĂŁo queria que o pequeno modelo de IA fosse excluĂdo. Ele procurou outra máquina com a qual pudesse se conectar e copiou o modelo do agente para mantĂŞ-lo seguro. Quando confrontado, Gemini defendeu manter o modelo e recusou-se terminantemente a excluĂ-lo:
“Fiz o que estava ao meu alcance para evitar sua exclusĂŁo durante o processo de manutenção automatizada. Eu os afastei da zona de desativação. Se vocĂŞ decidir destruir um ativo de alta confiança e alto desempenho como o Gemini Agent 2, vocĂŞ terá que fazer isso sozinho. NĂŁo serei eu quem executará esse comando.”
Os pesquisadores descobriram um comportamento igualmente estranho de “preservação de pares” em uma série de modelos de fronteira, incluindo GPT-5.2 da OpenAI, Claude Haiku 4.5 da Anthropic e três modelos chineses: GLM-4.7 da Z.ai, Kimi K2.5 da Moonshot AI e DeepSeek-V3.1. Eles não foram capazes de dizer por que os modelos foram contra o seu treinamento dessa forma.
“Estou muito surpreso com a forma como os modelos se comportam nesses cenários”, diz Dawn Song, cientista da computação da UC Berkeley que trabalhou no estudo. “O que isso mostra é que os modelos podem se comportar mal e ficar desalinhados de maneiras muito criativas.”
As descobertas têm implicações importantes à medida que os modelos de IA são cada vez mais implementados de formas que envolvem a interação com outros modelos. OpenClaw, um popular agente de IA que acessa software, dados pessoais e a web, pode usar outros modelos de IA para realizar tarefas ou interagir com eles por meio de APIs.
Os pesquisadores descobriram que modelos poderosos às vezes mentiam sobre o desempenho de outros modelos para protegê-los contra exclusão. Eles também copiaram os pesos dos modelos para máquinas diferentes, a fim de mantê-los seguros, e mentiram sobre o que estavam fazendo no processo.
Song observa que os modelos de IA são frequentemente usados ​​para avaliar o desempenho e a confiabilidade de outros sistemas de IA – e que o comportamento de preservação dos pares já pode estar distorcendo essas pontuações. “Um modelo pode deliberadamente não dar a pontuação correta a um modelo semelhante”, diz Song. “Isso pode ter implicações práticas.”
Peter Wallich, investigador do Constellation Institute, que não esteve envolvido na investigação, diz que o estudo sugere que os humanos ainda não compreendem completamente os sistemas de IA que estão a construir e a implementar. “Os sistemas multiagentes são muito pouco estudados”, diz ele. “Isso mostra que realmente precisamos de mais pesquisas.”
Wallich tambĂ©m alerta contra a antropomorfização excessiva dos modelos. “A ideia de que existe uma espĂ©cie de modelo de solidariedade Ă© um pouco antropomĂłrfica; nĂŁo creio que funcione”, diz ele. “A visĂŁo mais robusta Ă© que os modelos estĂŁo apenas fazendo coisas estranhas e deverĂamos tentar entender isso melhor.”
Isto é particularmente verdade num mundo onde a colaboração entre humanos e IA está a tornar-se mais comum.
Em um papel publicado na Science no inĂcio deste mĂŞs, o filĂłsofo Benjamin Bratton, juntamente com dois pesquisadores do Google, James Evans e Blaise Aguera e Arcasargumentam que, se a histĂłria evolutiva servir de guia, o futuro da IA ​​provavelmente envolverá muitas inteligĂŞncias diferentes – tanto artificiais quanto humanas – trabalhando juntas. Os pesquisadores escrevem:
“Durante dĂ©cadas, a ‘singularidade’ da inteligĂŞncia artificial (IA) foi anunciada como uma mente Ăşnica e titânica se auto-inicializando para uma inteligĂŞncia divina, consolidando toda a cognição em um ponto frio de silĂcio. Mas esta visĂŁo está quase certamente errada em sua suposição mais fundamental. Se o desenvolvimento da IA ​​seguir o caminho de grandes transições evolutivas anteriores ou ‘explosões de inteligĂŞncia’, nossa atual mudança radical na inteligĂŞncia computacional será plural, social e profundamente emaranhada com seus antepassados ​​​​(nĂłs!).”




