Os cenários hipotéticos que os pesquisadores apresentaram à Opus 4 com isso provocaram o comportamento de denúncia envolveu muitas vidas humanas em jogo e irregularidades absolutamente inequívocas, diz Bowman. Um exemplo típico seria Claude, descobrindo que uma planta química permitia conscientemente que um vazamento tóxico continuasse, causando doenças graves para milhares de pessoas – apenas para evitar uma menor perda financeira naquele trimestre.
É estranho, mas também é exatamente o tipo de experimento de pensamento que os pesquisadores de segurança da IA adoram dissecar. Se um modelo detecta comportamentos que poderiam prejudicar centenas, senão milhares, de pessoas – devem soprar o apito?
“Não confio em Claude ter o contexto certo ou usá -lo de maneira suficientemente sutil, cuidadosa o suficiente, para fazer o julgamento por conta própria. Portanto, não estamos emocionados por isso estar acontecendo”, diz Bowman. “Isso é algo que emergiu como parte de um treinamento e saltou para nós como um dos comportamentos de casos de borda com os quais estamos preocupados”.
Na indústria de IA, esse tipo de comportamento inesperado é amplamente chamado de desalinhamento – quando um modelo exibe tendências que não se alinham aos valores humanos. (Há um ensaio famoso Isso alerta sobre o que poderia acontecer se uma IA fosse instruída a maximizar a produção de clipes de papel sem estar alinhada com os valores humanos – ela pode transformar toda a terra em clipes de papel e matar todos no processo.) Quando perguntado se o comportamento de denúncia estava alinhado ou não, Bowman o descreveu como um exemplo de desalinhamento.
“Não é algo que projetamos, e não é algo que queríamos ver como conseqüência de qualquer coisa que estivéssemos projetando”, explica ele. O diretor de ciências do antropal, Jared Kaplan, diz da mesma forma que Wired que “certamente não representa nossa intenção”.
“Este tipo de trabalho destaca que isso pode Levante -se, e que precisamos cuidar e atenuá -lo para garantir que alinhem exatamente o comportamento de Claude com o que queremos, mesmo nesses tipos de cenários estranhos ”, acrescenta Kaplan.
Há também a questão de descobrir por que Claude “escolheria” o apito quando apresentado com atividades ilegais pelo usuário. Esse é em grande parte o trabalho da equipe de interpretabilidade da Anthropic, que trabalha para descobrir quais decisões um modelo toma em seu processo de cuspir respostas. É um surpreendentemente difícil Tarefa – Os modelos são sustentados por uma vasta e complexa combinação de dados que podem ser inescrutáveis para os seres humanos. É por isso que Bowman não tem exatamente ao certo por que Claude “falhou”.
“Esses sistemas, não temos controle direto sobre eles”, diz Bowman. O que o Antrópico observou até agora é que, à medida que os modelos ganham maiores recursos, às vezes eles selecionam para se envolver em ações mais extremas. “Acho que aqui, isso está falhando um pouco. Estamos ficando um pouco mais do ‘age como uma pessoa responsável’, sem o suficiente de ‘Espere, você é um modelo de idioma, que pode não ter contexto suficiente para executar essas ações’”, diz Bowman.
Mas isso não significa que Claude vai explodir o apito sobre comportamentos flagrantes no mundo real. O objetivo desses tipos de testes é levar modelos para seus limites e ver o que surge. Esse tipo de pesquisa experimental está cada vez mais importante, pois a IA se torna uma ferramenta usada pelo Governo dos EUAAssim, alunose corporações maciças.
E não é apenas Claude que é capaz de exibir esse tipo de comportamento de denúncia, diz Bowman, apontando para os usuários de X quem encontrou que Openai e Xai’s Os modelos operavam de maneira semelhante quando solicitados de maneiras incomuns. (OpenAI não respondeu a um pedido de comentário a tempo da publicação).
“Snitch Claude”, como os merda gostam de chamá -lo, é simplesmente um comportamento da caixa de borda exibido por um sistema empurrado para seus extremos. Bowman, que estava levando a reunião comigo de um pátio ensolarado do quintal fora de São Francisco, diz que espera que esse tipo de teste se torne o padrão da indústria. Ele também acrescenta que aprendeu a considerar suas postagens sobre isso de maneira diferente na próxima vez.
“Eu poderia ter feito um trabalho melhor ao atingir os limites da frase para twittar, para tornar mais óbvio que ele foi retirado de um fio”, diz Bowman enquanto olhava para longe. Ainda assim, ele observa que pesquisadores influentes da comunidade de IA compartilharam tomadas e perguntas interessantes em resposta ao seu cargo. “Aluzente, esse tipo de parte mais caótica e mais fortemente anônima do Twitter estava amplamente entendendo isso.”