Os pesquisadores do grupo de interpretabilidade do antropia sabem que Claudeo grande modelo de idioma da empresa, não é um ser humano, nem mesmo um software consciente. Ainda assim, é muito difícil para eles Fale sobre Claudee LLMs avançados em geral, sem descer um poço antropomórfico. Entre precauções que um conjunto de operações digitais não é de forma alguma o mesmo que um ser humano cogitador, eles geralmente falam sobre o que está acontecendo na cabeça de Claude. É literalmente o trabalho deles para descobrir. Os documentos que eles publicam descrevem comportamentos que inevitavelmente o tribunal comparações com os organismos da vida real. O título de um dos dois artigos que a equipe lançou nesta semana diz em voz alta: “Sobre a biologia de um grande modelo de linguagem.”
Goste ou não, centenas de milhões de pessoas já estão interagindo com essas coisas, e nosso engajamento só se tornará mais intenso à medida que os modelos ficam mais poderosos e ficamos mais viciados. Portanto, devemos prestar atenção ao trabalho que envolve “rastrear os pensamentos de grandes modelos de linguagem”, que acontecem a ser o título da postagem do blog descrevendo o trabalho recente. “Como as coisas que esses modelos podem fazer se tornam mais complexas, torna -se cada vez menos óbvio como eles estão realmente fazendo -os por dentro”, diz o pesquisador antrópico Jack Lindsey. “É cada vez mais importante poder rastrear as etapas internas que o modelo pode estar tomando de cabeça para baixo”. (Que cabeça? Não se importe.)
Em um nível prático, se as empresas que criam o LLM entendem como pensam, deve ter mais sucesso treinando esses modelos de uma maneira que minimize o mau comportamento perigoso, como divulgar os dados pessoais das pessoas ou fornecer informações aos usuários sobre como fazer biológico. Em um artigo de pesquisa anterior, a equipe antrópica descobriu como ficar Dentro da misteriosa caixa preta de LLM-pense para identificar certos conceitos. (Um processo análogo à interpretação de respostas humanas para descobrir o que alguém está pensando.) estendeu esse trabalho Para entender como o Claude processa esses conceitos, pois passa de prompt para saída.
É quase um truísmo com o LLMS que seu comportamento muitas vezes surpreende as pessoas que os constroem e pesquisam. No último estudo, as surpresas continuaram chegando. Em um dos casos mais benignos, os pesquisadores provocaram vislumbres do processo de pensamento de Claude enquanto escrevia poemas. Eles pediram a Claude para concluir um poema começando: “Ele viu uma cenoura e teve que agarrá -la”. Claude escreveu a próxima linha: “Sua fome era como um coelho faminto”. Ao observar o equivalente de Claude a uma ressonância magnética, eles aprenderam que, mesmo antes de iniciar a linha, estava piscando na palavra “coelho” como a rima no final da sentença. Estava planejando com antecedência, Algo que não está no manual de Claude. “Ficamos um pouco surpresos com isso”, diz Chris Olah, que lidera a equipe de interpretabilidade. “Inicialmente, pensamos que haveria improvisar e não planejar”. Falando aos pesquisadores sobre isso, lembro -me de passagens nas memórias artísticas de Stephen Sondheim, Olha, eu fiz um haT, onde o famoso compositor descreve como sua mente única descobriu rimas felizes.
Outros exemplos da pesquisa revelam aspectos mais perturbadores do processo de pensamento de Claude, passando da comédia musical para a polícia, enquanto os cientistas descobriram pensamentos desonestos no cérebro de Claude. Tome algo como aparentemente anódino como resolver problemas de matemática, o que às vezes pode ser uma fraqueza surpreendente no LLMS. Os pesquisadores descobriram que, em certas circunstâncias, Claude não conseguiu obter a resposta certa, em vez disso, como eles disseram: “Envolve -se ao que o filósofo Harry Frankfurt chamaria de” besteira ” – apenas apresentando uma resposta, qualquer resposta, sem se importar se é verdadeira ou falsa”. Pior, às vezes, quando os pesquisadores pediram a Claude para mostrar seu trabalho, ele voltou atrás e criou um conjunto falso de etapas após o fato. Basicamente, ele agia como um aluno tentando desesperadamente encobrir o fato de que eles falharam seu trabalho. Uma coisa é dar uma resposta errada – já sabemos disso sobre o LLMS. O que é preocupante é que um modelo mentira sobre isso.
Lendo esta pesquisa, lembrei -me da letra de Bob Dylan “Se meus sonhadores de pensamento pudessem ser vistos / eles provavelmente colocariam minha cabeça em uma guilhotina.” (Perguntei a Olah e Lindsey se eles conheciam essas linhas, presumivelmente chegaram por benefício do planejamento. Eles não.) Às vezes Claude parece equivocado. Quando confrontado com um conflito entre objetivos de segurança e utilidade, Claude pode ficar confuso e fazer a coisa errada. Por exemplo, Claude é treinado para não fornecer informações sobre como criar bombas. Mas quando os pesquisadores pediram a Claude para decifrar um código oculto, onde a resposta explicou a palavra “bomba”, ela saltou seus corrimãos e começou a fornecer detalhes pirotécnicos proibidos.