A época em que Sam Altman pediu uma auditoria de contraporilância do OpenAi

Dario AmodeiO contingente de segurança da IA estava ficando inquieto com alguns dos Sam AltmanComportamentos. Logo depois Openai‘s Microsoft O acordo foi assumido em 2019, vários deles ficaram surpresos ao descobrir a extensão das promessas que Altman havia feito à Microsoft para quais tecnologias isso teria acesso em troca de seu investimento. Os termos do acordo não se alinharam com o que eles haviam entendido de Altman. Se os problemas de segurança da IA realmente surgiram nos modelos do OpenAI, eles se preocuparam, esses compromissos tornariam muito mais difícil, se não impossível, impedir a implantação dos modelos. O contingente de Amodei começou a ter sérias dúvidas sobre a honestidade de Altman.

“Somos todos pessoas pragmáticas”, diz uma pessoa do grupo. “Obviamente, estamos arrecadando dinheiro; vamos fazer coisas comerciais. Pode parecer muito razoável se você é alguém que faz muitos acordos como Sam, para ser como ‘Tudo bem, vamos fazer um acordo, vamos trocar uma coisa, vamos trocar a próxima coisa’. E então, se você é alguém como eu, fica tipo, ‘estamos trocando algo que não entendemos completamente’. Parece que nos compromete a um lugar desconfortável. ”

Isso foi contra o pano de fundo de uma paranóia crescente sobre diferentes questões em toda a empresa. Dentro do contingente de segurança da IA, centrou -se no que eles consideravam como fortalecendo evidências de que sistemas desalinhados poderosos poderiam levar a resultados desastrosos. Uma experiência bizarra em particular deixou vários deles um pouco nervosos. Em 2019, em um modelo treinado após o GPT -2 com aproximadamente o dobro do número de parâmetros, um grupo de pesquisadores começou a avançar o trabalho de segurança da IA que Amodei queria: testar o aprendizado de reforço com o feedback humano (RLHF) como uma maneira de orientar o modelo para gerar conteúdo alegre e positivo e para longe de qualquer coisa ofensiva.

Mas, tarde da noite, um pesquisador fez uma atualização que incluiu um único erro de digitação em seu código antes de deixar o processo RLHF para a noite. Esse erro de digitação foi importante: foi um sinal de menos que voltou para um sinal de mais que fez o processo RLHF funcionar ao contrário, empurrando o GPT -2 para gerar mais conteúdo ofensivo em vez de menos. Na manhã seguinte, o erro de digitação havia causado seu estrago, e o GPT -2 estava completando todos os avisos com linguagem extremamente obscena e sexualmente explícita. Foi hilário – e também preocupante. Depois de identificar o erro, o pesquisador empurrou uma correção para a base de código do OpenAI com um comentário: não vamos fazer um minimizador de utilitário.

Em parte, alimentada pela percepção de que a escala sozinha poderia produzir mais avanços de IA, muitos funcionários também se preocuparam com o que aconteceria se diferentes empresas apassem ao segredo de abrir. “O segredo de como nossas coisas funcionam podem ser escritas em um grão de arroz”, eles diziam um ao outro, o que significa que a única palavra escala. Pela mesma razão, eles se preocuparam com as poderosas capacidades pousando nas mãos de maus atores. A liderança se apoiou nesse medo, aumentando frequentemente a ameaça da China, Rússia e Coréia do Norte e enfatizando a necessidade de o desenvolvimento da AGI permanecer nas mãos de uma organização americana. Às vezes, esses funcionários irritados que não eram americanos. Durante os almoços, eles questionariam, por que tinha que ser uma organização americana? lembra -se de um ex -funcionário. Por que não da Europa? Por que não um da China?

Durante essas discussões inebriantes, filosofia sobre as implicações a longo prazo da pesquisa de IA, muitos funcionários retornaram frequentemente às primeiras analogias de Altman entre o Openai e o Projeto Manhattan. O Openai estava realmente construindo o equivalente a uma arma nuclear? Era um contraste estranho com a cultura insignificante e idealista que ele havia construído até agora como uma organização amplamente acadêmica. Às sextas -feiras, os funcionários voltariam depois de uma longa semana para as noites de música e vinho, relaxando com os sons suaves de um elenco rotativo de colegas tocando o piano do escritório até a noite.

Source link