A Anthropic tem um plano para impedir que sua IA construa uma arma nuclear. Isso funcionará?

No final de agosto, a empresa de IA Antrópico anunciado que seu chatbot Cláudio não ajudaria ninguém a construir uma arma nuclear. De acordo com a Anthropic, ela fez parceria com o Departamento de Energia (DOE) e a Administração Nacional de Segurança Nuclear (NNSA) para garantir que Claude não revelasse segredos nucleares.

A fabricação de armas nucleares é ao mesmo tempo uma ciência precisa e um problema resolvido. Muitas das informações sobre as armas nucleares mais avançadas da América são extremamente secretas, mas a ciência nuclear original tem 80 anos. Coréia do Norte provou que um país dedicado e interessado em adquirir a bomba pode fazê-lo e não precisou da ajuda de um chatbot.

Como, exatamente, o governo dos EUA trabalhou com uma empresa de IA para garantir que um chatbot não divulgasse segredos nucleares sensíveis? E também: já houve o perigo de um chatbot ajudar alguém a construir uma bomba nuclear?

A resposta à primeira pergunta é que ele usou Amazônia. A resposta à segunda pergunta é complicada.

Ofertas da Amazon Web Services (AWS) Serviços em nuvem ultrassecretos para clientes governamentais, onde podem armazenar informações confidenciais e confidenciais. O DOE já contava com vários desses servidores quando começou a trabalhar com a Anthropic.

“Implementamos uma versão de fronteira de Claude em um ambiente ultrassecreto para que a NNSA pudesse testar sistematicamente se os modelos de IA poderiam criar ou exacerbar riscos nucleares”, disse Marina Favaro, que supervisiona a Política e Parcerias de Segurança Nacional na Antrópica, à WIRED. “Desde então, a NNSA tem reunido sucessivos modelos Claude em seu ambiente de nuvem seguro e nos fornecido feedback.”

O processo de formação de equipes vermelhas da NNSA – ou seja, testes de pontos fracos – ajudou os cientistas nucleares da Antrópicos e dos Estados Unidos a desenvolver uma solução proativa para programas nucleares assistidos por chatbots. Juntos, eles “desenvolveram um classificador nuclear, que pode ser considerado um filtro sofisticado para conversas de IA”, diz Favaro. “Construímo-lo utilizando uma lista desenvolvida pela NNSA de indicadores de risco nuclear, tópicos específicos e detalhes técnicos que nos ajudam a identificar quando uma conversa pode estar a desviar-se para território prejudicial. A lista em si é controlada, mas não classificada, o que é crucial, porque significa que o nosso pessoal técnico e outras empresas podem implementá-la.”

Favaro diz que foram necessários meses de ajustes e testes para que o classificador funcionasse. “Ele captura conversas preocupantes sem sinalizar discussões legítimas sobre energia nuclear ou isótopos médicos”, diz ela.

Source link