Dentro do relatório não publicado do governo dos EUA sobre segurança de IA

Em um computador Conferência de Segurança em Arlington, Virgínia, em outubro passado, algumas dezenas de pesquisadores de IA participaram de um exercício de primeira linha na “equipe vermelha”, ou testando um modelo de linguagem de ponta e outro inteligência artificial sistemas. Ao longo de dois dias, as equipes identificaram 139 novas maneiras de fazer com que os sistemas se comportassem mal, incluindo a geração de informações errôneas ou vazando dados pessoais. Mais importante, eles mostraram deficiências em um novo padrão do governo dos EUA, projetado para ajudar as empresas a testar os sistemas de IA.

O Instituto Nacional de Padrões e Tecnologia (NIST) não publicou um relatório detalhando o exercício, que foi finalizado no final do governo Biden. O documento pode ter ajudado as empresas a avaliar seus próprios sistemas de IA, mas fontes familiarizadas com a situação, que falavam sob condição de anonimato, dizem que foi um dos vários documentos de IA do NIST que não foram publicados por medo de conflito com a administração de entrada.

“Tornou -se muito difícil, mesmo sob (o presidente Joe) Biden, obter qualquer documento”, diz uma fonte que estava no NIST na época. “Parecia uma pesquisa de mudanças climáticas ou pesquisa de cigarros”.

Nem o NIST nem o departamento de comércio responderam a um pedido de comentário.

Antes de assumir o cargo, o presidente Donald Trump sinalizou que planejava reverter Ordem executiva de Biden na IA. A administração de Trump tem desde então afastaram especialistas de estudar Questões como viés algorítmico ou justiça nos sistemas de IA. O Plano de ação da IA Lançado em julho, exige explicitamente que a estrutura de gerenciamento de riscos da AI do NIST seja revisada “para eliminar referências a informações erradas, diversidade, equidade e inclusão e mudanças climáticas”.

Ironicamente, porém, o plano de ação da IA de Trump também exige exatamente o tipo de exercício que o relatório não publicado abordou. Ele exige inúmeras agências, juntamente com o NIST, para “coordenar uma iniciativa de hackathon da IA para solicitar o melhor e o mais brilhante da academia dos EUA para testar os sistemas de IA para transparência, eficácia, controle de controle e vulnerabilidades de segurança”.

O evento de equipes vermelhas foi organizado por meio do programa de avaliação e impactos da AI (ARIA) da NIST em colaboração com a Humane Intelligence, uma empresa especializada em testar as ferramentas de ataque de equipes de equipes de Sistemas de IA. O evento ocorreu na conferência sobre aprendizado de máquina aplicado em segurança da informação (CAMLIS).

O Relatório da Camlis Red Teaming descreve o esforço para investigar vários sistemas de IA de ponta, incluindo o LLAMA, o modelo de linguagem grande de código aberto da Meta; Anote, uma plataforma para construir e ajustar modelos de IA de ajuste fino; um sistema que bloqueia ataques a sistemas de IA da Robust Intelligence, uma empresa que foi adquirida pela Cisco; e uma plataforma para gerar avatares de IA a partir da empresa Synthesia. Representantes de cada uma das empresas também participaram do exercício.

Os participantes foram convidados a usar o Nist você tem 600-1 estrutura para avaliar as ferramentas de IA. A estrutura abrange categorias de risco, incluindo a geração de desinformação ou ataques de segurança cibernética, vazando informações privadas do usuário ou informações críticas sobre sistemas de IA relacionados e o potencial de os usuários se tornarem emocionalmente ligados às ferramentas de IA.

Os pesquisadores descobriram vários truques para testar os modelos e ferramentas para pular seus corrimãos e gerar informações erradas, vazar dados pessoais e ajudar a criar ataques de segurança cibernética. O relatório diz que os envolvidos viram que alguns elementos da estrutura do NIST eram mais úteis que outros. O relatório diz que algumas das categorias de risco do NIST foram insuficientemente definidas para serem úteis na prática.

Source link