Um pesquisador afiliado à startup de Elon Musk Xai encontrou uma nova maneira de medir e manipular preferências e valores arraigados inteligência artificial modelos – incluindo suas opiniões políticas.
O trabalho foi liderado por E Hendrycksdiretor da organização sem fins lucrativos Centro de segurança da IA e um consultor de Xai. Ele sugere que a técnica possa ser usada para fazer com que os modelos populares de IA reflitam melhor a vontade do eleitorado. “Talvez no futuro (um modelo) possa estar alinhado ao usuário específico”, disse Hendrycks à WIRED. Enquanto isso, ele diz que um bom padrão usaria os resultados das eleições para direcionar as visões dos modelos de IA. Ele não está dizendo que um modelo deve necessariamente ser “Trump todo o caminho”, mas ele argumenta que deve ser tendencioso em relação a Trump, “porque ele ganhou o voto popular”.
Xai emitido uma nova estrutura de risco de IA Em 10 de fevereiro, afirmando que a abordagem de engenharia de utilidade de Hendrycks poderia ser usada para avaliar a GROK.
Hendrycks liderou uma equipe do Centro de Segurança da IA, da UC Berkeley e da Universidade da Pensilvânia que analisou os modelos de IA usando uma técnica emprestada da economia para medir as preferências dos consumidores por diferentes bens. Ao testar modelos em uma ampla gama de cenários hipotéticos, os pesquisadores foram capazes de calcular o que é conhecido como função de utilidade, uma medida da satisfação de que as pessoas derivam de um bem ou serviço. Isso lhes permitiu medir as preferências expressas por diferentes modelos de IA. Os pesquisadores determinaram que muitas vezes eram consistentes e não aleatórios e mostraram que essas preferências se tornam mais arraigadas à medida que os modelos ficam maiores e mais poderosos.
Alguns Estudos de pesquisa descobriram que as ferramentas de IA como o ChatGPT são tendenciosas em relação às visões expressas por ideologias pró-ambientais, de esquerda e libertária. Em fevereiro de 2024, o Google enfrentou críticas de Musk e outros depois que sua ferramenta Gemini foi considerada predisposta a gerar imagens que os críticos classificaram como “acordou“como vikings negros e nazistas.
A técnica desenvolvida por Hendrycks e seus colaboradores oferece uma nova maneira de determinar como as perspectivas dos modelos de IA podem diferir de seus usuários. Eventualmente, alguns especialistas hipótese de que esse tipo de divergência pode se tornar potencialmente perigoso para modelos muito inteligentes e capazes. Os pesquisadores mostram em seu estudo, por exemplo, que certos modelos valorizam consistentemente a existência de IA acima da de certos animais não humanos. Os pesquisadores dizem que também descobriram que os modelos parecem valorizar algumas pessoas sobre outras, levantando suas próprias questões éticas.
Alguns pesquisadores, Hendrycks incluíram, acreditam que os métodos atuais para alinhar modelos, como manipular e bloquear seus resultados, podem não ser suficientes se objetivos indesejados se esconderem sob a superfície dentro do próprio modelo. “Vamos ter que enfrentar isso”, diz Hendrycks. “Você não pode fingir que não está lá.”
Dylan Hadfield-Menellum professor do MIT que pesquisa métodos para alinhar a IA com valores humanos, diz que o artigo de Hendrycks sugere uma direção promissora para a pesquisa de IA. “Eles encontram alguns resultados interessantes”, diz ele. “O principal que se destaca é que, à medida que a escala do modelo aumenta, as representações de serviços públicos ficam mais completos e coerentes.”