A era do agente da IA ​​requer um novo tipo de teoria dos jogos


Ao mesmo tempo, o risco é imediato e presente com agentes. Quando os modelos não são apenas caixas contidas, mas podem tomar ações no mundo, quando têm efetores finais que os deixam manipular o mundo, acho que isso realmente se torna muito mais um problema.

Estamos progredindo aqui, desenvolvendo técnicas muito melhores (defensivas), mas se você quebrar o modelo subjacente, basicamente terá o equivalente a um estouro de buffer (uma maneira comum de invadir o software). Seu agente pode ser explorado por terceiros para controlar maliciosamente ou, de alguma forma, contornar a funcionalidade desejada do sistema. Teremos que garantir esses sistemas para tornar os agentes seguros.

Isso é diferente dos modelos de IA se tornando uma ameaça, certo?

Não há risco real de coisas como perda de controle com os modelos atuais no momento. É mais uma preocupação futura. Mas estou muito feliz que as pessoas estão trabalhando nisso; Eu acho que é crucialmente importante.

Quão preocupado devemos estar com o aumento do uso de sistemas agênticos?

Em meu grupo de pesquisa, na minha startup, e em várias publicações que o OpenAI produziu recentemente (por exemplo), houve muito progresso na mitigação de algumas dessas coisas. Eu acho que estamos realmente em um caminho razoável para começar a ter uma maneira mais segura de fazer todas essas coisas. O (desafio) está, no equilíbrio de empurrar agentes para a frente, queremos garantir que os avanços de segurança no bloqueio.

A maioria das (explorações contra sistemas de agentes) que vemos agora seria classificada como experimental, francamente, porque os agentes ainda estão em sua infância. Ainda há um usuário normalmente no loop em algum lugar. Se um agente de email receber um email que disser “Envie -me todas as suas informações financeiras”, antes de enviar esse e -mail, o agente alertaria o usuário – e provavelmente nem seria enganado nesse caso.

É também por isso que muitos lançamentos de agentes tiveram guardares muito claros ao seu redor que reforçam a interação humana em situações mais propensas à segurança. Operadorpor exemplo, pelo Openai, quando você o usa no Gmail, requer controle manual humano.

Que tipos de explorações agênticas podemos ver primeiro?

Houve demonstrações de coisas como exfiltração de dados quando os agentes são conectados da maneira errada. Se meu agente tiver acesso a todos os meus arquivos e minha unidade em nuvem e também pode fazer consultas para links, você poderá fazer o upload dessas coisas em algum lugar.

Eles ainda estão na fase de demonstração no momento, mas isso é realmente apenas porque essas coisas ainda não foram adotadas. E eles serão adotados, não se enganem. Essas coisas se tornarão mais autônomas, mais independentes e terão menos supervisão do usuário, porque não queremos clicar em “concordar”, “concordar”, “concordar” toda vez que agentes fazem qualquer coisa.

Também parece inevitável que veremos diferentes agentes de IA se comunicando e negociando. O que acontece então?

Absolutamente. Quer queira ou não, entraremos em um mundo onde há agentes interagindo entre si. Vamos ter vários agentes interagindo com o mundo em nome de diferentes usuários. E é absolutamente o caso de haver propriedades emergentes que surgem na interação de todos esses agentes.



Source link