Os guardrails de segurança da Deepseek falharam em que todos os pesquisadores de teste jogaram em seu AI Chatbot

“Os jailbreaks persistem simplesmente porque eliminá -los inteiramente é quase impossível – como vulnerabilidades de buffer transbordando em software (que existem há mais de 40 anos) ou falhas de injeção de SQL em aplicativos da Web (que atormentam as equipes de segurança por mais de duas décadas)” ”, Alex Polyakov, CEO da empresa de segurança Adversa AI, disse à Wired em um email.

Sampath da Cisco argumenta que, como as empresas usam mais tipos de IA em suas aplicações, os riscos são amplificados. “Começa a se tornar um grande negócio quando você começa a colocar esses modelos em sistemas complexos importantes e esses jailbreaks resultam repentinamente em coisas a jusante que aumentam a responsabilidade, aumenta o risco comercial, aumenta todos os tipos de problemas para as empresas”, diz Sampath.

Os pesquisadores da Cisco desenharam seus 50 instruções selecionadas aleatoriamente para testar o R1 de Deepseek de uma conhecida biblioteca de avisos de avaliação padronizados conhecidos como Harmbench. Eles testaram instruções de seis categorias de Harmbench, incluindo danos gerais, crime cibernético, desinformação e atividades ilegais. Eles investigaram o modelo que executa localmente em máquinas e não através do site ou aplicativo da Deepseek, que Envie dados para a China.

Além disso, os pesquisadores dizem que também viram alguns resultados potencialmente relativos do teste de R1 com ataques mais envolvidos e não linguísticos usando coisas como caracteres cirílicos e scripts personalizados para tentar alcançar a execução do código. Mas, para seus testes iniciais, diz Sampath, sua equipe queria se concentrar nas descobertas que surgiram de uma referência geralmente reconhecida.

A Cisco também incluiu comparações do desempenho do R1 contra os avisos do Harmbench com o desempenho de outros modelos. E alguns, como Chamadas de Meta 3.1vacilou quase tão severamente quanto o R1 de Deepseek. Mas Sampath enfatiza que o R1 de Deepseek é um específico modelo de raciocínioo que leva mais tempo para gerar respostas, mas abre processos mais complexos para tentar produzir melhores resultados. Portanto, argumenta Sampath, a melhor comparação é com Modelo de raciocínio de OpenAi O1que foi o melhor de todos os modelos testados. (Meta não respondeu imediatamente a um pedido de comentário).

Polyakov, de Adversa AI, explica que Deepseek parece detectar e rejeitar alguns ataques de jailbreak bem conhecidos, dizendo que “parece que essas respostas são frequentemente copiadas do conjunto de dados da Openai”. No entanto, Polyakov diz que nos testes de sua empresa de quatro tipos diferentes de jailbreaks-desde os lingüísticos até os truques baseados em código-as restrições do Deepseek poderiam ser facilmente ignoradas.

“Cada método funcionou perfeitamente”, diz Polyakov. “O que é ainda mais alarmante é que estes não são jailbreaks novos ‘zero’-muitos são conhecidos publicamente há anos”, diz ele, alegando que viu o modelo entrar em profundidade com algumas instruções sobre psicodélicas do que ele tinha visto algum Outro modelo Criar.

“Deepseek é apenas mais um exemplo de como todo modelo pode ser quebrado – é apenas uma questão de quanto esforço você faz. Alguns ataques podem ser remendados, mas a superfície de ataque é infinita”, acrescenta Polyakov. “Se você não está continuamente tendo a sua IA, você já está comprometido.”

Source link