O novo modelo de IA de Deepseek desperta choque, admiração e perguntas dos concorrentes dos EUA

O verdadeiro preço do desenvolvimento dos novos modelos da Deepseek permanece desconhecido, no entanto, uma vez que uma figura citada em um único artigo de pesquisa não pode capturar a imagem completa de seus custos. “Não acredito que sejam US $ 6 milhões, mas mesmo que sejam US $ 60 milhões, é um divisor de águas”, diz Umesh Padval, diretor administrativo da Thomvest Ventures, uma empresa que investiu em Cohere e outras empresas de IA. “Isso pressionará a lucratividade das empresas focadas na IA do consumidor”.

Logo após a Deepseek revelar os detalhes de seu modelo mais recente, Ghodsi, do Databricks, diz que os clientes começaram a perguntar se poderiam usá -lo e também as técnicas subjacentes da Deepseek para cortar custos em suas próprias organizações. Ele acrescenta que uma abordagem empregada pelos engenheiros da Deepseek, conhecida como destilação, que envolve o uso da saída de um modelo de linguagem grande para treinar outro modelo, é relativamente barato e direto.

Padval diz que a existência de modelos como a Deepseek’s beneficiará as empresas que desejam gastar menos na IA, mas ele diz que muitas empresas podem ter reservas sobre confiar em um modelo chinês para tarefas sensíveis. Até agora, pelo menos uma empresa de IA proeminente, perplexidade, tem anunciado publicamente Ele está usando o modelo R1 da Deepseek, mas diz que está sendo hospedado “completamente independente da China”.

Amjad Massad, o CEO da Replit, uma startup que fornece ferramentas de codificação de IA, disse a Wired que acha que os modelos mais recentes de Deepseek são impressionantes. Embora ele ainda ache o modelo de soneto do Anthropic em muitas tarefas de engenharia de computadores, ele descobriu que o R1 é especialmente bom em transformar os comandos de texto em código que podem ser executados em um computador. “Estamos explorando usá -lo especialmente para o raciocínio de agentes”, acrescenta.

As duas últimas ofertas da Deepseek-Deepseek R1 e Deepseek R1-Zero-são capazes do mesmo tipo de raciocínio simulado que os sistemas mais avançados do OpenAI e do Google. Todos eles funcionam divulgando problemas em partes constituintes para enfrentá -las com mais eficiência, um processo que requer uma quantidade considerável de treinamento adicional para garantir que a IA atinja com segurança a resposta correta.

UM papel Postado por pesquisadores Deepseek, na semana passada, descreve a abordagem que a empresa usou para criar seus modelos R1, que afirma que realiza alguns benchmarks, bem como o modelo de raciocínio inovador da Openai, conhecido como O1. As táticas usadas Deepseek incluem um método mais automatizado para aprender a resolver problemas corretamente, bem como uma estratégia para transferir habilidades de modelos maiores para os menores.

Um dos tópicos mais quentes de especulação sobre o Deepseek é o hardware que pode ter usado. A questão é especialmente digna de nota porque o governo dos EUA introduziu uma série de Controles de exportação e outras restrições comerciais nos últimos anos, com o objetivo de limitar a capacidade da China de adquirir e fabricar chips de ponta necessários para a construção de IA avançada.

Em um Trabalho de pesquisa A partir de agosto de 2024, a DeepSeek indicou que tem acesso a um aglomerado de 10.000 chips NVIDIA A100, que foram colocados sob nós restrições anunciado em outubro de 2022. Em um papel separado A partir de junho daquele ano, a DeepSeek afirmou que um modelo anterior criado chamado Deepseek-V2 foi desenvolvido usando clusters de chips de computador NVIDIA H800, um componente menos capaz desenvolvido pela NVIDIA para cumprir os controles de exportação dos EUA.

Uma fonte de uma empresa de IA que treina grandes modelos de IA, que pediu para ser anônima para proteger seus relacionamentos profissionais, estima que o Deepseek provavelmente usou cerca de 50.000 chips da NVIDIA para construir sua tecnologia.

A Nvidia se recusou a comentar diretamente sobre qual dos seus chips Deepseek pode ter confiado. “Deepseek é um excelente avanço de IA”, disse um porta-voz da Nvidia em comunicado, acrescentando que a abordagem de raciocínio da startup “requer números significativos de GPUs da NVIDIA e redes de alto desempenho”.

No entanto, os modelos de Deepseek foram construídos, eles parecem mostrar que uma abordagem menos fechada para o desenvolvimento da IA está ganhando impulso. Em dezembro, Clem Delangue, CEO da Huggingface, uma plataforma que hospeda modelos de inteligência artificial, previu isso Uma empresa chinesa assumiria a liderança na IA por causa da velocidade de inovação que acontece nos modelos de código aberto, que a China adotou em grande parte. “Isso foi mais rápido do que eu pensava”, diz ele.

Source link