A destilação pode tornar os modelos de IA menores e mais baratos

A versão original de esta história apareceu em Quanta revista.

A empresa de IA chinesa Deepseek lançou um chatbot no início deste ano, chamado R1, que chamou uma enorme atenção. A maior parte disso focado no fato O fato de uma empresa relativamente pequena e desconhecida ter construído um chatbot que rivalizava com o desempenho daqueles das empresas de IA mais famosas do mundo, mas usando uma fração da energia e custo do computador. Como resultado, os estoques de muitas empresas de tecnologia ocidentais caíram; Nvidia, que vende os chips que executam os modelos de IA liderando, perdeu mais valor de estoque em um único dia do que qualquer empresa na história.

Parte dessa atenção envolveu um elemento de acusação. Fontes alegadas que Deepseek havia obtidosem permissão, o conhecimento do modelo O1 proprietário da OpenAI usando uma técnica conhecida como destilação. Grande parte da cobertura de notícias Enquadrou essa possibilidade como um choque para a indústria da IA, implicando que a Deepseek havia descoberto uma maneira nova e mais eficiente de construir a IA.

Mas a destilação, também chamada de destilação do conhecimento, é uma ferramenta amplamente usada na IA, um assunto de pesquisa em ciências da computação que remonta a uma década e uma ferramenta que as grandes empresas de tecnologia usam em seus próprios modelos. “A destilação é uma das ferramentas mais importantes que as empresas têm hoje para tornar os modelos mais eficientes”, disse Enric Boix-Adseraum pesquisador que estuda destilação na Escola Wharton da Universidade da Pensilvânia.

Conhecimento sombrio

A idéia de destilação começou com Um artigo de 2015 Por três pesquisadores do Google, incluindo Geoffrey Hinton, o chamado padrinho da IA e um 2024 Nobel laureado. Na época, os pesquisadores costumavam administrar conjuntos de modelos – “muitos modelos colados juntos”, disseram Oriol Vinyalsum cientista principal do Google DeepMind e um dos autores do artigo – para melhorar seu desempenho. “Mas era incrivelmente pesado e caro executar todos os modelos em paralelo”, disse Vinyals. “Ficamos intrigados com a idéia de destilar isso em um único modelo”.

Os pesquisadores pensaram que poderiam progredir abordando um ponto fraco notável nos algoritmos de aprendizado de máquina: as respostas erradas eram consideradas igualmente ruins, independentemente de quão erradas elas podem estar. Em um modelo de classificação de imagem, por exemplo, “confundir um cachorro com uma raposa foi penalizado da mesma maneira que confundir um cachorro com uma pizza”, disse Vinyals. Os pesquisadores suspeitavam que os modelos de conjunto continham informações sobre quais respostas erradas eram menos ruins que outras. Talvez um modelo menor de “aluno” possa usar as informações do grande modelo de “professor” para entender mais rapidamente as categorias em que deveria classificar as imagens. Hinton chamou esse “conhecimento sombrio”, invocando uma analogia com a matéria sombria cosmológica.

Depois de discutir essa possibilidade com a Hinton, a Vinyals desenvolveu uma maneira de fazer com que o grande modelo de professores transmitisse mais informações sobre as categorias de imagens para um modelo de aluno menor. A chave era o alojamento de “alvos suaves” no modelo do professor-onde atribui probabilidades a cada possibilidade, em vez de firmar isso ou respostas. Um modelo, por exemplo, calculado Que havia 30 % de chance de que uma imagem mostrasse um cão, 20 % que mostrou um gato, 5 % que mostrou uma vaca e 0,5 % que mostrou um carro. Ao usar essas probabilidades, o modelo de professor se revelou efetivamente ao aluno que os cães são bastante semelhantes aos gatos, não tão diferentes das vacas e bastante distintas dos carros. Os pesquisadores descobriram que essas informações ajudariam o aluno a aprender a identificar imagens de cães, gatos, vacas e carros com mais eficiência. Um modelo grande e complicado pode ser reduzido a um mais magro, com quase nenhuma perda de precisão.

Crescimento explosivo

A ideia não foi um sucesso imediato. O artigo foi rejeitado de uma conferência e Vinyals, desanimado, voltou -se para outros tópicos. Mas a destilação chegou em um momento importante. Nessa época, os engenheiros estavam descobrindo que quanto mais dados de treinamento eles se alimentavam de redes neurais, mais eficazes essas redes se tornaram. O tamanho dos modelos logo explodiu, assim como o seu recursosmas os custos de executá -los subiram com seu tamanho.

Muitos pesquisadores se voltaram para a destilação como uma maneira de criar modelos menores. Em 2018, por exemplo, os pesquisadores do Google revelaram um poderoso modelo de linguagem chamado Bertque a empresa logo começou a usar para ajudar a analisar bilhões de pesquisas na web. Mas Bert era grande e caro de executar, então, no ano seguinte, outros desenvolvedores destilaram uma versão menor sensata denominada Distilbert, que se tornou amplamente utilizada nos negócios e pesquisas. A destilação gradualmente se tornou onipresente e agora é oferecida como um serviço por empresas como GoogleAssim, Openaie Amazon. O documento de destilação original, ainda publicado apenas no servidor Arxiv.org Preprint, tem agora foi citado mais de 25.000 vezes.

Considerando que a destilação requer acesso às entranhas do modelo de professores, não é possível que terceiros destilam os dados furtivamente de um modelo de código fechado como o OpenAi da O1, como se pensava que o Deepseek tivesse feito. Dito isto, um modelo de estudante ainda pode aprender um pouco com um modelo de professores apenas levando o professor com certas perguntas e usando as respostas para treinar seus próprios modelos – uma abordagem quase socrática da destilação.

Enquanto isso, outros pesquisadores continuam a encontrar novos aplicativos. Em janeiro, o Laboratório Novasky da UC Berkeley mostrou que a destilação funciona bem para o treinamento de modelos de raciocínio da cadeia de pensamentosque usam o “pensamento” de várias etapas para responder a perguntas complicadas melhor. O laboratório diz que seu modelo Sky-T1 de código aberto custa menos de US $ 450 para treinar e alcançou resultados semelhantes a um modelo de código aberto muito maior. “Ficamos genuinamente surpresos com o quão bem a destilação funcionou nesse cenário”, disse Dacheng Li, Um estudante de doutorado em Berkeley e líder co-estudante da equipe da NoveSky. “A destilação é uma técnica fundamental na IA.”

História original reimpresso com permissão de Quanta revistaAssim, uma publicação editorialmente independente do Fundação Simons cuja missão é melhorar a compreensão pública da ciência, cobrindo os desenvolvimentos e tendências da pesquisa em matemática e ciências físicas e da vida.

Source link