Databricks tem um truque que permite que os modelos de IA melhorem a si mesmos


Databricks, uma empresa que ajuda grandes empresas a criar inteligência artificial Modelos, desenvolveu um truque de aprendizado de máquina que pode aumentar o desempenho de um modelo de IA sem a necessidade de dados rotulados limpos.

Jonathan Frankle, cientista -chefe da IA ​​da Databricks, passou o ano passado conversando com os clientes sobre os principais desafios que eles enfrentam em fazer com que a IA trabalhe de maneira confiável.

O problema, diz Frankle, são dados sujos.

“Todo mundo tem alguns dados e tem uma idéia do que eles querem fazer”, diz Frankle. Mas a falta de dados limpos torna um desafio ajustar um modelo para executar uma tarefa específica. “Ninguém aparece com dados de ajuste fino e limpos que você pode seguir em um prompt ou uma (interface de programação de aplicativos)” para um modelo.

O modelo do Databricks poderia permitir que as empresas eventualmente implantem seus próprios agentes para executar tarefas, sem a qualidade dos dados que estão no caminho.

A técnica oferece uma visão rara de alguns dos truques principais que os engenheiros estão usando para melhorar as habilidades dos modelos avançados de IA, especialmente quando são difíceis de encontrar bons dados. O método aproveita as idéias que ajudaram a produzir modelos avançados de raciocínio, combinando o aprendizado de reforço, uma maneira de os modelos de IA melhorarem através da prática, com dados de treinamento “sintéticos” ou gerados por IA.

Os modelos mais recentes de OpenaiAssim, Googlee Deepseek Todos dependem muito do aprendizado de reforço e dos dados de treinamento sintético. Wired revelou isso Nvidia planeja adquirir Greteluma empresa especializada em dados sintéticos. “Estamos todos navegando neste espaço”, diz Frankle.

O método Databricks explora o fato de que, dadas as tentativas suficientes, mesmo um modelo fraco pode pontuar bem em uma determinada tarefa ou referência. Os pesquisadores chamam esse método de aumentar o desempenho de um modelo de “melhor de N”. Os bancos de dados treinaram um modelo para prever quais melhores testadores humanos do resultado de N preferem, com base em exemplos. O modelo de recompensa do banco de dados, ou DBRM, pode ser usado para melhorar o desempenho de outros modelos sem a necessidade de outros dados rotulados.

O DBRM é então usado para selecionar as melhores saídas de um determinado modelo. Isso cria dados de treinamento sintético para ajustar ainda mais o modelo, para que ele produz uma saída melhor pela primeira vez. O Databricks chama sua nova otimização adaptativa de teste no tempo de teste ou TAO. “Esse método que estamos falando de usa alguns reforços relativamente leves que aprendem para assar basicamente os benefícios do Best of-N no próprio modelo”, diz Frankle.

Ele acrescenta que a pesquisa realizada pelo Databricks mostra que o método TAO melhora à medida que é dimensionado para modelos maiores e mais capazes. A aprendizagem de reforço e os dados sintéticos já são amplamente utilizados, mas combiná -los para melhorar os modelos de linguagem é uma técnica relativamente nova e tecnicamente desafiadora.

O Databricks é incomumente aberto sobre como desenvolve IA porque deseja mostrar aos clientes que possui as habilidades necessárias para criar modelos personalizados poderosos para eles. A empresa revelou anteriormente a Wired Como desenvolveu o DBX, um modelo de linguagem grande de código aberto de ponta (LLM) do zero.



Source link