Um novo tipo de modelo de IA permite que os proprietários de dados assumam o controle

Um novo tipo de Modelo de linguagem grandedesenvolvido por pesquisadores do Instituto Allen para a IA (AI2), torna possível controlar como os dados de treinamento são usados mesmo após a construção de um modelo.

O novo modelo, chamado Flexolmo, poderia desafiar o atual paradigma da indústria de Big inteligência artificial empresas Informe os dados da web, livros e outras fontes – geralmente com pouca consideração pela propriedade– e então possuir completamente os modelos resultantes. Depois que os dados são assados hoje em um modelo de IA, extraí -los desse modelo é como tentar recuperar os ovos de um bolo acabado.

“Convencionalmente, seus dados estão dentro ou fora”, diz Ali Farhadi, CEO da AI2, com sede em Seattle, Washington. “Depois de treinar esses dados, você perde o controle. E você não tem saída, a menos que me force a passar por outra rodada de treinamento de vários milhões de dólares.”

A abordagem de vanguarda da AI2 divide o treinamento para que os proprietários de dados possam exercer controle. Aqueles que desejam contribuir com dados para um modelo Flexolmo podem fazê -lo pela primeira vez copiando um modelo compartilhado publicamente conhecido como “âncora”. Eles então treinam um segundo modelo usando seus próprios dados, combinam o resultado com o modelo âncora e contribuem com o resultado de volta para quem está construindo o terceiro e último modelo.

Contribuir dessa maneira significa que os dados em si nunca precisam ser entregues. E devido à forma como o modelo do proprietário de dados é mesclado com o final, é possível extrair os dados posteriormente. Um editor de revista pode, por exemplo, contribuir com o texto de seu arquivo de artigos para um modelo, mas depois remover o submodelo treinado nesses dados Se houver uma disputa legal ou se a empresa se opor a como um modelo está sendo usado.

“O treinamento é completamente assíncrono”, diz Sewon Min, cientista de pesquisa da AI2 que liderou o trabalho técnico. “Os proprietários de dados não precisam coordenar, e o treinamento pode ser feito de forma completa.”

A arquitetura do modelo Flexolmo é o que é conhecido como “mistura de especialistas”, um design popular que normalmente é usado para combinar simultaneamente vários submodelos em um maior e mais capaz. Uma inovação importante da AI2 é uma maneira de mesclar submodelos que foram treinados de forma independente. Isso é alcançado usando um novo esquema para representar os valores em um modelo para que suas habilidades possam ser mescladas com outras pessoas quando o modelo combinado final for executado.

Para testar a abordagem, os pesquisadores da Flexolmo criaram um conjunto de dados que chamam de FlexMix de fontes proprietárias, incluindo livros e sites. Eles usaram o projeto Flexolmo para construir um modelo com 37 bilhões de parâmetros, cerca de um décimo do tamanho do maior modelo de código aberto da Meta. Eles então compararam seu modelo a vários outros. Eles descobriram que ele superou qualquer modelo individual em todas as tarefas e também marcou 10 % melhor em benchmarks comuns do que duas outras abordagens para mesclar modelos treinados independentemente.

O resultado é uma maneira de ter seu bolo – e recuperar seus ovos. “Você pode simplesmente optar por não participar do sistema sem grandes danos e tempo de inferência”, diz Farhadi. “É uma maneira totalmente nova de pensar em como treinar esses modelos”.

Source link