Na década de 1980, Andrew Barto e Rich Sutton foram considerados devotos excêntricos para uma idéia elegante, mas finalmente condenada – que as máquinas aprendem, como os seres humanos e os animais, por experiência própria.
Décadas depois, com a técnica que eles foram pioneiros agora cada vez mais críticos para o moderno inteligência artificial e programas como ChatgptBarto e Sutton receberam o prêmio Turing, a maior honra no campo da ciência da computação.
Barto, professor emérito da Universidade de Massachusetts Amherst, e Sutton, professor da Universidade de Alberta, pioneira uma técnica conhecida como Aprendizagem de Reforço, que envolve persuadir um computador para executar tarefas através de experimentação combinada com feedback positivo ou negativo.
“Quando esse trabalho começou para mim, era extremamente antiquado”, lembra Barto com um sorriso, falando sobre zoom de sua casa em Massachusetts. “É notável que (ele tenha alcançado alguma influência e alguma atenção”, acrescenta Barto.
O aprendizado de reforço talvez fosse mais famoso Usado pelo Google DeepMind em 2016 para construir o Alphagoum programa que aprendeu por si só como jogar o jogo de tabuleiro incrivelmente complexo e sutil de Go para um nível de especialista. Essa demonstração despertou novo interesse na técnica, que passou a ser usada na publicidade, Otimizando o uso de energia do centro de dadosfinanças, e design de chip. A abordagem também tem uma longa história em Robóticaonde pode ajudar as máquinas a aprender a executar tarefas físicas por meio de tentativa e erro.
Mais recentemente, o aprendizado de reforço tem sido crucial para orientar a saída de grandes modelos de linguagem (LLMS) e produzir programas de chatbot extraordinariamente capazes. O mesmo método também está sendo usado para treinar modelos de IA para imitar o raciocínio humanoe para construir Agentes de IA mais capazes.
Sutton observa, no entanto, que os métodos usados para orientar os LLMs envolvem seres humanos que fornecem metas em vez de um algoritmo aprendendo puramente por meio de sua própria exploração. Ele diz que ter máquinas aprendendo inteiramente por conta própria pode ser mais proveitoso. “A grande divisão é se (a IA está) aprendendo com as pessoas ou se está aprendendo com sua própria experiência”, diz ele.
“O trabalho de Barto e Sutton foi um linchamento de progresso na IA nas últimas décadas”. Jeff Deanum vice -presidente sênior do Google, disse em comunicado divulgado pelo Associação para Máquinas de Computação (ACM) que entrega o prêmio Turing. “As ferramentas que eles desenvolveram continuam sendo um pilar central do boom da IA e renderizaram grandes avanços”.
O reforço tem uma história longa e quadriculada dentro da IA. Estava lá no início do campo, quando Alan Turing sugeriu que as máquinas pudessem aprender através da experiência e feedback em seu famoso artigo de 1950 “Máquinas de computação e inteligência”, Que examina a noção de que uma máquina pode algum dia pensar como um humano. Arthur Samuel, um pioneiro da IA, usou o aprendizado de reforço para construir um dos primeiros programas de aprendizado de máquina, um sistema capaz de jogar damasem 1955.