A IA quebra as pontuações mais altas dos videogames ao relembrar seu sucesso anterior

Vingança de Montezuma

Montezuma’s Revenge é um dos jogos Atari mais desafiadores

ArcadeImages / Alamy

Uma inteligência artificial que pode se lembrar de seus sucessos anteriores e usá-los para criar novas estratégias alcançou pontuações recordes em alguns dos mais difíceis videogames nos consoles Atari clássicos.

Muitos sistemas de IA usam aprendizagem por reforço, em que um algoritmo recebe feedback positivo ou negativo sobre seu progresso em direção a uma meta específica após cada passo que dá, encorajando-o em direção a uma solução específica. Essa técnica foi usada pela empresa de inteligência artificial DeepMind para treinar a AlphaGo, que venceu um jogador campeão mundial de Go em 2016.

Adrien Ecoffet no Uber AI Labs e OpenAI na Califórnia e seus colegas levantaram a hipótese de que tais algoritmos frequentemente tropeçam em caminhos encorajadores, mas então saltam para outra área na busca por algo mais promissor, deixando melhores soluções esquecidas.

“O que você faz quando não sabe nada sobre sua tarefa?” diz Ecoffet. “Se você apenas balançar os braços, é improvável que vá fazer um café.”

Para resolver esse problema, a equipe criou um algoritmo que lembra todas as diferentes abordagens que tentou e continua voltando aos momentos em que teve uma pontuação alta como ponto de partida para explorar mais.

O software armazena capturas de tela de um jogo enquanto ele joga para lembrar o que tentou, agrupando imagens de aparência semelhante para identificar pontos no jogo aos quais ele deve retornar como um ponto de partida. O objetivo do algoritmo é maximizar sua pontuação e atualizar seu registro de um ponto de partida quando for usado para atingir uma nova pontuação alta com uma nova captura de tela daquela parte do jogo.

Os jogos do Atari normalmente não permitem que os jogadores revisitem qualquer ponto no tempo, mas os pesquisadores usaram um emulador – software que imitava o sistema Atari – com a capacidade adicional de salvar estatísticas e recarregá-las a qualquer momento. Isso significava que o algoritmo poderia começar de qualquer ponto sem ter que jogar o jogo desde o início.

A equipe definiu o algoritmo para jogar uma coleção de 55 jogos Atari que se tornou uma referência padrão para algoritmos de aprendizagem por reforço. Venceu algoritmos de última geração nesses jogos 85,5 por cento do tempo.

Em um jogo particularmente complexo, Vingança de Montezuma, o algoritmo teve pontuação mais alta do que o recorde anterior para software de aprendizagem por reforço e também bateu o recorde mundial humano.

Depois que o algoritmo atingiu uma pontuação suficientemente alta, os pesquisadores usaram a solução apresentada para treinar uma rede neural para replicar a estratégia e jogar da mesma forma, dispensando a necessidade de recarregar os save states com um emulador. Essa abordagem alternativa acabou sendo mais intensiva em termos computacionais, pois a versão da rede neural do algoritmo criou bilhões de capturas de tela durante a resolução de cada jogo.

Peter Bentley, da University College London, diz que a abordagem da equipe de combinar aprendizado por reforço com um arquivo de memórias poderia ser usada para resolver problemas mais complexos. “Esta é uma bela nova combinação de técnicas que parecem fornecer um aprimoramento real.”

Referência do jornal: Natureza, DOI: 10.1038 / s41586-020-03157-9

Mais sobre esses tópicos:

Leave a Reply

Your email address will not be published. Required fields are marked *