Novo algoritmo de IA bate quase todo mundo nos antigos jogos do ATARI e agora começa a se aventurar em ambientes 3D.
Novo algoritmo de IA bate quase todo mundo nos antigos jogos do ATARI e agora começa a se aventurar em ambientes 3D.
Talvez a Alphabet devesse ter consultado uma Inteligência Artificial antes de investir 400 milhões de dólares na empresa DeepMind, em 2014, e pouco mais de dois anos depois só ter conseguido um bot melhor para demonstrar como se joga River Raid.
Evidentemente, estou brincando. De fato, até uma visão computacional consegue enxergar, na semente, que esse é um grande passo para a humanidade ser solapada pela Skynet. Pelo menos no que se refere aos e-sports.
E falando em jogos, há décadas já jogaram na nossa cara que os computadores jogam xadrez melhor que os humanos. Todavia, o computador usado para derrotar o grande campeão mundial, Gary Kasparov, na célebre série de jogos que evidenciou o avançado estágio evolutivo da IA, em 1997, era assessorado por um time de programadores e mestres do xadrez.
Mas há algo de novo na estratégia usada pela DeepMind. Na abordagem denominada Deep Q-network (DQN), descrito em um artigo publicado na Nature, eles dão pouca assistência para o aprendizado da máquina. Dessa forma, o computador parece mais um calouro submetido a um se-vira-nos-30 do que a um cantor pop pedindo 200 toalhas para a produção antes de um espetáculo.
Nessa abordagem, a aprendizagem por reforço ganha mais desempenho conseguindo dessa forma que os agentes virtuais (o bot jogador) tenha um aprendizado mais parecido com o humano - sem conhecimento prévio das regras dos jogos e sendo estimulado pelas pontuações e dando comandos aleatórios no controle - com os pesquisadores chegando ao ponto de comparar o algoritmo com o sistema de recompensa da dopamina no cérebro, através da tentativa e erro e com a recompensa reforçando o aprendizado.
Por exemplo, no vídeo acima, o agente DQN aperfeiçoa sua técnica jogando breakout. Aprendendo com seu erros até entender que atirar a bolinha no túnel formado nos cantos é a estratégia "matadora" onde ele consegue os melhores resultados. E ele consegue aprender isso jogando apenas 600 vezes.
Mas o mundo do Atari é limitado demais para as ambições alphabetianas. Para explorar o potencial da IA em um ambiente tridimensional o Google Deep Mind lançou recentemente a suíte de navegação 3D e ambiente de resolução de problemas denominado Labyrinth. Mas ao contrário do DQN, que é de código livre (desenvolvido na linguagem brasileira Lua) podendo ser conectado ao emulador de Atari 2600 gratuito (donationware) Stella, suas soluções para o ambiente 3D ainda não foram abertas para o público.
A seguir, veja como o agente DQN (representado por uma formiga digital de 4 pernas) consegue chutar a bola para a meta (em vermelho).
Pode parecer apenas um vídeo trivial, mas mostra um teste importante para a eficácia processo de aprendizagem por recompensa assíncrono. A IA não apenas aprende como mover a tal formiga sem nenhuma heurística prévia de como isso deve ser coordenado, mas também tem que saber como chutar a bola no gol. É como se você aprendesse a andar ao mesmo tempo que jogasse sua primeira partida de futebol.
Segundo o Engadget, apesar do Google não explicar em profundidade qual é o real significado dessa tecnologia. Sua rápida menção ao algoritmo nos dá uma ideia de que a técnica poderia ajudar a "manipulação robótica". Um membro de um robô poderia começar a andar (sem ser programado previamente para isso) ou aprender a pegar todo tipo de objeto que nunca tenha visto antes.
Fonte: YouTube, Google Deep Mind
[Visto no Brasil Acadêmico]
Talvez a Alphabet devesse ter consultado uma Inteligência Artificial antes de investir 400 milhões de dólares na empresa DeepMind, em 2014, e pouco mais de dois anos depois só ter conseguido um bot melhor para demonstrar como se joga River Raid.
Desempenho do DQN e da aprendizagem linear nos 50 jogos do Atari testados. |
E falando em jogos, há décadas já jogaram na nossa cara que os computadores jogam xadrez melhor que os humanos. Todavia, o computador usado para derrotar o grande campeão mundial, Gary Kasparov, na célebre série de jogos que evidenciou o avançado estágio evolutivo da IA, em 1997, era assessorado por um time de programadores e mestres do xadrez.
Mas há algo de novo na estratégia usada pela DeepMind. Na abordagem denominada Deep Q-network (DQN), descrito em um artigo publicado na Nature, eles dão pouca assistência para o aprendizado da máquina. Dessa forma, o computador parece mais um calouro submetido a um se-vira-nos-30 do que a um cantor pop pedindo 200 toalhas para a produção antes de um espetáculo.
Nessa abordagem, a aprendizagem por reforço ganha mais desempenho conseguindo dessa forma que os agentes virtuais (o bot jogador) tenha um aprendizado mais parecido com o humano - sem conhecimento prévio das regras dos jogos e sendo estimulado pelas pontuações e dando comandos aleatórios no controle - com os pesquisadores chegando ao ponto de comparar o algoritmo com o sistema de recompensa da dopamina no cérebro, através da tentativa e erro e com a recompensa reforçando o aprendizado.
Há alguma evidência de que os humanos tem um sistema similar de aprendizagem por reforço na área de dopamina do cérebro. Esse foi uma das motivações para fazermos nosso trabalho pois os humanos também aprendem por tentativa e erro similarmente - por observar recompensa e aprender reforçando aquelas recompensas.
David Silver. Um dos desenvolvedores do sistema
Clique Retroceder Avançar Espaço / / F
Por exemplo, no vídeo acima, o agente DQN aperfeiçoa sua técnica jogando breakout. Aprendendo com seu erros até entender que atirar a bolinha no túnel formado nos cantos é a estratégia "matadora" onde ele consegue os melhores resultados. E ele consegue aprender isso jogando apenas 600 vezes.
- [message]
- Nota
- A pontuação é exibida no alto à esquerda da tela (com um máximo de 488 pontos ao limpar os blocos), o número de vidas remanescentes fica no meio (iniciando-se com 5 vidas) , e o número “1” no alto à direita indica que o modo do jogo é para 1 jogador apenas.
Clique Retroceder Avançar Espaço / / F
Mas o mundo do Atari é limitado demais para as ambições alphabetianas. Para explorar o potencial da IA em um ambiente tridimensional o Google Deep Mind lançou recentemente a suíte de navegação 3D e ambiente de resolução de problemas denominado Labyrinth. Mas ao contrário do DQN, que é de código livre (desenvolvido na linguagem brasileira Lua) podendo ser conectado ao emulador de Atari 2600 gratuito (donationware) Stella, suas soluções para o ambiente 3D ainda não foram abertas para o público.
Clique Retroceder Avançar Espaço / / F
A seguir, veja como o agente DQN (representado por uma formiga digital de 4 pernas) consegue chutar a bola para a meta (em vermelho).
Clique Retroceder Avançar Espaço / / F
Pode parecer apenas um vídeo trivial, mas mostra um teste importante para a eficácia processo de aprendizagem por recompensa assíncrono. A IA não apenas aprende como mover a tal formiga sem nenhuma heurística prévia de como isso deve ser coordenado, mas também tem que saber como chutar a bola no gol. É como se você aprendesse a andar ao mesmo tempo que jogasse sua primeira partida de futebol.
Segundo o Engadget, apesar do Google não explicar em profundidade qual é o real significado dessa tecnologia. Sua rápida menção ao algoritmo nos dá uma ideia de que a técnica poderia ajudar a "manipulação robótica". Um membro de um robô poderia começar a andar (sem ser programado previamente para isso) ou aprender a pegar todo tipo de objeto que nunca tenha visto antes.
Fonte: YouTube, Google Deep Mind
[Visto no Brasil Acadêmico]
Comentários