A SoCreate faz do apoio à tecnologia em San Luis Obispo uma tradição. Um dos motivos é porque somos eternos aprendizes, e podemos aprender muitas coisas entre nós. Além disso, queremos ver a indústria tecnológica crescer em SLO, pois isso apenas nos ajuda a desenvolver uma equipe ainda mais talentosa! Portanto, quando dois especialistas em suas áreas chegaram ao PyData SLO para um workshop sobre deep reinforcement learning (aprendizado por reforço), nós chegamos com a pizza! Além disso, sediamos esta Reunião de Março aqui no escritório da SoCreate. O engenheiro de software da SoCreate John Jenson participou e relatou tudo o que aconteceu.
Laura Graesser do Google Brain e Keng Wah Loon da Machine Zone vieram de Bay Area para visitar SLO e liderar o workshop sobre deep reinforcement learning, que consiste em uma estrutura geral que pode ser aplicada para resolver problemas de otimização sequenciais baseados em decisões (pense em videogames como Go e Atari) através de tentativa e erro. Você pode ter visto o Deep RL em ação quando ele ganhou as manchetes em 2015 com o AlphaGo, um programa de computador que venceu o jogador mundialmente famoso de "Go" e campeão europeu Fan Hui. O AlphaGo obteve uma vitória por 4 a 1 em Seul, Coreia do Sul, enquanto 200 milhões de pessoas assistiam, aprendendo com as jogadas criativas e vencedoras do programa de computador.
No workshop PyData SLO, Laura e Keng abordaram os conceitos básicos de reinforcement learning, bem como as definições das funções que compõem um sistema RL e as diferentes categorias de algoritmos de Deep RL. "Nós falamos detalhadamente sobre dois dos mais importantes algoritmos e vimos esses algoritmos aplicados a um ambiente de teste bastante básico no SLM-Lab", afirmou John. O SLM-Lab, de autoria de Laura e Keng, é uma estrutura de Deep Reinforcement Learning Modular em PyTorch. “Os apresentadores forneceram uma explicação detalhada sobre os algoritmos e funções, além de explicar como eles trabalhavam em um nível mais intuitivo.”
John disse que ficou muito impressionado com a demonstração de Laura e Keng de um algoritmo pré-treinado (pré-treinado porque pode demorar um dia inteiro para treinar em um notebook) que havia aprendido a jogar Atari Breakout. “Em um sistema de Reinforcement Learning, um agente toma ações para afetar seu ambiente, um passo de cada vez. Certas ações recompensarão o agente”, explicou John, acrescentando que ensinar o sistema a jogar é uma aplicação comum do RL. O sistema não conhece as regras do jogo; tudo o que ele precisa é ver a tela, uma lista de quais ações que ele pode realizar, e uma definição para a recompensa. “Simplesmente jogando o jogo várias vezes, milhares ou milhões de vezes, o sistema aprende a maximizar sua recompensa, tornando-se muito habilidoso”.
O PyData SLO é uma organização educacional focada em ciência de dados com Python, reunindo usuários de Python da comunidade acadêmica e da indústria em SLO para apresentar, compartilhar e realizar workshops sobre ideias em áreas que incluem, entre outras: ciência de dados, ciências computacionais, aprendizagem de máquina e computação distribuída. Ficamos felizes em ver o PyData trazer especialistas como Laura Graisser e Keng Wah Loon para workshops como estes, bem aqui na SoCreate!
Quer conhecer os próximos assuntos e locais dos encontros? Clique aqui.