SoCreate开创了在圣路易斯奥比斯波举办技术研讨会的传统。原因之一就是我们是终身学习者,我们深知“三人行必有我师焉”,并期待技术行业在圣路易斯奥比斯波崛起,从而能壮大本地人才队伍。因此两位业内专家专程在此次深度强化学习研讨会上讲授PyData之时, 我们也专程为大家提供匹萨福利!我们会在总部于三月份召开午餐会。届时,SoCreate软件工程师约翰·詹森(John Jenson)会出席并做汇报。
来自谷Google Brain的劳拉·格雷泽(Laura Graesser)及来自Machine Zone衡旺卢( Keng Wah Loon)从海湾地区到访了圣路易斯奥比斯波并主持此次深度强化学习研讨会,可运用该整体框架通过反复试验的方法,解决基于决策的序列优化问题(想想如围棋和雅达利这样的电脑游戏)。您可能已经见证了深度强化学习应用于实践的案例。例如,2015年阿尔法狗(一款人工智能围棋程序)打败荣获欧洲围棋冠军的世界著名围棋手范辉的头条新闻。阿尔法狗还以4 : 1 的成绩在韩国首尔赢得比赛,当时有2000玩人观看了比赛,从人工智能程序独出心裁、步步为赢的策略中受益匪浅。
本次研讨会中,劳拉和衡讲解了强化学习的基础要素、组成强化学习系统的功能定义、深度强化学习算法的种类。“我们涉猎了两种最重要的深度算法,也了解到如何在SLM-库中一个非常基础的测试环境中应用这些算法。”约翰说。SLM-库由劳拉和衡编写,全称为PyTorch语言模块化深度强化学习框架。“演讲者详细介绍了这种算法和功能并介绍了如何实现更加直观的应用。”
约翰说最令他印象深刻的是劳拉和衡演示的预训算法(因为在笔记本上培训需要耗时一整天),这一算法演示使他学到怎样在雅达利游戏中有所突破。“强化学习系统中,代理会采取行动按照每次一个步骤,对环境进行影响,从而发现可从某些行动中获得奖励,”约翰解释并补充说将本系统应用于打游戏是深度学习最常见的应用。该系统并不了解游戏规则,只需看着屏幕,罗列所有可以采取的措施以及收获奖励的定义。“只要一次又一次地玩游戏,经过数千次甚至数百万次,该系统就会学会怎样把奖励最大化,从而其游戏技能也就无与伦比了。
本次研讨会是一场有关Python语言的数据科学教育会,学术界、行业界Python用户齐聚一堂,讨论的话题范围包括但不限于数据科学、计算机科学、机器学习、分布式计算。PyData能为我们SoCreate带来劳拉·格雷泽、衡旺卢等这样的专家,我们倍感荣幸和激动。
想要了解更多即将到来的午餐会议题和地址吗?