SoCreateはサン・ルイス・オビスポのテクノロジーをサポートすることで伝統を築いています。その理由の1つは、私たちが生涯学習者であり、お互いに学ぶことがたくさんあることです。また、テクノロジー業界がSLOで成長することを望んでいます。そこで、その分野の2人の専門家が深層強化学習に関するPyData SLOワークショップを教えるためにステップアップしたとき、私たちはピザを提供するために力を入れました!また、この3月のミートアップをSoCreateオフィスで開催しました。SoCreateソフトウェアエンジニアのジョン・ジェンソンが出席し、報告しました。
マシンゾーンプレゼンテーションでグーグル・ブレインのローラ・グレイサーとケン・ワー・ルーンがベイエリアのSLOを訪れ、Deep RL(深層強化学習)に関するワークショップを主導しました。これは、試行錯誤を通じて逐次決定ベースの最適化問題を解決するために適用できる一般的なフレームワークです。2015年に、世界的に有名な「囲碁」プレイヤーでヨーロッパのチャンピオンであるファンフイを倒したコンピュータープログラムであるAlphaGo(アルファ碁、アルファご)の見出しを書いたときに、Deep RLが活動しているのを見たかもしれません。AlphaGo(深層強化学習)は韓国のソウルで4-1の勝利を収め、2億人が注目を集め、コンピュータプログラムの独創的な勝利の動きから学びました。
PyData SLOワークショップでは、ローラとケンがRLの基本、RLシステムを構成する関数の定義、Deep RLアルゴリズムのさまざまなカテゴリについて説明しました。「最も重要なアルゴリズムの2つを取り上げ、これらのアルゴリズムがSLM-Labの基本的なテスト環境に適用されることを確認しました」とジョンは述べています。ローラとケンが作成したSLM-Labは、PyTorch(パイトーチ)のモジュール式ディープ強化学習フレームワークです。「プレゼンターは、アルゴリズムと機能の詳細な説明と、より直感的なレベルでの動作についても説明しました。」
Atari Breakout(アタリブレイクアウト)のプレイ方法を学んで、ジョンは、ローラとケンによる事前トレーニング済みアルゴリズムのデモに最も感銘を受けたと述べています(ラップトップでのトレーニングには1日かかる可能性があるため事前トレーニング済み)。「強化学習システムでは、エージェントは環境に影響を与えるアクションを1つずつ実行します。特定の行動はエージェントに報いる」とジョンは説明し、ゲームをプレイするシステムを教えることはRLの一般的なアプリケーションであると付け加えた。システムはゲームのルールを認識していません。必要なのは、画面、実行可能なアクションのリスト、および報酬の定義を表示することだけです。「ゲームを何千回、何百万回と何度も何度もプレイするだけで、システムはその報酬を最大化する方法を学び、非常に熟練します。」
PyData SLOは、Pythonを使用したデータサイエンスに焦点を当てた教育組織であり、SLOの学術コミュニティや業界のPythonユーザーを集めて、データサイエンス、計算科学、機械学習などの分野でアイデアを発表、共有、およびワークショップします。PyDataがこのようなワークショップにローラ・グレイサーやケン・ワー・ルーンなどのエキスパートを連れて来てくれて、とても嬉しいです!
今後のミートアップのトピックと場所について学びたいですか?