강의

멘토링

커뮤니티

AI Technology

/

Deep Learning & Machine Learning

Rで簡単に学ぶ強化学習

Q-learningからDeep Q-learningについて学び、強化学習をRで具現してみる時間があります。 Deep Q-network を超えて Self-imitation learning と Random Netowrk Distillation までの全体的な強化学習内容を扱います。

難易度 中級以上

受講期間 無制限

  • coco
Machine Learning(ML)
Machine Learning(ML)
R
R
Reinforcement Learning(RL)
Reinforcement Learning(RL)
Machine Learning(ML)
Machine Learning(ML)
R
R
Reinforcement Learning(RL)
Reinforcement Learning(RL)

受講後に得られること

  • 強化学習理論

  • Q-learningからDeep Reinforcement Learningまで

  • Explorationのためのいくつかの強化学習技術

🙆🏻‍♀ Q-learningとDeep Q-learningを超えてRNDまで🙆🏻‍♂

🗒講義紹介

アルファゴで始まった強化学習のブーム、強化学習はアルファゴが出る以前から存在していたアルゴリズムであることを知っていましたか?

強化学習は、一般的に勉強するのに進入障壁が高い分野として知られています。アルファゴが出てきてから多くの人が興味を持ち始めていましたが、内容が簡単ではなく、勉強するのが難しいです。強化学習を勉強したかったのですが、難しくて始まらなかった方のために重要な部分だけを選んでまとめてお知らせします。 Q-learning から DQN そして DQN を超えて強化学習の主な問題である sparse reward problem と、これを解決するためのいくつかのアイデアを紹介します。短時間で強化学習を全体的に勉強できる良い講義になります。

🌈強化学習は何ですか?

強化学習がいったい何なのか、強化学習にはどのような要素があり、どのように学習が進行するのかを例に次々と説明します。

🌈手で直接解くQ-learning

言葉だけ説明しては理解できません。手で直接Q-learingを解きながら強化学習の概念をしっかり理解してみましょう。


🌈 Deep Reinforcemen learningの基本となるDQN

Deep reinforcement learningの基本これは、Deep Q-network(DQN)からPerDQNを含む多くのDQN変形、actorcritic、Self-Imitation learingまで重要な内容を中心にまとめています。

🌈強化学習の主な問題であるSparse reward problem

強化学習の主な問題である sparse reward problem について話し、これを解決するためのいくつかの技法について話します。

私たちは主に「curiosity」または「prediction error」について話し、それらを活用したいくつかのアルゴリズムについて紹介します。

(SIL、Random Network Distillationなど)

🌈 Rで直接実装してみるDQN/ActorCritic/SIL/RND

直接コードで実装してみないと半分だけ知っているのでしょう?最も重要なモデルについては、Rで直接強化学習アルゴリズムを組み込み、結果を一緒に確認してみてください。

そしてExplorationのためのRNDが本当に効果があるかどうかを一緒に確認してみましょう。

🙋🏻‍♂️講義に関する予想される質問

Q. 選手の知識はありますか?
A. 機械学習、NNに関する基本的な概念があることをお勧めします。

Q. Pythonで練習しませんか?
A. 現在はRで実習コードを実装して講義をアップロードし、今後はpythonで実習するコードをアップロードする予定です。

こんな方に
おすすめです

学習対象は
誰でしょう?

  • 強化学習簡単に学びたい人

  • 短時間で全体的な強化学習を学びたい人

前提知識、
必要でしょうか?

  • Rプログラミング中級スキル

  • Neural ネットワークの基本的な理解

  • 機械学習の基本的な知識

こんにちは
です。

8,388

受講生

509

受講レビュー

136

回答

4.4

講座評価

20

講座

学部では統計学を専攻し、産業工学(人工知能)の博士号を取得して今もなお勉強中の無職です。

受賞

ㆍ 第6回ビッグコンテスト ゲームユーザー離脱アルゴリズム開発 / NCソフト賞(2018)

ㆍ 第5回ビッグコンテスト 住宅ローン延滞者予測アルゴリズム開発 / 韓国情報通信振興協会長賞(2017)

ㆍ 2016 気象ビッグデータコンテスト / 気象産業振興院長賞(2016)

ㆍ 第4回ビッグコンテスト 保険詐欺予測アルゴリズム開発 / 本選進出(2016)

ㆍ 第3回ビッグコンテスト 野球試合予測アルゴリズム開発 / 未来創造科学部 長官賞(2015)

* blog : https://bluediary8.tistory.com

主に研究している分野は、データサイエンス、強化学習、ディープラーニングです。

クローリングとテキストマイニングは、現在は趣味でやっています :)

クローリングを利用して、人気のコミュニティ投稿だけを収集して表示する「マロン」というアプリを開発し、

全国のグルメ店リストとブログを収集して、グルメ推薦アプリも作りましたね :) (見事に大失敗しましたが..)

現在は人工知能を研究している博士課程の学生です。

カリキュラム

全体

20件 ∙ (4時間 31分)

講座資料(こうぎしりょう):

授業資料
講座掲載日: 
最終更新日: 

受講レビュー

全体

3件

4.3

3件の受講レビュー

  • chihooi19851635님의 프로필 이미지
    chihooi19851635

    受講レビュー 5

    平均評価 5.0

    5

    100% 受講後に作成

    たくさん助けました

    • krstyle03v님의 프로필 이미지
      krstyle03v

      受講レビュー 5

      平均評価 5.0

      5

      70% 受講後に作成

      いろいろな強化学習講義を見ようと努力しましたが、私は個人的にこの方がとてもよく全体的な説明、強化学習の絵を興味深く説明してくださる方だと思います。まだセクション2までしか見ていませんが、ずっと気になりますね。ただ、私がRへのアクセシビリティが下がっているので、コードの理解がうまくいかなかったので、すぐにPythonコードが出てきたいと願っています。

      • doabc님의 프로필 이미지
        doabc

        受講レビュー 3

        平均評価 4.0

        3

        35% 受講後に作成

        人工知能+強化学習に対するベースがない状態で見るのはちょっと力強い。

        ¥6,803

        cocoの他の講座

        知識共有者の他の講座を見てみましょう!

        似ている講座

        同じ分野の他の講座を見てみましょう!