inflearn logo
inflearn logo

Rで簡単に孊ぶ匷化孊習

Q-learningからDeep Q-learningに぀いお孊び、匷化孊習をRで具珟しおみる時間がありたす。 Deep Q-network を超えお Self-imitation learning ず Random Netowrk Distillation たでの党䜓的な匷化孊習内容を扱いたす。

難易床 䞭玚以䞊

受講期間 無制限

Machine Learning(ML)
Machine Learning(ML)
R
R
Reinforcement Learning(RL)
Reinforcement Learning(RL)
Machine Learning(ML)
Machine Learning(ML)
R
R
Reinforcement Learning(RL)
Reinforcement Learning(RL)
날개 달늰 동전

講座 추천하고 성장곌 수익을 만듀얎 볎섞요!

날개 달늰 동전

マヌケティングパヌトナヌズ

講座 추천하고 성장곌 수익을 만듀얎 볎섞요!

受講埌に埗られるこず

  • 匷化孊習理論

  • Q-learningからDeep Reinforcement Learningたで

  • Explorationのためのいく぀かの匷化孊習技術

🙆🏻‍♀ Q-learningずDeep Q-learningを超えおRNDたで🙆🏻‍♂

🗒講矩玹介

アルファゎで始たった匷化孊習のブヌム、匷化孊習はアルファゎが出る以前から存圚しおいたアルゎリズムであるこずを知っおいたしたか

匷化孊習は、䞀般的に勉匷するのに進入障壁が高い分野ずしお知られおいたす。アルファゎが出おきおから倚くの人が興味を持ち始めおいたしたが、内容が簡単ではなく、勉匷するのが難しいです。匷化孊習を勉匷したかったのですが、難しくお始たらなかった方のために重芁な郚分だけを遞んでたずめおお知らせしたす。 Q-learning から DQN そしお DQN を超えお匷化孊習の䞻な問題である sparse reward problem ず、これを解決するためのいく぀かのアむデアを玹介したす。短時間で匷化孊習を党䜓的に勉匷できる良い講矩になりたす。

🌈匷化孊習は䜕ですか

匷化孊習がいったい䜕なのか、匷化孊習にはどのような芁玠があり、どのように孊習が進行するのかを䟋に次々ず説明したす。

🌈手で盎接解くQ-learning

蚀葉だけ説明しおは理解できたせん。手で盎接Q-learingを解きながら匷化孊習の抂念をしっかり理解しおみたしょう。


🌈 Deep Reinforcemen learningの基本ずなるDQN

Deep reinforcement learningの基本これは、Deep Q-networkDQNからPerDQNを含む倚くのDQN倉圢、actorcritic、Self-Imitation learingたで重芁な内容を䞭心にたずめおいたす。

🌈匷化孊習の䞻な問題であるSparse reward problem

匷化孊習の䞻な問題である sparse reward problem に぀いお話し、これを解決するためのいく぀かの技法に぀いお話したす。

私たちは䞻に「curiosity」たたは「prediction error」に぀いお話し、それらを掻甚したいく぀かのアルゎリズムに぀いお玹介したす。

(SIL、Random Network Distillationなど)

🌈 Rで盎接実装しおみるDQN/ActorCritic/SIL/RND

盎接コヌドで実装しおみないず半分だけ知っおいるのでしょう最も重芁なモデルに぀いおは、Rで盎接匷化孊習アルゎリズムを組み蟌み、結果を䞀緒に確認しおみおください。

そしおExplorationのためのRNDが本圓に効果があるかどうかを䞀緒に確認しおみたしょう。

🙋🏻‍♂講矩に関する予想される質問

Q. 遞手の知識はありたすか
A. 機械孊習、NNに関する基本的な抂念があるこずをお勧めしたす。

Q. Pythonで緎習したせんか
A. 珟圚はRで実習コヌドを実装しお講矩をアップロヌドし、今埌はpythonで実習するコヌドをアップロヌドする予定です。

こんな方に
おすすめです

孊習察象は
誰でしょう

  • 匷化孊習簡単に孊びたい人

  • 短時間で党䜓的な匷化孊習を孊びたい人

前提知識、
必芁でしょうか

  • Rプログラミング䞭玚スキル

  • Neural ネットワヌクの基本的な理解

  • 機械孊習の基本的な知識

こんにちは
cocoです。

8,412

受講生

512

受講レビュヌ

136

回答

4.4

講座評䟡

20

講座

孊郚では統蚈孊を専攻し、産業工孊人工知胜の博士号を取埗しお今もなお勉匷䞭の無職です。

受賞

ㆍ 第6回ビッグコンテスト ゲヌムナヌザヌ離脱アルゎリズム開発 / NC゜フト賞(2018)

ㆍ 第5回ビッグコンテスト 䜏宅ロヌン延滞者予枬アルゎリズム開発 / 韓囜情報通信振興協䌚長賞(2017)

ㆍ 2016 気象ビッグデヌタコンテスト / 気象産業振興院長賞(2016)

ㆍ 第4回ビッグコンテスト 保険詐欺予枬アルゎリズム開発 / 本遞進出(2016)

ㆍ 第3回ビッグコンテスト 野球詊合予枬アルゎリズム開発 / 未来創造科孊郚 長官賞(2015)

* blog : https://bluediary8.tistory.com

䞻に研究しおいる分野は、デヌタサむ゚ンス、匷化孊習、ディヌプラヌニングです。

クロヌリングずテキストマむニングは、珟圚は趣味でやっおいたす :)

クロヌリングを利甚しお、人気のコミュニティ投皿だけを収集しお衚瀺する「マロン」ずいうアプリを開発し、

党囜のグルメ店リストずブログを収集しお、グルメ掚薊アプリも䜜りたしたね :) (芋事に倧倱敗したしたが..)

珟圚は人工知胜を研究しおいる博士課皋の孊生です。

もっず芋る

カリキュラム

党䜓

20件 ∙ (4時間 31分)

講座資料こうぎしりょう:

授業資料
講座掲茉日: 
最終曎新日: 

受講レビュヌ

党䜓

3ä»¶

4.3

3件の受講レビュヌ

  • krstyle03v님의 프로필 읎믞지
    krstyle03v

    受講レビュヌ 5

    ∙

    平均評䟡 5.0

    5

    70% 受講埌に䜜成

    いろいろな匷化孊習講矩を芋ようず努力したしたが、私は個人的にこの方がずおもよく党䜓的な説明、匷化孊習の絵を興味深く説明しおくださる方だず思いたす。ただセクション2たでしか芋おいたせんが、ずっず気になりたすね。ただ、私がRぞのアクセシビリティが䞋がっおいるので、コヌドの理解がうたくいかなかったので、すぐにPythonコヌドが出おきたいず願っおいたす。

    • doabc님의 프로필 읎믞지
      doabc

      受講レビュヌ 3

      ∙

      平均評䟡 4.0

      3

      35% 受講埌に䜜成

      人工知胜+匷化孊習に察するベヌスがない状態で芋るのはちょっず力匷い。

      • chihooi19851635님의 프로필 읎믞지
        chihooi19851635

        受講レビュヌ 5

        ∙

        平均評䟡 5.0

        5

        100% 受講埌に䜜成

        たくさん助けたした

        cocoの他の講座

        知識共有者の他の講座を芋おみたしょう

        䌌おいる講座

        同じ分野の他の講座を芋おみたしょう

        ï¿¥6,767