inflearn logo
inflearn logo

ๅผทๅŒ–ๅญฆ็ฟ’ๅ…ฅ้–€ใ‹ใ‚‰Deep Q-learning/Policy Gradientใพใง

ๆœ€่ฟ‘ใ€ไบบๅทฅ็Ÿฅ่ƒฝๅˆ†้‡Žใฎ้ฉšใในใๆˆๆžœใฏใ€ใ™ในใฆๅผทๅŒ–ๅญฆ็ฟ’ๅˆ†้‡Žใง็™บ่กจใ•ใ‚Œใฆใ„ใพใ™ใ€‚ ใƒญใƒœใƒƒใƒˆใ€่‡ชๅพ‹่ตฐ่กŒๆŠ€่ก“ใ€ไบบ้–“ใซไผผใŸๆฉŸๆขฐใชใฉใ€็œŸใฎไบบๅทฅ็Ÿฅ่ƒฝๆŠ€่ก“ใฎ้ฉๆ–ฐใ‚’้‚ใ’ใฆใ„ใ‚‹ๅผทๅŒ–ๅญฆ็ฟ’ๆŠ€่ก“ใ‚’ๅˆๅฟƒ่€…ใฎ่ฆ–็ทšใงๅˆ†ใ‹ใ‚Šใ‚„ใ™ใๅŸบ็คŽใ‹ใ‚‰้ซ˜็ดšใƒฌใƒ™ใƒซใพใงๅ–ใ‚ŠไธŠใ’ใพใ—ใŸใ€‚

้›ฃๆ˜“ๅบฆ ไธญ็ดšไปฅไธŠ

ๅ—่ฌ›ๆœŸ้–“ ็„กๅˆถ้™

Deep Learning(DL)
Deep Learning(DL)
Reinforcement Learning(RL)
Reinforcement Learning(RL)
Python
Python
PyTorch
PyTorch
Deep Learning(DL)
Deep Learning(DL)
Reinforcement Learning(RL)
Reinforcement Learning(RL)
Python
Python
PyTorch
PyTorch

ใŠ็Ÿฅใ‚‰ใ›

1 ไปถ

  • trimurti๋‹˜์˜ ํ”„๋กœํ•„ ์ด๋ฏธ์ง€

    ๅผทๅŒ–ๅญฆ็ฟ’ๅ…ฅ้–€ใ‹ใ‚‰Deep Q-learningใพใงๅ–ใ‚ŠไธŠใ’ใŸใ‚ณใƒผใ‚นๅ†…ๅฎนใ‚’Policy Gradientใพใงๆ‹กๅผตใ—ใพใ—ใŸใ€‚

    ็พไปฃ็š„ใชๅผทๅŒ–ๅญฆ็ฟ’ใฎใƒกใ‚คใƒณใ‚นใƒˆใƒชใƒผใƒ ใงใ‚ใ‚‹ๆ”ฟ็ญ–ๅ‹พ้…๏ผˆPolicy Gradient๏ผ‰ใฎๅŸบๆœฌๆฆ‚ๅฟตใฎ่ชฌๆ˜Žใ‚’่ฟฝๅŠ ใ—ใพใ—ใŸใ€‚

    0

๏ฟฅ6,950