์ฑ„๋„ํ†ก ์•„์ด์ฝ˜

๊ฐ•ํ™”ํ•™์Šต ์ž…๋ฌธ์—์„œ Deep Q-learning/Policy Gradient๊นŒ์ง€

์ตœ๊ทผ ์ธ๊ณต์ง€๋Šฅ ๋ถ„์•ผ์˜ ๋†€๋ผ์šด ์„ฑ๊ณผ๋Š” ๋ชจ๋‘ ๊ฐ•ํ™” ํ•™์Šต ๋ถ„์•ผ์—์„œ ๋ฐœํ‘œ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋กœ๋ด‡, ์ž์œจ ์ฃผํ–‰ ๊ธฐ์ˆ , ์ธ๊ฐ„์„ ๋‹ฎ์€ ๊ธฐ๊ณ„ ๋“ฑ ์ง„์ •ํ•œ ์ธ๊ณต ์ง€๋Šฅ ๊ธฐ์ˆ ์˜ ํ˜์‹ ์„ ์ด๋ฃจ์–ด ๋‚ด๊ณ  ์žˆ๋Š” ๊ฐ•ํ™” ํ•™์Šต ๊ธฐ์ˆ ์„ ์ดˆ๋ณด์ž์˜ ์‹œ์„ ์œผ๋กœ ์•Œ๊ธฐ ์‰ฝ๊ฒŒ ๊ธฐ์ดˆ์—์„œ ๊ณ ๊ธ‰ ์ˆ˜์ค€๊นŒ์ง€ ๋‹ค๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค.

(4.7) ์ˆ˜๊ฐ•ํ‰ 34๊ฐœ

์ˆ˜๊ฐ•์ƒ 370๋ช…

๋‚œ์ด๋„ ์ค‘๊ธ‰์ด์ƒ

์ˆ˜๊ฐ•๊ธฐํ•œ ๋ฌด์ œํ•œ

์ด๋ก  ์‹ค์Šต ๋ชจ๋‘
์ด๋ก  ์‹ค์Šต ๋ชจ๋‘
์ธ๊ณต์ง€๋Šฅ
์ธ๊ณต์ง€๋Šฅ
ํŒŒ์ด์ฌ
ํŒŒ์ด์ฌ
ํŒŒ์ดํ† ์น˜
ํŒŒ์ดํ† ์น˜
์ด๋ก  ์‹ค์Šต ๋ชจ๋‘
์ด๋ก  ์‹ค์Šต ๋ชจ๋‘
์ธ๊ณต์ง€๋Šฅ
์ธ๊ณต์ง€๋Šฅ
ํŒŒ์ด์ฌ
ํŒŒ์ด์ฌ
ํŒŒ์ดํ† ์น˜
ํŒŒ์ดํ† ์น˜

์ƒˆ์†Œ์‹

1 ๊ฐœ

  • YoungJea Oh๋‹˜์˜ ํ”„๋กœํ•„ ์ด๋ฏธ์ง€

    ๊ฐ•ํ™”ํ•™์Šต ์ž…๋ฌธ์—์„œ Deep Q-learning ๊นŒ์ง€ ๋‹ค๋ฃจ์—ˆ๋˜ ๊ณผ์ • ๋‚ด์šฉ์„ Policy Gradient ๊นŒ์ง€ ํ™•์žฅํ•˜์˜€์Šต๋‹ˆ๋‹ค.

    ํ˜„๋Œ€์  ๊ฐ•ํ™”ํ•™์Šต์˜ main stream์ธ ์ •์ฑ… ๊ฒฝ์‚ฌ (Policy Gradient) ๊ธฐ๋ณธ ๊ฐœ๋… ์„ค๋ช…์„ ์ถ”๊ฐ€ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

    0

โ‚ฉ55,000