๊ฐํํ์ต ์ ๋ฌธ์์ Deep Q-learning/Policy Gradient๊น์ง
์ต๊ทผ ์ธ๊ณต์ง๋ฅ ๋ถ์ผ์ ๋๋ผ์ด ์ฑ๊ณผ๋ ๋ชจ๋ ๊ฐํ ํ์ต ๋ถ์ผ์์ ๋ฐํ๋๊ณ ์์ต๋๋ค. ๋ก๋ด, ์์จ ์ฃผํ ๊ธฐ์ , ์ธ๊ฐ์ ๋ฎ์ ๊ธฐ๊ณ ๋ฑ ์ง์ ํ ์ธ๊ณต ์ง๋ฅ ๊ธฐ์ ์ ํ์ ์ ์ด๋ฃจ์ด ๋ด๊ณ ์๋ ๊ฐํ ํ์ต ๊ธฐ์ ์ ์ด๋ณด์์ ์์ ์ผ๋ก ์๊ธฐ ์ฝ๊ฒ ๊ธฐ์ด์์ ๊ณ ๊ธ ์์ค๊น์ง ๋ค๋ฃจ์์ต๋๋ค.
(4.7) ์๊ฐํ 34๊ฐ
์๊ฐ์ 370๋ช
๋์ด๋ ์ค๊ธ์ด์
์๊ฐ๊ธฐํ ๋ฌด์ ํ
์ด๋ก ์ค์ต ๋ชจ๋
์ด๋ก ์ค์ต ๋ชจ๋
์ธ๊ณต์ง๋ฅ
์ธ๊ณต์ง๋ฅ
ํ์ด์ฌ
ํ์ด์ฌ
ํ์ดํ ์น
ํ์ดํ ์น
์ด๋ก ์ค์ต ๋ชจ๋
์ด๋ก ์ค์ต ๋ชจ๋
์ธ๊ณต์ง๋ฅ
์ธ๊ณต์ง๋ฅ
ํ์ด์ฌ
ํ์ด์ฌ
ํ์ดํ ์น
ํ์ดํ ์น

๊ฐํํ์ต ์ ๋ฌธ์์ Deep Q-learning ๊น์ง ๋ค๋ฃจ์๋ ๊ณผ์ ๋ด์ฉ์ Policy Gradient ๊น์ง ํ์ฅํ์์ต๋๋ค.
ํ๋์ ๊ฐํํ์ต์ main stream์ธ ์ ์ฑ ๊ฒฝ์ฌ (Policy Gradient) ๊ธฐ๋ณธ ๊ฐ๋ ์ค๋ช ์ ์ถ๊ฐํ์์ต๋๋ค.






