๊ฐํํ์ต ์ ๋ฌธ์์ Deep Q-learning/Policy Gradient๊น์ง
์ต๊ทผ ์ธ๊ณต์ง๋ฅ ๋ถ์ผ์ ๋๋ผ์ด ์ฑ๊ณผ๋ ๋ชจ๋ ๊ฐํ ํ์ต ๋ถ์ผ์์ ๋ฐํ๋๊ณ ์์ต๋๋ค. ๋ก๋ด, ์์จ ์ฃผํ ๊ธฐ์ , ์ธ๊ฐ์ ๋ฎ์ ๊ธฐ๊ณ ๋ฑ ์ง์ ํ ์ธ๊ณต ์ง๋ฅ ๊ธฐ์ ์ ํ์ ์ ์ด๋ฃจ์ด ๋ด๊ณ ์๋ ๊ฐํ ํ์ต ๊ธฐ์ ์ ์ด๋ณด์์ ์์ ์ผ๋ก ์๊ธฐ ์ฝ๊ฒ ๊ธฐ์ด์์ ๊ณ ๊ธ ์์ค๊น์ง ๋ค๋ฃจ์์ต๋๋ค.
์๊ฐ์ 370๋ช
๋์ด๋ ์ค๊ธ์ด์
์๊ฐ๊ธฐํ ๋ฌด์ ํ

- ๋ฏธํด๊ฒฐ
16:07์ฌ๋ผ์ด๋์์ ํท๊ฐ๋ฆฌ๋ ๋ถ๋ถ์ด ์์ต๋๋ค
Policy Network(Q)์ ์ผ๋ฐ์ ์ธ Q-learning ๋ฌธ์ ์์์ behaviour policy(b)๊ฐ ๊ฐ์ ํ๋ ์ญํ ์ด ๋น์ทํ๊ฑฐ ๊ฐ์๋ฐ, ๋ง์ฝ ํ๋ฆฌ๋ค๋ฉด ์ถ๊ฐ์ ์ธ ์ค๋ช ์ ๋ถํ๋๋ ค๋ ๋ ๊น์?
python๋ฅ๋ฌ๋๊ฐํํ์ตpytorch์ต๊ทํ
ใป
5๋ฌ ์
0
47
2
- ๋ฏธํด๊ฒฐ
๋ฏธ๋ถ ๊ฒฐ๊ณผ๊ฐ ์ ์ ๋ ๊ฒ ๋์ค๋์ง ๊ถ๊ธํฉ๋๋ค.
6:49์ฏค์, MSBE = (delta_{t+1})^2์ ๋ฏธ๋ถ ๊ฒฐ๊ณผ๊ฐ 2*(delta_{t+1})* (\partial(delta_{t+1}}); ํฉ์ฑํจ์์ ๋ฏธ๋ถ, ์ ํํ๊ฐ ์๋ ํ๋ฉด์ ๋์ค๋ ๊ฒ์ฒ๋ผ ๋ฏธ๋ถ์ด ๋๋์ง ๊ถ๊ธ
python๋ฅ๋ฌ๋๊ฐํํ์ตpytorch์ต๊ทํ
ใป
5๋ฌ ์
0
46
1
- ๋ฏธํด๊ฒฐ
Taxi-v3์ ๋ํ ๋ ๊ฐ์ง์ง๋ฌธ
Taxi๊ฐ ๋๋คํ๊ฒ init๋ ์๋์ ๋ชฉ์ ์ง์ ์์น๋ฅผ ์๋ ์ด์ ๋ observations ํ๊ฒฝ์ด๋ผ ๊ทธ๋ฐ ๊ฑธ๊น์?๋๋คํ๊ฒ ๋ชฉ์ ์ง์ ์
python๋ฅ๋ฌ๋๊ฐํํ์ตpytorch์ต๊ทํ
ใป
6๋ฌ ์
0
34
1
- ๋ฏธํด๊ฒฐ
๊ทธ๋ฆผ์ ๋ํด์ ์ ์ดํด๊ฐ ์๋ฉ๋๋ค.
9๋ถ 52์ด์ Policy Improvement table์์๋ blue statement๋ฅผ ํต๊ณผํด์ ๊ฐ๋๋ฐ optimal์ด๋ผ๊ณ ํ์ดํ๊ฐ ๋์ ์๋๋ฐ, 14๋ถ 6์ด์์๋ blue statement
python๋ฅ๋ฌ๋๊ฐํํ์ตpytorch์ต๊ทํ
ใป
6๋ฌ ์
0
41
1
- ๋ฏธํด๊ฒฐ
stochastic state ๊ด๋ จ
์๋ ํ์ธ์. ์ฝ 4๋ถ ๊ฒฝ, value function ์ ๊ตฌํ ๋stochastic ํ๊ฒ state๊ฐ ๊ฒฐ์
python๋ฅ๋ฌ๋๊ฐํํ์ตpytorch๋ฅํจ๊ฐ
ใป
6๋ฌ ์
0
48
2
- ํด๊ฒฐ
reward, value functnio
์๋ ํ์ธ์.๊ฐํํ์ต ์์ฒด๊ฐ reward๋ฅผ ์ต๋ํ ํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต์ ํ๋ ๊ฒ์ธ๋ฐ,๊ทธ๋ผ ๊ฒฐ๊ตญ reward
python๋ฅ๋ฌ๋๊ฐํํ์ตpytorch๋ฅํจ๊ฐ
ใป
6๋ฌ ์
0
48
2
- ๋ฏธํด๊ฒฐ
์ ์ดํ๋ฅ / stochastic env.
์๋ ํ์ธ์.๊ทธ๋ผ stochastic env. ์์ํน์ action์ ์ ํํด์ ํํ์๋, ๊ทธ action์ด ์ด๋ฃจ์ด ์ง๋์ง ๋ค๋ฅธ action์ด ์ด๋ฃจ์ด ์ง๋์ง์
python๋ฅ๋ฌ๋๊ฐํํ์ตpytorch๋ฅํจ๊ฐ
ใป
6๋ฌ ์
0
46
1
- ํด๊ฒฐ
ํ๋ฅ ๋ก ์ policy ๊ด๋ จ
์๋ ํ์ธ์. ์ ์ดํ๋ฅ ๊ณผ stochastic policy ๊ฐ ํท๊ฐ๋ ค์ ๊ทธ๋ฐ๋ฐ,stoc
python๋ฅ๋ฌ๋๊ฐํํ์ตpytorch๋ฅํจ๊ฐ
ใป
6๋ฌ ์
0
32
1
- ๋ฏธํด๊ฒฐ
model based
model based method ์์๋ชจ๋ธ์ ์๋ค๋ ๊ฒ์ด, value function ์ ๋ณด๊น์ง ๋ค ์๊ณ ์๋ค๋ ๊ฒ์ผ๊น์? ๋ง์ฝ ์๋๋ผ
python๋ฅ๋ฌ๋๊ฐํํ์ตpytorch๋ฅํจ๊ฐ
ใป
6๋ฌ ์
0
42
1
- ํด๊ฒฐ
time sequential data ๊ด๋ จ
์๋ ํ์ธ์.๊ฐํํ์ต์ด time sequential data ๋ฅผ ๋ค๋ฃฌ๋ค๊ณ ํ์ จ๊ณ , ์์๋ก language ๋ฐ์ดํฐ ๋ฅผ ๋ง์ํ์ จ๋๋ฐ, ์ด๋ฐ ์ด์ ๋ก ์ต๊ทผ LLM ๊ฐ๋ฐ์,
python๋ฅ๋ฌ๋๊ฐํํ์ตpytorch๋ฅํจ๊ฐ
ใป
6๋ฌ ์
0
36
2
- ํด๊ฒฐ
Deep Q-Learning algorithm์ ๋ํ์ฌ
Deep Q-Learning algorithm์ ๋ํ์ฌtarget Q์ Q ํ์ต ๊ณผ์ ์์ Q๊ฐ์ด ํ์ต๋๋ฉด ํ๋๋ target Q์ Q๊ฐ ๊ฐ์ ์ง๋๊ฒ ์ ์ดํด๋์ง
python๋ฅ๋ฌ๋๊ฐํํ์ตpytorchhehehe
ใป
6๋ฌ ์
0
70
2
- ๋ฏธํด๊ฒฐ
Cartpole ํ๊ฒฝ ์ดํด ๋ฐ ์๊ฐํ ๊ด๋ จ ๋ฌธ์
[1]์๋ ํ์ธ์? ๊ฐํํ์ต ์ ๋ฌธ ๊ฐ์ ๋ฃ๊ณ ์์ต๋๋ค. ์์์ ์ผ๋ก ๋ฃ๊ณ ์๋๋ฐ ํ๊ฒฝ์ด Jupyter note์์ VS๋ก ๊ฐ์๊ฐ ๋ฐ๋ ์ด์ ๊ฐ ๊ถ๊ธํฉ๋๋ค. [2]VS๋ฅผ ์๋ก ์ค์นํด์ผํ๋์? <p style="text
python๋ฅ๋ฌ๋๊ฐํํ์ตpytorcholivetree
ใป
8๋ฌ ์
0
86
3
- ํด๊ฒฐ
์ค์ต-์ผ์ด๋ถ์ ํธ์(Frozen Lake) - ์ ์ฑ ๋ฐ๋ณต ์๊ณ ๋ฆฌ์ฆ ๊ตฌํ argmax
์๋ ํ์ธ์ ์๋์ ๊ฐ์ด new_action_values ์ max ๊ฐ์ด ๋ณต์๊ฐ ๋ฐ๊ฒฌ๋ ๊ฒฝ์ฐ ๋งจ์ฒ์ ๋ฐ๊ฒฌ๋ index ๋ง ํ์ ๋๋๊ฒ ๋ง๋๊ฑด๊ฐ์?<p styl
python๋ฅ๋ฌ๋๊ฐํํ์ตpytorchokputto
ใป
10๋ฌ ์
0
94
1
- ๋ฏธํด๊ฒฐ
์ค์ต์๋ฌ TImelimit
์๋ ํ์ธ์. Frozen lake ์ค์ต์์ ํด๋น ์ฝ๋ ์คํํ๋ฉด ์๋ฌ๊ฐ ๋์ต๋๋ค.ใ ใ ์ฝ๋ ์๋ชป์ง ๊ฑด ์๋๊ณ ์ฌ๋ ค์ฃผ์ ํ์ผ ๊ทธ๋๋ก ์คํํ์๋ ์๋ฌ๋ฉ๋๋ค.<img src="https://cdn.inflearn.com/public/files/posts/
python๋ฅ๋ฌ๋๊ฐํํ์ตpytorch์์ฑ์ ์์
ใป
0
135
2
- ํด๊ฒฐ
์ค์ต
์๋ ํ์ธ์. ๋ง์ํ์ ๋๋กcd ๋๋ ํ ๋ฆฌ๋ช ์ ๋ ฅํ๊ณ code .์ ๋ ฅํ๋ฉดcode ๋ ๋ด๋ถ ๋๋ ์ธ๋ถ๋ช ๋ ฌ ์คํํ ์ ์๋ ํ๋ก๊ทธ๋จ ๋๋ ๋ฐฐ์น ํ์ผ์ด ์๋๋๋ค ๋ผ๊ณ ๋์ต๋๋ค. ๋
python๋ฅ๋ฌ๋๊ฐํํ์ตpytorchํ๋ํ
ใป
0
232
6
- ํด๊ฒฐ
๊ฐ์์๋ฃ
๊ฐ์์๋ฃ๋ ๋ฐ๋ก ์๋์?
python๋ฅ๋ฌ๋๊ฐํํ์ตpytorch์์ฑ์ ์์
ใป
0
121
2
- ํด๊ฒฐ
๊ฐ์ 36๊ฐ์์์ ์ง๋ฌธ
์๋ ํ์ธ์! ์ด๋ฒ์ ๊ธ์ต๊ถ ํํ ํฌ ๊ธฐ์ ์ผ๋ก ์ด์งํ๋ฉด์ ๊ฐํํ์ต์ ์ง๋ฌด์ ํ์ฉํ ์ ์์๊นํ์ฌ ๊ณต๋ถํ๊ณ ์๋ ์ฌ๋์ ๋๋ค. import gymnasium as gym impor
python๋ฅ๋ฌ๋๊ฐํํ์ตpytorchํ๋ผ๋ฐ์ด๊ทธ๋ง
ใป
0
167
1
- ํด๊ฒฐ
Pytorch ์ค์น GPU ๋ฒ์ ์ผ๋ก ๋ค์ดํด๋ ๋๋์?
ํ์ฌ ์ ์ปดํจํฐ์ RTX 4060 GPU๊ฐ ์๋ ์ํ์ธ๋ฐ Pytorch ๋ค์ด๋ก๋๋ฅผ CPU ๋ฒ์ ๋ง๊ณ GPU ๋ฒ์ ์ผ๋ก ๋ค์ด๋ก๋ ํด๋ ๊ด์ฐฎ์๊น์? ์์ ์ ๋ฃ๋๋ฐ ๋ค๋ฅธ ์ง์ฅ์ด ์์๊น์ ํน์?
python๋ฅ๋ฌ๋๊ฐํํ์ตpytorchํ์ค์
ใป
0
331
2
- ํด๊ฒฐ
์ ์ฑ ๋ฐ๋ณต ์๊ณ ๋ฆฌ์ฆ ๊ตฌํ ์์ ์ ์ฑ ์ ๋ฐ์ดํธ ๋ฉ๋ชจ๋ฆฌ ๋ฌธ์
์ ์๋ #3. ์ ์ฑ ๊ฐ์ #policy_stable <- true policy_stable = True old_pi = pi #๊ฐ s์ ๋ํด: for s in range(num_states): # pi_s <- argm
python๋ฅ๋ฌ๋๊ฐํํ์ตpytorchBACK HO KIM
ใป
0
194
1
- ํด๊ฒฐ
๋ฐ๋ณต ์ ์ฑ ํ๊ฐ ์ค์ต ์๊ณ ๋ฆฌ์ฆ์์ ์ด๋ก ๊ณผ ์ฝ๋๊ฐ ํท๊ฐ๋ ค์์.
&nbs
python๋ฅ๋ฌ๋๊ฐํํ์ตpytorchBACK HO KIM
ใป
0
323
2






