์ ๋ํฐ ๋จธ์ ๋ฌ๋ ์์ด์ ํธ ์์ ์ ๋ณต (์์ฉํธ)
์ด ๊ฐ์๋ฅผ ํตํด ๋ฉํฐ์์ด์ ํธ, ์ปค๋ฆฌํ๋ผ ํ์ต, ๋ถ์ฐํ์ต ๋ฑ ๋จธ์ ๋ฌ๋ ์์ด์ ํธ์ ๋ค์ํ ๊ธฐ๋ฅ๋ค์ ๋ฐฐ์ฐ๊ณ ์ง์ ์ฌ์ฉํด๋ณผ ์ ์์ต๋๋ค. ๋ํ ํธ๊ธฐ์ฌ ๊ธฐ๋ฐ ํํ, ๊ฐ๋ณ์ ์ธ ์ ๋ ฅ์๋ ๋์ ๊ฐ๋ฅํ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋ํด์๋ ํ์ตํ ์ ์์ต๋๋ค.
์๊ฐ์ 126๋ช
๋์ด๋ ์ค๊ธ์ด์
์๊ฐ๊ธฐํ ๋ฌด์ ํ

- ํด๊ฒฐ
๋ท์ง ckpt ๋ชจ๋ธ ํ์ผ์ onnx๋ณํ ํ unity์์ ์ถ๋ก
์๋ ํ์ธ์. ๋ท์ง ckpt ๋ชจ๋ธ ํ์ผ์ onnx๋ก ๋ณํ ํ unity์์ ์ถ๋ก ํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์๋ ค์ฃผ์ค ์ ์์๊น์?
unity๊ฐํํ์ตunity-ml-agentsuser123
ใป
8๋ฌ ์
0
144
2
- ํด๊ฒฐ
(PPO ์ค์ต 2) total_loss ๊ตฌํ๋ ์ฝ๋์์ action entropy ๋ ์ด๋ป๊ฒ ๊ณ์ฐ๋ ๊ฒ์ธ์ง ๊ถ๊ธํฉ๋๋ค.
์ฐ์ ์ข์ ์์ ๊ฐ์ฌ๋๋ฆฝ๋๋ค. PPO ์๊ณ ๋ฆฌ์ฆ ์์ ์์ PPO Actor-Critic Network ์ ์ ์ฒด ์์ค ๊ฐ์ clipped surrogate objective - c1 * value loss (critic loss)
unity๊ฐํํ์ตunity-ml-agents์ค์ฉ๊ณค
ใป
0
327
1
- ๋ฏธํด๊ฒฐ
์์ ํ์ผ ์คํ ์ค๋ฅ
<img src="https://cdn.inflearn.com/public/fil
unity๊ฐํํ์ตunity-ml-agents์ค์ค์
ใป
0
283
1
- ํด๊ฒฐ
PPO ์๊ณ ๋ฆฌ์ฆ์ ml-agents learn ๋ช ๋ น์ด๋ก ํ์ต ๋ฐ ์ถ๋ก ํ ๋ ๋ฉ์๋ ํธ์ถ ์์ ์ง๋ฌธ
์๋ ํ์ธ์!๋จผ์ ๊ธฐ์ดํธ์ ์ด์ด์ ์์ฉํธ ๊ฐ์๋ฅผ ๊ณต๊ฐํด์ฃผ์ ์ ์ ๋ง ๊ฐ์ฌํฉ๋๋ค!! ํด๋น ๊ฐ์๋ฅผ ๋ค์ผ๋ฉด์ PPO ์๊ณ ๋ฆฌ์ฆ์ ml-agents learn ๋ช ๋ น์ด๋ก ํ์ต ํ ๋์ ์ถ๋ก ํ ๋ ๋ฉ์๋ ํธ์ถ ์์์ ๋ํด์ ๊ถ๊ธํฉ๋๋ค
unity๊ฐํํ์ตunity-ml-agentsyji112
ใป
0
358
1






