[NLP ์์ ์ ๋ณต II] Transformer ๊ตฌ์กฐ ํด๋ถ: Attention ํ์ฅ๋ถํฐ ์ ์ฒด ๋ชจ๋ธ ์กฐ๋ฆฝ, ํ์ต๊น์ง
์ด ๊ฐ์๋ Transformer๋ฅผ ๋จ์ํ โ๊ตฌํํ๋ ๋ฒโ์ด ์๋๋ผ, ์ ์ด๋ฐ ๊ตฌ์กฐ๊ฐ ๋ง๋ค์ด์ก๋์ง, ๊ฐ ๋ชจ๋์ด ์ด๋ค ์ญํ ์ ํ๋์ง, ๊ทธ๋ฆฌ๊ณ ์ ์ฒด ๋ชจ๋ธ์ด ์ด๋ป๊ฒ ์๋ํ๋์ง๋ฅผ ์ค๊ณ์์ ๊ด์ ์์ ํด๋ถํ๋ ๊ณผ์ ์ ๋๋ค. Self-Attention๊ณผ Multi-Head Attention์ ๋ด๋ถ ๊ณ์ฐ ์๋ฆฌ๋ฅผ ๊น์ด ์๊ฒ ๋ถ์ํ๊ณ , Positional Encoding, Feed-Forward Network, EncoderยทDecoder ๊ตฌ์กฐ๊ฐ ์ด๋ค ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฑ์ฅํ๋์ง๋ฅผ ์์ยท๋ ผ๋ฌธยท๊ตฌํ ์ฝ๋๋ก ์ง์ ํ์ธํฉ๋๋ค. Attention์์ ์ถ๋ฐํด Transformer ์ ์ฒด ๊ตฌ์กฐ๋ฅผ ์ง์ ์กฐ๋ฆฝํ๊ณ , ์ค์ ๋ก ํ์ต๊น์ง ์ํํ๋ฉฐ ๋ชจ๋ธ์ด ์ด๋ป๊ฒ ๋์ํ๋์ง ์ฒด๋ํฉ๋๋ค. ์ด ๊ฐ์๋ โTransformer๋ฅผ ์์ ํ ์ดํดํ๊ณ ์ถ์ ์ฌ๋โ์ ์ํ ๊ฐ์ฅ ๊ตฌ์กฐ์ ์ด๊ณ ์ค์ ์ ์ธ ๋ก๋๋งต์ ๋๋ค.
๋ค๋ฅธ ์๊ฐ์๋ค์ด ์์ฃผ ๋ฌผ์ด๋ณด๋ ์ง๋ฌธ์ด ๊ถ๊ธํ์ ๊ฐ์?






