๊ตฌํํ๋ฉฐ ๋ฐฐ์ฐ๋ Transformer
Multi Head Attention ๋ถํฐ Original Transformer ๋ชจ๋ธ, BERT, Encoder-Decoder ๊ธฐ๋ฐ์ MarianMT ๋ฒ์ญ ๋ชจ๋ธ, Vision Transformer ๊น์ง ์ฝ๋๋ก ์ง์ ๊ตฌํํ๋ฉฐ Transformer์ ๋ํด ์์๋ค์ด ๋ฐฐ์ฐ๊ฒ ๋ฉ๋๋ค.
์๊ฐ์ 283๋ช
๋์ด๋ ์ค๊ธ์ด์
์๊ฐ๊ธฐํ ๋ฌด์ ํ
- ๋ฏธํด๊ฒฐ
Embedding ๋ชจ๋ธ fine tuning ๊ด๋ จ ์ง๋ฌธ
๊ฐ์ฌ๋ ์๋ ํ์ธ์? 10๋ ์ ์ฏค ํ์ด์ฌ ๋จธ์ ๋ฌ๋ ์๋ฒฝ๊ฐ์ด๋, CNN ์๋ฒฝ๊ฐ์ด๋๋ฅผ ์๊ฐํ๊ณ ๋ง์ ๋์์ ๋ฐ์๋๋ฐ, Transformer ๊ฐ์๋ฅผ ๋ด์ จ๊ธธ๋ ๋ฐ๊ฐ์ด ๋ง์์ผ๋ก ๋ฐ๋ก ๊ตฌ๋งคํ์ต๋๋ค ใ ใ
๋ฅ๋ฌ๋pytorchencoder-decoderberttransformer์์ฟ ์๋ผ์ด๋
ใป
25์ผ ์
0
59
2
- ๋ฏธํด๊ฒฐ
์ฝ๋์ ์คํ๊ฐ ์๋ ๊ฒ ๊ฐ์ต๋๋ค
์๋ ํ์ธ์, ๊ฐ์ฌ๋ ๊ฐ์ ์ด์ฌํ ์ ๋ฃ๊ณ ์์ต๋๋ค.visionTransformer์์ฑ ๋ถ๋ถ์์,์ ๊ฐ ์๋ชป
๋ฅ๋ฌ๋pytorchencoder-decoderberttransformerlovewrite030110
ใป
ํ ๋ฌ ์
0
43
2
- ๋ฏธํด๊ฒฐ
์ฝ๋ ์คํ๊ฐ ์๋๊ฒ ๊ฐ์ต๋๋ค.
torch.manual_seed(123) HIDDEN_SIZE = 256 NUM_HEADS = 4 DEC_Q_SEQ_LEN = 10 ENC_K_SEQ_LEN = 20 BATCH_SIZE = 2 dec_t
๋ฅ๋ฌ๋pytorchencoder-decoderberttransformerjsmak
ใป
ํ ๋ฌ ์
0
58
2
- ๋ฏธํด๊ฒฐ
ํธ๋์คํฌ๋จธ ๋ชจ๋ธ ๊ตฌ์กฐ์์ Encode-Decoder Attenttion์ ๋ํด์
์๋ ํ์ธ์.. ๋ค์ ๋ ๊ถ๊ธํ ๊ฒ์ด ์๊ฒผ์ต๋๋ค.ํธ๋์คํฌ๋จธ์ ๊ฐ ์ธ์ฝ๋ ๋ธ๋ญ์ ์ถ๋ ฅ์ด ๋์ฝ๋ ๋ธ๋ญ์ Encode-Decoder Attention ์ผ๋ก ๋ค์ด๊ฐ๊ฒ ๋๋
๋ฅ๋ฌ๋pytorchencoder-decoderberttransformer์ฐ๋ง๋ก
ใป
2๋ฌ ์
0
56
2
- ๋ฏธํด๊ฒฐ
ํธ๋์คํฌ๋จธ ๊ตฌ์กฐ์์ ๋ธ๋ญ๊ฐฏ์์ ๋ํด์
์๋ ํ์ธ์.. ํธ๋์คํฌ๋จธ ๊ตฌ์กฐ์์ Encoder ๋ธ๋ญ์ ๊ฐฏ์์ Decoder ๋ธ๋ญ์ ๊ฐฏ์๊ฐ ๋์ผํด์ผ ํ๋ ๊ฒ์ธ๊ฐ์? ์๋๋ฉด Encoder -Decoder A
๋ฅ๋ฌ๋pytorchencoder-decoderberttransformer์ฐ๋ง๋ก
ใป
2๋ฌ ์
0
46
2
- ๋ฏธํด๊ฒฐ
RNN์์ ์ถ๋ ฅ y์๋ํด์..
์๋ ํ์ธ์.. RNN๋ชจ๋ธ ์ค๋ช ์์, ๊ถ๊ธํ ๊ฒ์ด ์์ต๋๋ค. y_i = h_i ๊ฐ ๋๋ ๊ฒ์ธ๊ฐ์?
๋ฅ๋ฌ๋pytorchencoder-decoderberttransformer์ฐ๋ง๋ก
ใป
2๋ฌ ์
0
45
1
- ๋ฏธํด๊ฒฐ
embedding ๊ฐ ์๊ฐํ ํด๋ณด๊ธฐ์์
์๋ ํ์ธ์..16๊ฐ ์๋ฒ ๋ฉ ๊ฐ ์๊ฐํ ํด๋ณด๊ธฐ์์ ๊ถ๊ธํ ๊ฒ์ด ์์ต๋๋ค.๋ฒํธ ํ ํฌ๋์ด์ ์ ๋ชจ๋ธ์ ๋ค์ด๋ก๋ ๋ฐ์ ๋ ๋ค์๊ณผ ๊ฐ์ ์ค๋ฅ๊ฐ ๋ฌ๋๋ฐ..202
๋ฅ๋ฌ๋pytorchencoder-decoderberttransformer์ฐ๋ง๋ก
ใป
2๋ฌ ์
0
40
1
- ํด๊ฒฐ
length_penalty ๋ถ๋ถ์ด ์๋ ๊ฒ ๊ฐ์ต๋๋ค.
130๊ฐ ๋๋ ์ฆ์์ ๋ค์ ์น์ ์ด ์๋๋ผ length_penalty์ ๋ํ ์ค๋ช ์ ํด์ฃผ์ ๋ค๊ณ ํ์ จ๋๋ฐ ์๋ ๊ฒ ๊ฐ์ต๋๋ค!
๋ฅ๋ฌ๋pytorchencoder-decoderberttransformerjcy4023
ใป
2๋ฌ ์
1
41
1
- ๋ฏธํด๊ฒฐ
๋ฉํฐ ํค๋ ์ ํ ์ดํ ์ ์์ Wq, Wk, Wv์ ๊ตฌ์กฐ ๊ด๋ จ ์ง๋ฌธ
ํ๋ฐ๋ถ ์ฌ๋ผ์ด๋ ๊ทธ๋ฆผ์ Wq, Wk, Wv ํ๋๋ก ๊ณ์ฐ์ด ๋์ด ํค๋๋ณ๋ก ๋๋์ด์ง๋ค๋ ํํ๊ฐ์ด ๋ณด์ด๋๋ฐ, ์คํด์ ์์ง๊ฐ ์๋๊ฒ ๊ฐ์ต๋๋ค. ๋ง์ฝ Wq, Wk, Wv๊ฐ ๋ฉํฐ ํค๋์ ๊ฐ๊ฐ์ Wq, Wk, Wv๊ฐ concat๋
๋ฅ๋ฌ๋pytorchencoder-decoderberttransformerHYUN TAEK CHOI
ใป
3๋ฌ ์
0
66
3
- ๋ฏธํด๊ฒฐ
MLM, NSP ๊ตฌํ ์ฌ๋ถ
์๋ ํ์ธ์ ๊ฐ์ฌ๋.BERT ํ์ต ํํธ์ ๊ด๋ จํ์ฌ ๊ถ๊ธํ ์ ์ด ์์ด ์ง๋ฌธ๋๋ฆฝ๋๋ค. ํ
๋ฅ๋ฌ๋pytorchencoder-decoderberttransformer์ํด๋น
ใป
4๋ฌ ์
0
59
2
- ๋ฏธํด๊ฒฐ
bert encoding input_ids.size(1)์ ๋ํ์ฌ
์๋ ํ์ธ์ ๊ฐ์ฌ๋.BERT ๊ด๋ จ ๊ฐ์๋ฅผ ๋งค์ฐ ์ ์ตํ๊ฒ ๋ฃ๊ณ ์์ต๋๋ค. Embeddi
๋ฅ๋ฌ๋pytorchencoder-decoderberttransformer์ํด๋น
ใป
4๋ฌ ์
0
51
2
- ๋ฏธํด๊ฒฐ
ํธ๋์คํฌ๋จธ ํ์ต ๊ฐ์
์๋ ํ์ธ์, ๊ฐ์ฌ๋.๊ฐ์ ์ ๋ฃ๊ณ ์์ต๋๋ค. ํ ๊ฐ์ง ๊ถ๊ธํ ์ ์ด ์๋๋ฐ์, ํธ๋์ค
๋ฅ๋ฌ๋pytorchencoder-decoderberttransformer์ํด๋น
ใป
4๋ฌ ์
0
81
2
- ๋ฏธํด๊ฒฐ
Q, K, V ์ด๊ธฐ ์๋ฒ ๋ฉ
์๋ ํ์ญ๋๊น, ๊ฐ์ฌ๋.ํธ๋์คํฌ๋จธ์ ๋ํ ์ธ์ฌํ๊ณ ๊น์ด ์๋ ๊ฐ์๋ฅผ ์ค๋นํด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค. ๊ฐ์ ์ ๋ง ์ ์ตํ๊ฒ ์ ๋ฃ๊ณ ์์ต๋๋ค. S
๋ฅ๋ฌ๋pytorchencoder-decoderberttransformer์ํด๋น
ใป
5๋ฌ ์
0
60
1






