๊ฒฝ๋ ฅ:
(ํ) ML Engineer @ MakinaRocks
(์ ) ML Engineer @ DearGen
(์ ) ML Engineer @ DeepBio
(์ ) Research Student @ UCL NLP Group, Streetbees
(์ ) Research Student @ ICL Photonics Lab
ํ๋ ฅ:
University College London (UCL): MSc in Machine Learning (๋จธ์ ๋ฌ๋ ์์ฌ) (ํ์ : Distinction, GPA 4.0/4.0)
Imperial College London (ICL): BSc in Theoretical Physics (์ด๋ก ๋ฌผ๋ฆฌํ ํ์ฌ) (ํ์ : First Class Honours, GPA 4.0/4.0)
์๊ฐ:
5๋ ์ฐจ Machine Learning Engineer์ ๋๋ค. (Google DeepMind๊ฐ ์ถ๋ฒํ์๊ณ , Demis Hasabis๊ฐ ๋ฐ์ฌ๊ณผ์ ์ ํ) University College London์์ ๋จธ์ ๋ฌ๋ ์์ฌ๋ฅผ ์ ๊ณตํ์์ต๋๋ค. ์์ฌ ๋๋ NLP์์ Knowledge Graph Embedding์ ์ฐ๊ตฌํ์๊ณ , DeepBio์์๋ Medical Diagnosis์ ์ ์ฉ๋๋ Image Classification, Segmentation ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ค์ ๊ฐ๋ฐํ์์ต๋๋ค. Deargen์์๋ ์ ์ฝ ๊ฐ๋ฐ์ Drug Target Interaction์ ๊ฐ์ ๋ฌธ์ ์ ์ฉ๋๋ GNN, RNN, Transformer ๋ฑ๋ฑ์ ๋ค์ํ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ค์ ์ ์ฉํ ๊ฒฝํ์ด ์์ต๋๋ค. ํ์ฌ ์ฌ์ง์ค์ธ MakinaRocks์์๋ ์ ์กฐ ํ์ฅ์ ๋ก๋ดํ์ ์ด์ํ์ง์ ์ ์ฉ๋๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ๋ฐ ๋จธ์ ๋ฌ๋ ์์คํ ์ ๊ตฌ์ถํ๊ณ ์์ต๋๋ค.
Courses
Reviews
- Complete mastery of deep learning theory + PyTorch practice
- Complete mastery of deep learning theory + PyTorch practice
- Complete mastery of deep learning theory + PyTorch practice
- Complete mastery of deep learning theory + PyTorch practice
- Complete mastery of deep learning theory + PyTorch practice
Posts
Q&A
ํน์ ์ด๋ก ๊ฐ์ ์๋ฃ๋ ๊ณต์ ๊ฐ ๊ฐ๋ฅํ์ค๊น์?
์๋ ํ์ธ์~์ด๋ก ๊ฐ์ ์๋ฃ๋ ๊ฐ ์น์ ์ ์๊ฐ ์์ (์ฒซ ๋ฒ์งธ ๊ฐ์)์์ ๋ค์ด๋ก๋ ๋ฐ์ ์ ์์ต๋๋ค!
- 1
- 1
- 79
Q&A
[Sec. 2-8 ์ค์ ] weight ๊ณฑ์ ์์น
์๋ ํ์ธ์!๋ต๋ณ์ด ๋ฆ์ด์ ธ์ ์ฃ์กํฉ๋๋ค ใ ใ ์๋ ์ธํ๋ฐ AI ์ธํด์ ๋ต๋ณ์ด ๋ง์ต๋๋ค!
- 0
- 2
- 60
Q&A
[sec. 2-8 ์ค์ต] ๋ฐฐ์น์ฌ์ด์ฆ์ ์ ํ
์๋ ํ์ธ์!๋ต๋ณ์ด ๋ฆ์ด์ ธ์ ์ฃ์กํฉ๋๋ค ใ ใ ๋ค ์๋ ์ธํ๋ฐ AI ์ธํด์ ๋ต๋ณ์ด ๋ง์ต๋๋ค!
- 0
- 2
- 74
Q&A
[section 14 / [์ค์ต] ์ง์ ๋ง๋ CNN ๋ชจ๋ธ๊ณผ ResNet, VGGNet์ ํ์ฉํ CV ํ๋ก์ ํธ] transforms.Normalize ์ง๋ฌธ
์๋ ํ์ธ์!์ข์ ์ง๋ฌธ ๊ฐ์ฌํฉ๋๋ค!mean๊ณผ std์ ๋ค์ด๊ฐ์๋ ๊ฐ๋ค์ 0~1 ์ฌ์ด๋ก normalize (์ ๊ทํ)๋ CIFAR ๋ฐ์ดํฐ์ ์ ๊ฐ ์ฑ๋๋ณ ํ๊ท ๊ณผ ํ์คํธ์ฐจ ๊ฐ๋ค ์ ๋๋ค! ์ด๋ฏธ ๊ณ์ฐ๋์ด ์๋ ๊ฐ์ ๊ฐ์ ธ์์ ์ฌ์ฉํ ๊ฒ์ ๋๋ค.์ ํฌ๋ 0~1 ์ฌ์ด๋ก CIFAR ๋ฐ์ดํฐ์ ์ ์ ๊ทํํ ํ, ์ ๊ทํ๋ ๋ฐ์ดํฐ์ ์ด ํ๊ท ์ด 0์ด ๋๊ณ ํ์คํธ์ฐจ๊ฐ 1์ด ๋๋๋ก standardize (ํ์คํ)ํ๊ณ ์ถ์ต๋๋ค. ๋ฐ๋ผ์ (X - mean) / std ๋ก ๊ฐ ์ฑ๋๋ณ๋ก ํ์คํํ๋ ๊ฒ์ ๋๋ค! (์ฌ์ง)
- 1
- 1
- 119
Q&A
[section 14 / VGGNet ] receptive filed ์ง๋ฌธ
์๋ ํ์ธ์!๋ณ์ ํ์ ๋๋ค.๊ฐ์ ์๋ฃ์ ์คํ๊ฐ ์์๋ค์. ์ฃ์กํฉ๋๋ค.๋ค ๋ง์ต๋๋ค! (3,3) conv layer 2๊ฐ์ ๊ฒฝ์ฐ๋ Receptive Field๊ฐ (5, 5)๊ฐ ๋๋ ๊ฒ์ด ๋ง์ต๋๋ค!82 ํ์ด์ง๋ ๋ค์๊ณผ ๊ฐ์ด ์์ ๋ฉ๋๋ค. ์ข์ ์ง์ ๊ฐ์ฌํฉ๋๋ค!(์ฌ์ง)
- 1
- 2
- 74
Q&A
[์น์ 3, PyTorch๋ก ๊ตฌํํด๋ณด๋ Loss Function] ๋ถ๋ฅtask lossํจ์ ์ง๋ฌธ์ ๋๋ค.
์๋ ํ์ธ์์ข์ ์ง๋ฌธ ๊ฐ์ฌํฉ๋๋ค!๋ค ๊ฒฐ๋ก ๋ถํฐ ๋ง์๋๋ฆฌ์๋ฉด, nn.BCELoss์ nn.BCEWithLogitsLoss ๋ชจ๋ ๋ค์ค ๋ถ๋ฅ ๋ฌธ์ ์ Loss ํจ์๋ก ์ฌ์ฉํด๋ ๊ด์ฐฎ์ต๋๋ค!์ ์ค์ต ๊ฐ์์์๋ class ๊ฐ์๊ฐ 10์ธ ์์ ๋ฅผ ์ฌ์ฉํด์ nn.BCELos์ nn.BCEWithLogitsLoss์ ์ ์ฉํ์์ต๋๋ค.๋ค๋ง ์ฃผ์ํ ์ ์ nn.BCELoss์์๋ Ground Truth ๊ฐ์ด (batch_size, n_class) ํฌ๊ธฐ์ one-hot-vector ๋ก ์ ๋ ฅ๋์ด์ผ ํ๋ค๋ ๊ฒ์ ๋๋ค.์ฆ, nn.BCELoss์์๋ ๋ชจ๋ธ์ด ์์ธกํ ํ๋ฅ ๊ฐ๊ณผ ์ค์ ์ ๋ต(One-Hot Vector) ๊ฐ์ ๋น๊ต๊ฐ ์ด๋ฃจ์ด์ง๋๋ค.์๋ฅผ ๋ค์ด, ํด๋์ค ๊ฐ์๊ฐ 3๊ฐ์ด๊ณ , ํ๋์ ๋ฐ์ดํฐ ์ํ์ด ์๋ค๊ณ ๊ฐ์ ํด๋ณด๊ฒ ์ต๋๋ค.๋ชจ๋ธ์ ์์ธก๊ฐ: [0.8, 0.1, 0.1] (๊ฐ ํด๋์ค์ ๋ํ ์์ธก ํ๋ฅ )์ ๋ต(One-Hot Vector): [1, 0, 0]์ด ๊ฒฝ์ฐ, ์ฒซ ๋ฒ์งธ ํด๋์ค(0.8 vs 1), ๋ ๋ฒ์งธ ํด๋์ค(0.1 vs 0), ์ธ ๋ฒ์งธ ํด๋์ค(0.1 vs 0) ์ด๋ ๊ฒ ๊ฐ๋ณ์ ์ผ๋ก ๋น๊ตํ๋ฉด์ Binary Cross Entropy๋ฅผ ๊ณ์ฐํฉ๋๋ค.์ฆ, ๊ฐ ํด๋์ค๋ง๋ค ๋ ๋ฆฝ์ ์ผ๋ก ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ๋ฅผ ์ํํ๋ ๊ฒ์ฒ๋ผ ์๋ํ๋ค๊ณ ๋ณด๋ฉด ๋ฉ๋๋ค!nn.BCEWithLogitsLoss๋ ๊ธฐ๋ณธ์ ์ธ ๊ฐ๋ ์ ๊ฐ์ต๋๋ค. ๋ค๋ง, sigmoid ํ์ฑํ ํจ์๋ฅผ ๋ด๋ถ์ ์ผ๋ก ํฌํจํ๊ณ ์์ด์ ๋ชจ๋ธ์ ์ถ๋ ฅ๊ฐ์ ๋ฐ๋ก ๋ฃ์ด๋ ๋๋ค๋ ์ฐจ์ด๊ฐ ์์ต๋๋ค. (nn.BCELoss๋ ์์ธก๊ฐ์ ๋จผ์ sigmoid๋ฅผ ๊ฑฐ์ณ์ผ ํฉ๋๋ค.)์ ๋ฆฌํด๋ณด์๋ฉด:nn.BCELoss & nn.BCEWithLogitsLoss โ ๋ค์ค ๋ถ๋ฅ ๋ฌธ์ ์์๋ ์ฌ์ฉ ๊ฐ๋ฅ!๋ค๋ง, nn.BCELoss๋ฅผ ์ฌ์ฉํ ๋๋ ์ ๋ต ๋ฐ์ดํฐ๋ฅผ One-Hot Vector ํํ๋ก ๋ง๋ค์ด์ผ ํจ๊ฐ ํด๋์ค๋ณ๋ก ๊ฐ๋ณ์ ์ผ๋ก ํ๋ฅ ๊ฐ์ ๋น๊ตํ๋ ๋ฐฉ์์ด๋ผ ์๊ฐํ๋ฉด ์ดํดํ๊ธฐ ์ฌ์BCEWithLogitsLoss๋ sigmoid๊ฐ ํฌํจ๋์ด ์์ด ์ถ๊ฐ ๋ณํ ์์ด ์ฌ์ฉ ๊ฐ๋ฅ(์ฌ์ง)
- 1
- 2
- 152
Q&A
KL Div Loss์์ Negative Entropy๋ฅผ ๋ํด์ฃผ๋ ์๋ฏธ์ ๋ํด์
์๋ ํ์ธ์ ๋ณ์ ํ์ ๋๋ค!์ข์ ์ง๋ฌธ ๊ฐ์ฌํฉ๋๋ค!์ฒซ๋ฒ์งธ๋ก๋, KL Div. Loss์์ Negative Entropy๊ฐ ๋ชจ๋ธ์ ์ฑ๋ฅ๊ณผ ๊ด๊ณ์๋ค๊ณ ๋ณด๊ธฐ๋ ์ด๋ ต์ต๋๋ค.Negative Entropy๊ฐ ๋์์๋ก ํ์ต ๋ฐ์ดํฐ์ ์ ๋์ด๋๊ฐ ๋ฎ๊ณ , ๋ฐ๋๋ก ๋ฎ์์๋ก ํ์ต ๋ฐ์ดํฐ์ ์ ๋์ด๋๊ฐ ๋๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค.๋ง์ฝ์ KL Div Loss์ CE Loss์ Gradient Descent์ ์ํ ์์คํจ์๋ก์๊ฐ ์๋๋ผ ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ ์งํ๋ก ํ์ฉํ๋ ๊ฒฝ์ฐ๋ฅผ ์์๋ก ๋ค์ด๋ณด๊ฒ ์ต๋๋ค. ๊ทธ๋ฐ ๊ฒฝ์ฐ์๋ "๋ฐ์ดํฐ์ ์ ๋์ด๋๋ ๊ณ ๋ คํด์ ๋ชจ๋ธ์ด ์ผ๋ง๋ ์ ๋ง์ถ๋๊ฐ"์ ์ธก๋ฉด์์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ณ ์ถ์ผ๋ฉด KL Div. Loss์ ์ฌ์ฉํด ๋ณผ ์ ์์ต๋๋ค. ๋ฐ๋ฉด์ "๋ฐ์ดํฐ์ ์ ๋์ด๋์ ์๊ด์์ด ๋ชจ๋ธ์ด ์ผ๋ง๋ ์ ๋ง์ถ๋๊ฐ"์ ์ธก๋ฉด์์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ณ ์ถ์ผ๋ฉด Cross Entropy Loss์ ์ฌ์ฉํ ์ ์๋ ๊ฒ์ ๋๋ค.ํ์ง๋ง, Negative Entropy ๊ฐ์ด ๋ชจ๋ธ์ parameter์ ๋ ๋ฆฝ์ ์ธ ๊ฐ์ ๋๋ค. ๋ฐ๋ผ์ ๋ชจ๋ธ์ parameter์ ๋ํ Gradient (๊ฒฝ์ฌ)๋ฅผ ๊ณ์ฐํ๊ฒ ๋๋ฉด 0์ด ๋ฉ๋๋ค. ๋ฐ๋ผ์ Gradient Descent์์๋ KL Div. Loss์ CE Loss์ ๋ ๋ค ๋๊ฐ์ Gradient์ ๊ฐ์ง๊ฒ ๋๋ ๊ฒ์ด๊ณ Gradient Descent ๊ด์ ์์๋ Negative Entropy ๊ฐ์ ์ํฅ์ ์ฃผ์ง ์๋ ๊ฒ์ ๋๋ค.๋ฐ๋ผ์ ๋ง์ฝ์ Negative Entropy ๊ฐ๋ ํ์ฉํ๊ณ ์ถ๋ค๋ฉด, ํด๋น ๊ฐ์ ๋น๋กํ Learning Rate์ Gradient step์ ๊ณฑํด์ฃผ๋ ๋ฐฉ์์ผ๋ก Gradient Descent ์๊ณ ๋ฆฌ์ฆ์ ์์ ํด ๋ณผ ์๋ ์์ต๋๋ค!
- 1
- 2
- 132
Q&A
GoogleNet Inception ๋ชจ๋
์๋ ํ์ธ์!Inception Block์ ๊ตฌ์ฑํ๋ ๊ฐ Conv2d, MaxPool2d์ ์ ๋ ฅ๋๋ Feature ํฌ๊ธฐ์ ์ถ๋ ฅ๋๋ Feature ํฌ๊ธฐ๊ฐ ๋์ผํ๋๋ก Kernel Size, Stride, Padding์ด ์ค์ ๋์ด ์์ต๋๋คMaxPool2d์ Kernel Size = 3, Stride =1, Padding=1Conv2d์ Kernel Size = 3, Stride =1, Padding=1์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค!๋ฐ๋ผ์ Concatenationํ๊ฒ๋๋ Conv2d๊ฐ ์ถ๋ ฅํ๋ Feature์ shape๊ณผ MaxPool2d๊ฐ ์ถ๋ ฅํ๋ Feature์ shape๋ค์ ์๋ก ๋์ผํ ๊ฒ์ ๋๋ค.์๋๋ Inception3a Layer์ ์์๋ฅผ ๊ฐ์ ธ์จ ๊ฒ์ ๋๋ค!(์ฌ์ง)
- 1
- 2
- 101
Q&A
Batch Normalization ํจ๊ณผ
์๋ ํ์ธ์!์ข์ ์ง๋ฌธ ๊ฐ์ฌํฉ๋๋ค!๊ฐ์ธ์ ์ธ ์ฌ์ ์ผ๋ก ๋ต๋ณ์ด ๋ง์ด ๋ฆ์ด์ ธ์ ์ฃ์กํฉ๋๋ค ใ ใ ์๋์ ์ฒจ๋ถํ ์ค๋ช ์ฐธ๊ณ ๋ถํ๋๋ฆฝ๋๋ค!(์ฌ์ง)(์ฌ์ง)(์ฌ์ง)(์ฌ์ง)(์ฌ์ง)(์ฌ์ง)(์ฌ์ง)(์ฌ์ง)
- 1
- 2
- 126
Q&A
Layer Norm์ด ์ธ์ด๋ชจ๋ธ์ ์ ํฉํ ์ด์
์๋ ํ์ธ์ ์ข์ ์ง๋ฌธ ๊ฐ์ฌํฉ๋๋ค!์ฌ๋ฌ ์ด์ ๊ฐ ์์ง๋ง Batch Norm ๋์ ์ Layer Norm์ NLP๋ Sequence ๋ฐ์ดํฐ์ ๋ชจ๋ธ๋ง์์ ์ฌ์ฉํ๋ ๊ฐ์ฅ ํฐ ์ด์ ๋ Batch Norm์ Batch์ ๋ฌถ์ด์ ํ๊ท ์ ๋ด๋๋ฐ NLP์์๋ ๋ฌธ์ฅ์ ๊ธธ์ด๊ฐ ๊ฐ๋ณ์ ์ด๊ธฐ ๋๋ฌธ์ ๋๋ค.๋ฐ๋ผ์ ํ๊ท ํน์ ํ์คํธ์ฐจ๋ฅผ ๊ณ์ฐํ ๋, ๋ถ๋ชจ๋ก ๋๋ ์ค์ผ ํ๋ N์ mini-batch์ ๊ตฌ์ฑํ๋ ๋ฌธ์ฅ๋ค ์ค์์ ์ด๋ค ๋ฌธ์ฅ์ ๊ธธ์ด๋ฅผ ๊ธฐ์ค์ผ๋ก ์ค์ ํ ๊ฒ์ธ๊ฐ๊ฐ ๋ช ํํ์ง ์์ต๋๋ค.๋ถ์ฐ ์ค๋ช ๋๋ฆฌ์๋ฉด, Normalization์ ํ๊ธฐ ์ํด์ ํ๊ท = sum(x_i) / N, ํ์คํธ์ฐจ = sqrt ( sum(x_i - ํ๊ท )^2 / N )์ ๋ํ ๊ณ์ฐ์ด ํ์ํ๋ฐ, Batch-Norm์ Mini-Batch์ ํตํ์ด์ ํ๊ท ๊ณผ ํ์คํธ์ฐจ๋ฅผ ๊ณ์ฐํฉ๋๋ค.๋ฐ๋ผ์ ๊ธธ์ด๊ฐ ๊ฐ์ฅ ๊ธด ๋ฌธ์ฅ์ ๊ธธ์ด๋ฅผ N์ผ๋ก ๋ฌ์ ํ๊ท ๊ณผ ํ์คํธ์ฐจ๋ฅผ ๊ณ์ฐํ๋ค๊ณ ๊ฐ์ ํ๋ฉด, ๋์ผํ ๋ฐ์ดํฐ ์ํ์ ๋ํด์๋ ํด๋น ๋ฐ์ดํฐ ์ํ์ด ์ํด์๋ mini-batch์์ ๊ฐ์ฅ ๊ธด ๋ฌธ์ฅ์ ๊ธธ์ด N์ด ๋ค๋ฅด๋ฉด ๊ณ์ฐ๋๋ ํ๊ท ๊ณผ ํ์คํธ์ฐจ ๊ฐ๋ ๋ฌ๋ผ์ง๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค.ํ์ง๋ง Layer Norm์ ๊ฐ ๋ฐ์ดํฐ ์ํ์ ๋ํด์ ๊ฐ๋ณ์ ์ผ๋ก ํ๊ท ๊ณผ ํ์คํธ์ฐจ๊ฐ ๊ณ์ฐ๋๋ฏ๋ก ํด๋น ๋ฌธ์ ๋ฅผ ๊ฒช์ง ์๊ฒ ๋๋ ์ ์ ๋๋ค.๊ธ๋ก ์ดํดํ๋๋ฐ ํท๊ฐ๋ฆด ์ ์์ผ๋ฏ๋ก, ์ฒจ๋ถํ ์ด๋ฏธ์ง๋ ์ฐธ๊ณ ๋ถํ๋๋ฆฝ๋๋ค!(์ฌ์ง)
- 1
- 1
- 205