묻고 답해요
156만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨딥러닝 이론 + PyTorch 실무 완전 정복
KL Div Loss에서 Negative Entropy를 더해주는 의미에 대해서
안녕하세요.항상 친절하고 자세하게 강의해주셔서 재미있게 배우고 있습니다.다름이 아니라, 본 강의에서 설명해주신 Negative Entropy의 의미에 대해 제가 확실하게 이해한 것이 맞는지 질문하려고 글을 남깁니다. [질문 1] 먼저, 아래에 제가 이해한 내용이 맞을까요?KL Div. Loss에서 negative entropy는 오직 Y_i,c에 대한 항으로만 이루어져 있고 Y_hat과는 전혀 상관이 없으므로 모델의 성능과는 관계 없는 항입니다. 따라서, 학습 데이터셋의 확률 분포 측면에서 생각했을 때, negative entropy가 높을 수록 학습 난이도가 낮은 데이터셋(예: 강아지 vs. 선인장 분류 데이터)이라 생각할 수 있고, 학습 난이도가 쉬우면 쉬울 수록 이 negative entropy 항의 값은 증가합니다. [질문 2] 그렇다면, negative entropy 값이 높을 때(=학습 데이터셋 난이도가 낮을 때) KL Div에서 전체적인 loss 값도 커지게 되는데요. Loss 값이 커지면 결과적으로 모델이 학습할 때 더 큰 폭으로 gradient descent를 수행하게 되어서 좋은 것인가요? KL Div에서 negative entropy를 더해주는 것이 모델 학습과 정확히 어떤 관련이 있는지 잘 이해가 가지 않습니다. 감사합니다!
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
Lora 기법 질문
Lora 기법으로 인해서 전체 모델의 56%의 파라미터만 fine tuning에 사용됐다고 하는데, 로직 내에서 fine tuning하겠다고 결정하는 기준이 있는건가요?
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
소스코드 다운받을 장소를 알려 주셔요.
강의에 사용된 소스코드는 어디에 있는지 문의드립니다.PDF파일은 있지만, 예제 풀이에 사용되는 colab에서 동작시키는 소스코드를 다운 받을 위치를 가르쳐 주셨으면 합니다.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
Softmax 관련 질문입니다.
안녕하세요. 선생님의 강의로 머신러닝 및 딥러닝에 관심을 갖게 되었습니다.다름이 아니고, CIFAR100 dataset에 대해서 VGGNet이라는 모델을 이용해 훈련을 시켜보고 있는데,제가 궁금한 것은 Softmax의 Input의 정밀도를 어디까지 유지하면 모델이 잘 학습될 수 있을까?입니다. 아래의 코드는 training부분입니다. 첫 번째 사진처럼 모델을 훈련시키는데, model(images)를 통해 나온 실제 output을 이용하면 모델이 잘 학습이 되는데 (마지막 epoch의 validation accuracy 55, Top-5 Test Accuracy 80%정도), 이 output을 rounding을 하면 소숫점 아래 20째자리까지 반올림을 해서 높은 정밀도를 유지해도 모델 학습이 아예 되지 않는 (모든 epoch가 끝나도 Validation Accuracy가 1%남짓) 문제가 발생합니다. 이러한 문제가 왜 발생하는지, 어떻게 하면 해결할 수 있을지또 제가 궁금한 Softmax layer에서 요구하는 최소 Input 정밀도에 대해 다른 방법으로 측정할 수 있을지 궁금합니다 ㅠㅠ감사합니다
-
해결됨딥러닝 이론 + PyTorch 실무 완전 정복
GoogleNet Inception 모듈
안녕하세요 선생님강의 잘 보고 있습니다구글넷의 인셉션 모듈 설명 중에 MAX pooling이 포함되어 있는데요보통 max pooling은 인풋의 사이즈를 줄이는 것으로 알고 있는데 그러면 다른 컨볼루션이 통과된 아웃풋과 사이즈가 달라져서 concat이 안되는 거 아닌가요?아니면 여기에 포함된 컨볼루션들은 max pooling과 같은 stride를 같는 걸까요?
-
해결됨딥러닝 이론 + PyTorch 실무 완전 정복
Batch Normalization 효과
안녕하세요 선생님강의 정말 잘 보고 있고요제 많은 질문들에도 너무 성심성의껏 답변 달아주셔서 감사합니다 ㅎㅎBatchNorm이 설계된 의도는 internal covariate shift를 해결하기 위해 제안되었다는 것은 이해했습니다.하지만 실제로는 그렇지 않고 optimization surface를 매끄럽게 해서 학습이 잘된다라고 설명하신 것까지 들었습니다.제가 이해한 바로는 활성화 함수에 들어가는 입력의 분포를 조정해서 학습이 잘되는 위치? 분포를 학습하는 것으로 이해했는데요(sigmoid로 예시를 든다면 더 이상 업데이트가 되지 않아도 될 정도라면 기울기가 saturate되는 부분으로 혹은 업데이트가 많이 되어야 한다면 0부근으로 이동시키는 등의) 정확히 어떤 원인에 의해 surface가 매끄러워지는 효과를 가지게 되는 것인지 궁금합니다..!
-
해결됨딥러닝 이론 + PyTorch 실무 완전 정복
Layer Norm이 언어모델에 적합한 이유
안녕하세요 선생님강의 정말 잘 보고 있습니다.Layer Normalization을 보는 중에 입력 데이터를 Normalization하는 것을 통해 scale이나 shift에 robust하게 되는 것까진 이해했습니다.이런 효과가 왜 이미지보다 언어 모델에 더욱 효과적인지 이유를 알 수 있을까요?
-
미해결[Pytorch] 파이토치를 활용한 딥러닝 모델 구축
이미지가 출력되지 않습니다
[Pytorch] 파이토치를 활용한 딥러닝 모델 구축섹션 5 CNN(Convolutional Neural Network, 합성곱 신경망)실습 - CNN model (LeNet-5) Mnist Dataset 분류 강의 중15분 15초 부분 code 실행 시 이미지가 출력되지 않습니다.local(jupyter notebook) 에서도 online(colab) 에서도모두 출려되지 않습니다. 어떻게 하면 되는지요?
-
미해결처음하는 딥러닝과 파이토치(Pytorch) 부트캠프 (쉽게! 기본부터 챗GPT 핵심 트랜스포머까지) [데이터분석/과학 Part3]
섹션 다양한 Optimizer 정리하기 중 딥러닝으로 Regression 문제 적용해보기 (House Price Kaggle 문제) 강의에서 오류가 발생합니다.
섹션 다양한 Optimizer 정리하기 중 딥러닝으로 Regression 문제 적용해보기 (House Price Kaggle 문제) 강의에서 오류가 발생합니다.강의에 나오는 code 중 아래 부분을 실행하면 RuntimeError 가 발생합니다. 이 부분이 문제라고 나옵니다. --> loss = torch.sqrt(loss_function(y_minibatch_pred, y_minibatch))RuntimeError: The size of tensor a (1460) must match the size of tensor b (256) at non-singleton dimension 1 - 아 래 - for index in range(nb_epochs): indices = torch.randperm(X_train_tensor.size(0)) x_batch_list = torch.index_select(X_train_tensor, 0, index=indices) y_batch_list = torch.index_select(y_train_tensor, 0, index=indices) x_batch_list = x_batch_list.split(minibatch_size, 0) y_batch_list = y_batch_list.split(minibatch_size, 0) epoch_loss = list() for x_minibatch, y_minibatch in zip(x_batch_list, y_batch_list): y_minibatch_pred = model(x_minibatch) loss = torch.sqrt(loss_function(y_minibatch_pred, y_minibatch)) epoch_loss.append(loss) optimizer.zero_grad() loss.backward() potimizer.step() if index % 100 == 0: print(index, sum(epoch_loss) / len(epoch_loss))
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
섹션 20~23 강의자료가 없습니다.
안녕하세요. 섹션 20~23 colab링크는 있는데요. 강의자료 pdf가 없어서 문의 드립니다.llama 3.1, 3.2 / LLM최적화등.
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
학습시 API Key를 입력하라고 합니다.
학습 시작하면 wandb: Paste an API key from your profile and hit enter, or press ctrl+c to quit: 하고 입력을 기다리네요. 어떤 것을 입력해야 하나요?
-
해결됨딥러닝 이론 + PyTorch 실무 완전 정복
9-2 fully connected NN
여기서 네트워크를 구성할 때 맨 마지막에 sigmoid를 태운 후에 마지막에 또 Softmax를 태우는데, 이렇게 할 거면 애초부터 네트워크의 마지막단을 sigmoid가 아닌 softmax를 태우면 되는 거 아닌가요?왜 sigmoid를 거친 후에 softmax를 태워야 하는 것인지 알 수 있을까요?
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
OpenAI Assistants tools 중 retrieval 기능
안녕하세요OpenAI Assistants tools 기능중 retrieval 기능 대신 File Search 기능이 doc 페이지에서 보이는데 사용자가 upload 한 pdf file 을 기반으로 QnA 를 할 수 있는 기능은 이젠 제공되지 않나요?
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
OpenAI Assistants API 기초 예제 중 client.beta.threads.message.list 함수
안녕하세요 수업노트의 코드를 실행했을때 Assistant's Response message value 에서 중간 풀이 과정이 출력되지 않는데 동영상과 차이가 뭘까요?ㅇ 동영상 Value = "I need to solve the equation 3x + 11 = 14. Can you help me?"Value = "Sure, Jane Doe! To solve the eqation 3x + 11 = 14 for x, We need to isolate x on the one side of eqation. Here's how we can do it step by step. Subtract 11 from both sides of the eqation to get '3x' by itself on one side. That leaves us with '3x = 14 - 11' Simplify the right side of equation to find out what '3x' equation. Divide both sides of the equation by 3 to solve for 'x' Let's do the calculation"Value = "The solution to the equation '3x + 11 = 14' is x = 1"ㅇ 실습코드value='The solution to the equation \\(3x + 11 = 14\\) is \\(x = 1\\).')'I need to solve the equation 3x + 11 = 14. Can you help me?'
-
해결됨모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
Fine Tuning 후 inference 하는 예시(코드) 질문
안녕하세요 우선 커리큘럼을 차례대로 재밌게 학습하고 있습니다LLM finetuning 후 추론하는 예시를 따라하고 있는데요아래 박스는 혹시 필요 없는 문장이 아닌가 해서 질문 드립니다감사합니다
-
해결됨강화학습 입문에서 Deep Q-learning/Policy Gradient까지
강의 36강에서의 질문
안녕하세요! 이번에 금융권 핀테크 기업으로 이직하면서 강화학습을 직무에 활용할 수 있을까하여 공부하고 있는 사람입니다. import gymnasium as gym import numpy as np import pprint # SFFF (S: 시작점, 안전) # FHFH (F: 얼어있는 표면, 안전) # FFFH (H: 구멍, 추락) # HFFG (G: 목표, 프리스비 위치) # LEFT = 0 # DOWN = 1 # RIGHT = 2 # UP = 3 map = "4x4" SLIPPERY = False # 결정론적 환경 #SLIPPERY = True # 확률적 환경 # FrozenLake-v1 환경을 생성합니다. # desc: None이면 기본 맵을 사용합니다. # map_name: 사용할 맵의 이름을 지정합니다. # is_slippery: True이면 미끄러운 표면(확률적 환경)을 사용하고, False이면 결정론적 환경을 사용합니다. env = gym.make('FrozenLake-v1', desc=None, map_name=map, is_slippery=SLIPPERY) GAMMA = 1.0 # 감가율 (discount factor), 미래 보상의 현재 가치 THETA = 1e-5 # 정책 평가의 종료 조건, 변화가 이 값보다 작으면 평가 종료 num_states = env.observation_space.n # 환경의 상태(state) 개수 num_actions = env.action_space.n # 환경에서 가능한 행동(action) 개수 transitions = env.P # 상태-행동 전이 확률 (state-action transition probabilities)s) 강의로는 36강, 자료로는 015_DP_frozenlake_policy_evaluation.py 상에서 질문이 있습니다. 여기서 THETA가 1E-5인데, 이는 정책 평가의 종료 조건이라고 되어있었습니다. 이 때, 모든 그리드에서의 변화량 중 단 하나의 값이라도 THETA보다 작아지면 평가가 종료되는 것인지, 모든 그리드의 변화량이 THETA보다 작아지면 평가가 종료되는 것인지 궁금합니다.
-
미해결[AI 실무] AI Research Engineer를 위한 논문 구현 시작하기 with PyTorch
gpu설정
엔비디아 gpu내장안되어있으면 gpu사용이 안되는건가요? 제 노트북은 Intel Arc TM Graphics 입니다.
-
해결됨딥러닝 이론 + PyTorch 실무 완전 정복
Mini-batch Gradient Descent computation time 질문
안녕하세요 선생님시간과 체력이 더 많았으면 좋겠다는 생각이 들 정도로 강의를 너무 재밌게 보고 있습니다Mini batch Gradient Descent 이론 편에서 Mini batch Size에 비례하지 않는다는 설명을 보았는데요.물론 병렬처리를 하기 때문에 정비례하지 않겠지만 GPU에 올릴 수 있는 최대 데이터양이 100개라고 가정한다면 미니배치를 200, 300, .. 이런 식으로 키운다면 미니 배치크기에 따라 비례하는 것은 맞지 않나요?혹시 제가 잘못 생각하고 있다면 말씀해주세요 감사합니다!
-
해결됨딥러닝 차세대 혁신기술 - 물리 정보 신경망 입문과 Pytorch 실습
초기값 관련 질문있습니다.
안녕하세요, 도움되는 강의 제공해주셔서 진심으로 감사드립니다.Harmonic Oscillator 초기값 관련하여 질문있습니다.현재 우리는 pinn의 performance를 확인하기 위해 실제해가 알려진 경우와, pinn의 prediction을 비교하고 있는데요. loss function이 residual과 초기값에 대한 mse로 구성되어 있는데, 우리가 실제 해를 모른다고 가정하고 온전히 pinn으로만 학습한다고 가정할 경우, 초기값에 대한 mse는 어떻게 구할 수 있을까요?제가 미분방정식에 대한 기억이 너무 오래되서 그런데 보통 초기값은 실제해를 몰라도 방정식 별로 알려진 값일까요?미리 감사드립니다.
-
해결됨딥러닝 이론 + PyTorch 실무 완전 정복
Huber Loss에 대한 질문
안녕하세요?: 선생님강의 정말 재밌게 잘 보고 있습니다.강의 내용 중에 Huber Loss는 전미분이 한 번밖에 되지 않는다는 단점을 언급해주셨는데요Gradient Descent를 적용할 때는 weight에 대한 편미분만 적용하기 때문에 역전파 시에는 무관한 거 아닐까요?따라서 Epoch를 2 이상의 숫자를 두고 학습하는데 전혀 지장이 없는 거 아닌가요?왜 전미분이 1번만 된다는 게 단점이 된다는 것인지 이해가 잘 되지 않습니다.