묻고 답해요
129만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
코렙 강의 자료 위치
코렙 강의 파일을 찾을 수 없다는데 어떻게 해야되나요? 죄송합니다. 요청한 파일이 없습니다.올바른 URL을 사용하고 있는지와 파일이 존재하는지 확인하세요. 이렇게 떠요!
-
해결됨최신 딥러닝 기술 Vision Transformer 개념부터 Pytorch 구현까지
positional embedding 학습이 잘 안되는 문제
cifar10 말고 다른 이미지셋을 가지고 학습을 시켜보았는데, 시각화를 해 보니 수업에서 보여주셨던 것과는 다르게 positional embedding 학습이 잘 안되었습니다. 어디를 봐야할지 조언을 부탁드려도 될까요?
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
KorQuad 데이터셋에서 context
안녕하세요 강사님KorQuad 데이터셋을 Llama2 모델에 활용하기 위해서 context는 제거를 하시고 단순하게 Q와 A로 구성된 데이터셋을 구성하였는데 context를 유지해서 학습하는 방법은 없어서 적용하는 건가요? 아니면 LLM의 학습에는 적합하지 않아서 사용하지 않는건가요?GPT등의 모델을 파인튜닝 한다고 했을때도 context는 제거하는게 맞는 건가요??
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
안녕하세요 P-tuning 관련 질문있습니다.
좋은강의 감사드리며 P-tuning 관련해서 질문이 있습니다.먼저 해당 기법이 적용된 모델로 추론시에 질문이 모델에 들어가면 모델에서 질문을 임의로 변경하여 추론한다고 생각하면 되겠죠??그리고 프롬프트 인코더(LSTM)의 어떤값을 임베딩 벡터로 사용하는 건가요?? 그림을 봤을땐 LSTM의 입력과 출력값은 독립적이고 히든레이어의 출력값이 임베딩 벡터로 사용되는 것으로 보이는데 맞나요?
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
GPT3의 퓨샷러닝과 파인튜닝에 대해 질문있습니다.
안녕하세요 강사님, 좋은 강의 감사드리며 두가지 질문이 있습니다.일반적으로 GPT 3.5를 그냥 사용한다고 할때, 퓨샷러닝이 학습때 사용되는 기법이 아니라고 이해하였는데 그러면 제가 GPT에게 "영어로 번역해줘"라고 타이핑하면 제 눈에는 안보이지만 GPT 자체적으로 예시를 몇가지 만들고 해당 내용을 바탕으로 추론 결과를 출력한다고 이해하는게 맞을까요?GPT3 학습시 사용되지 않은 데이터에 대해서(특정 산업군 지식이라던지) 적절한 정보를 출력하는 LLM을 만들고자 한다면 파인튜닝이 필수적이라고 생각하였는데 맞나요??
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
GPT1과 GPT2 학습 차이
안녕하세요 강사님 좋은 강의 감사드립니다.GPT2파트쪽 강좌를 들으면서 GPT1에서 설명하신 모델이 헷갈려서 문의드립니다.GPT1의 경우 마지막 출력으로 다음 토큰에 대한 소프트맥스 값과 TASK에 대한 소프트맥스 값이 출력되고 각 레이블 값에 의해 학습되는 것이라 이해하였는데 해당 모델 구조가 그림상으론 같이 표현되어 있는데 처음에 비지도학습시엔 토큰에 대한 예측값만으로 학습하고 파인튜닝시엔 두가지 출력을 모두 활용하여 학습한다고 이해하는 것이 맞나요?? 또한, GPT2에선 테스크에 대한 소프트맥스값으로 학습한다는 개념이 빠지고 오로지 다음 토큰에 대해서만 학습한다는 개념이 맞을까요?
-
해결됨딥러닝 이론 + PyTorch 실무 완전 정복
2-8 fully connected NN answer 코드 중 torch.nn.Linear 질문드립니다!
안녕하세요. 강의 잘 듣고있습니다 :D아래 코드에서 torch.nn.Linear에 해당하는 부분이 강의서 말씀해주신 aggregation에 해당되는 부분일까요? 편의상 bias 벡터는 생략된걸까요..? class Model(torch.nn.Module) : def __init__(self) : super(Model, self).__init__() self.layers = torch.nn.Sequential( # 첫번째 레이어 torch.nn.Linear(in_features = 128, out_features = 64, bias = True), # 첫번째 레이어의 activation 함수 torch.nn.Tanh(), # 두번째 레이어 torch.nn.Linear(in_features = 64, out_features = 16, bias = True), # 두번째 레이어의 activation 함수 torch.nn.Tanh(), # 세번째 레이어 torch.nn.Linear(in_features = 16, out_features = 1, bias = True), # 세번째 레이어의 activation 함수 torch.nn.Sigmoid() ) def forward (self, x) : return self.layers(x)
-
해결됨딥러닝 이론 + PyTorch 실무 완전 정복
ToTensor와 DataLoader관련질문드립니다!
안녕하세요! 이론적 이해가 아직까지는 잘되나 코드에서 잘 이해가 가지않는 부분이 있어 질문드립니다~ToTensor에서 왜 0~255를 0~1값으로 스케일링 하는 이유는 무엇인가요?DataLoader 에서 데이터를 미니배치로 넘기면 가로,세로 길이가 32로 바뀌는 이유는 무엇인가요? squeeze 함수를 찾아보니 길이가 1인 차원이 없는 행 백터, 열백터, 스칼라 배열을 삭제한다고 하는데, 아래에서 사용되는 이유는 무엇인가요?train_features, train_labels = next(iter(train_dataloader)) # train_features.size()는 64개로 세분화된 미니배치 크기, 채널, 가로, 세로 길이를 보여준다. print("Feature batch shape : {}".format(train_features.size())) # train_labels.size()도 미니배치 크기만큼 있는 것을 확인할 수 있다. print("Labels batch shape : {}".format(train_labels.size())) img = train_features[0].squeeze() # squeeze() 길이가 1인 차원이 없는 행 백터, 열백터, 스칼라 배열을 삭제한다. label = train_labels[0] plt.imshow(img.permute(1,2,0)) plt.show print("Label : {}".format(labels_map[label.item()]))
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
Fine-tuning 모델 성능 지표
llama2 를 fine-tuning 했을때, 다른 모델들 처럼 f1 스코어나 혹은 다른 성능 지표를 이용해 성능을 정량화 할 수 있나요?어떤 방법이 있고 어떻게해야 fine-tuning 한 모델의 성능을 정량적으로 지표화 할 수 있을까요?
-
미해결처음하는 딥러닝과 파이토치(Pytorch) 부트캠프 [데이터과학 Part3]
섹션 7-4 당뇨병
당뇨병 문제에서 직접 이상치 제거하는 게 손실 함수 줄이는데 도움이 될거라고 생각했는데 오히려 너무 커져버려서 왜 그런 건지 궁금합니다. 또 직접 제거하는 방식 말고 다르게 이상치 탐지하는 게 딥러닝에는 따로 있나요?
-
해결됨딥러닝 이론 + PyTorch 실무 완전 정복
13 표준화에 관한 질문
1.위의 그림에서 weight가 정규분포(Gaussian distribution)를 따르기 때문에 각 layer의 input의 분포도 정규분포를 따른다고 말씀해주셨는데 그 이유가 궁금합니다..2.표준화(Z~N(0,1))를 위해서는 확률분포가 정규분포여야 한다고 알고 있습니다..그래서 batch normalization의 위의 식에서 x가 정규분포를 가져야 한다고 생각했는데 학습 데이터셋은 직접 정규분포를 가지게 넣는다고 가정하더라도 그 다음에 있는 convolutional layer의 weight가 gradient descent에 의해 업데이트 되어 더이상 정규분포를 따르지 않으면 출력값이 정규분포를 따르지 않을수도 있지 않을까요...?
-
해결됨딥러닝 이론 + PyTorch 실무 완전 정복
Jupyter Notebook환경 관련 질문
9강 [실습] PyTorch 기초 - Tensor 강의에서 질문 있습니다.Lesson/inflearn_practicals 폴더에 아무 파일도 들어있지 않은데, 폴더가 원래 구성이 되어 있는 것이 아니고 파일을 직접 다운로드해서 폴더를 알아서 구성하는건가요?Jupyter notebook 상에서 강사님처럼 section이 모두 뜨지 않아 질문 드립니다.
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
Fine-tuning 문의
안녕하세요Fine-tuning 관련하여 궁금한 것이 있습니다.제 데이터로 Fine-tuning 을 하면 기존 학습 데이터는 사라지는 건가요?Fine-tuning 한 데이터셋은 어디에 저장되나요? 파라미터 값만 저장되고 데이터셋은 따로 저장이 되는 것이 아닌가요?
-
해결됨딥러닝 이론 + PyTorch 실무 완전 정복
6-5 수식에 관한 질문
6-5 섹션에서 Loss를 W(3)로 미분한 결과( = tW(3))를 계산하는 수식에 관련해서 질문이 있습니다..!위의 사진과 같이 계산을 해보았는데 결과가 tW(3)이 아닌 2tW(3)으로 나오게 되었습니다..Jacobian 개념이 생소하여 제대로 계산을 하였는지 잘 모르겠어서.. 혹시 계산에서 잘못된 부분을 알려주실 수 있을까요...??
-
미해결딥러닝 이론 + PyTorch 실무 완전 정복
여기 질문 드려도 되는지 모르겠지만
학습 관련된 질문 같아서 남깁니다.다름이 아니라 아이폰15프로맥스에서 모바일 인프런 영상 재생시무한 버퍼링이 걸리면서 영상 재생이 되질 않습니다다른 강의 영상들은 잘 재생되는데 현재 딥러닝 강의만 영상 재생이 안됩니다.유일하게 3강 Window 환경설정 영상만 재생이 잘 됩니다혹시 무한 버퍼링을 없애는 해결 방법을 알 수 있을까요
-
해결됨[파이토치] 실전 인공지능으로 이어지는 딥러닝 - 기초부터 논문 구현까지
4-3강 cross-validation에서의 best model 선정 기준
강사님, 안녕하세요! 항상 좋은 강의 잘 보고 있습니다 :D4-3강 교차 검증(Cross-Validation)에서 best model을 어떻게 선정하는 것인지 조금 헷갈려 질문 드립니다.예를 들어, 본 강의에서는 3개 fold에 대해 cross-validation을 수행하고, 모델의 최종 성능은 <3개 fold의 validation loss의 평균>으로 계산되는 것으로 이해했는데요.1) 그렇다면 hyperparameter tuning 등을 통해 이 <평균 validation loss>가 가장 낮아지는 모델을 찾아야 하는 것이 맞나요? 다시 말해, 여러 번 cross-validation을 수행함으로써 가장 낮은 <평균 validation loss>를 가지는 모델을 best model로 선정하는 것이 맞는지 궁금합니다.2) 만약 맞다면, 앞선 강의들에서는 "epoch 마다" loss가 최소화되는지 확인하고 모델 save를 수행했었는데, 이제는 "CV를 수행할 때 마다" loss가 최소화되는지 확인하고 모델 save를 수행하면 되는 것이 맞나요?3) 마지막으로, 이미 학습된 결과를 바탕으로 best model을 선정했는데 왜 best model에 한 번 더 전체 trainset으로 학습을 진행해줘야 하는지 궁금합니다.
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
GPT3모델 리뷰
안녕하세요! GPT1,2,3 논문들 리뷰 잘 보았습니다!GPT3모델은 아직 리뷰가 다 끝나지 않은거 같은데, 언제쯤 영상이 업로드될 지 알 수 있을까요?
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
fine-tuning 관련 질문
안녕하세요!강의 잘 보고 있습니다.llama2 fine-tuning 시 label이 붙은 데이터에 대한 fine-tuning을 하는 내용만 있는데 (supervised learning)label이 없는 text 데이터에 대해 unsupervised learning 방식으로 fine-tuning 하는 방법이 있을까요?또한 fine-tuning 이후 checkpoint를 기존 pretrained LLM에 통합해서 나만의 LLM을 생성하는 방법에 대해서도 궁금합니다.새해 복 많이 받으세요.감사합니다.
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
LLM 파인튜닝 데이터셋 질문
안녕하세요 데이터셋부터 생성 후 파인튜닝 하려고 합니다.제가 가진 데이터는 텍스트 (word) 파일인데 이를 데이터셋으로 변경을 어떻게 하면 될까요? 강의에서는 이미 만들어져있는 데이터셋 가지고 실습하는거라 처음에 데이터셋은 어떻게 생성할 지를 모르겠습니다. 강의에 나와있는 데이터처럼 answer_start, id 이런 값들도 필요한 건가요? 데이터셋 생성하는 예시 코드를 받을 수 있을까요?
-
미해결모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기
PEFT 수업에서 실습 모델 선택 기준이 궁금합니다.
안녕하세요, 제공해주신 유익한 수업 잘 듣고있습니다 🙂 현재 PEFT 부분 강의를 듣고 있는데요, 강의를 듣다가 궁금한 점이 생겼는데, 각 PEFT 방법들을 적용한 실습에서 backbone 모델과 데이터셋이 계속 바뀌는 것이었습니다.PEFT 방법과 task(dataset), backbone 모델의 조합을 어떻게 구성해서 실습을 할 지에 대한 선택 사항이 있었을 거 같은데, 선택하는데 있어서 특정한 기준이 있었는지 궁금합니다.예를 들면 아래와 같은 궁금증들 입니다. PEFT 방법 별로 잘 동작하는 task가 있는가?다양한 task에 적용이 가능하단걸 보여주시기 위해서 여러 데이터셋을 사용한 것이고, 각 데이터셋 별로 잘 동작하는 backbone 모델을 선택한 것인가?아니면 PEFT 방법과 데이터셋, backbone 모델 모두 자유롭게 선택이 가능해서 자유롭게 바꿔가면서 한 것인가?제가 LLM 공부를 갓 시작한 단계라 잘 몰라서 드린 질문일 수도 있으니 양해부탁드립니다 ㅎ