소개
오랜 개발 경험을 가지고 있는 Senior Developer 입니다. 현대건설 전산실, 삼성 SDS, 전자상거래업체 엑스메트릭스, 씨티은행 전산부를 거치며 30 년 이상 IT 분야에서 쌓아온 지식과 경험을 나누고 싶습니다. 현재는 인공지능과 파이썬 관련 강의를 하고 있습니다.
홈페이지 주소:
강의
전체13수강평
- 다양한 예제를 통해 실질적인 시계열 데이터 처리 방법을 이해할 수 있습니다.
YoungJea Oh
2024.05.13
0
- 추천시스템 전반을 이해하기 쉽도록 잘 구성된 강의 입니다. 특히 이론과 실습의 균형이 잘 잡혀 있습니다.
YoungJea Oh
2024.04.26
0
게시글
질문&답변
2024.06.02
주피터에서 파일 열기
강의 자료 다운로드 안내 강의에 동영상을 추가하였습니다. 사전에 세심하게 신경 쓰지 못해 죄송합니다. 감사합니다.
- 0
- 1
- 16
질문&답변
2024.05.31
ChatGPT RLHF 관련 질문드립니다!
1) RLHF에서 1단계는 GPT-3가 특정 질문에 대해 아무말 대잔치하며 생성했을 때, 인간이 선호하는 방식은 바로 이거야 라고 알려주어 아무말 대잔치를 못하도록 모델이 학습되는 과정(=SFT) 이라고 이해가 되는데 맞나요? --> 네, 맞습니다. GPT-3와 같은 대형 언어 모델은 일반적인 언어 생성 모델이므로, 특정 응답이 부적절하거나 비합리적일 수 있습니다. 이를 개선하기 위해, SFT 단계에서는 모델이 인간이 선호하는 방식으로 응답하도록 학습합니다. 이 단계는 다음과 같이 진행됩니다: 데이터 준비 : 인간 평가자가 작성하거나 선정한 고품질 질문-응답 쌍 데이터를 수집합니다. 지도 학습 : 모델은 이 고품질 데이터를 사용하여 추가 학습을 합니다. 즉, 인간이 선호하는 방식으로 응답하도록 모델을 지도(supervised)합니다. 2) 2단계는 1단계에서 생성한 여러 답변들에 인간이 랭킹을 매긴다는 것을 이해했습니다. 인간이 매긴 랭킹들에 대한 데이터 셋을 RM(Reward Model)이 학습한다는건, 예를들어 RM의 input은 1단계에서 GPT가 생성한 문장셋, output은 각 문장셋들에 대한 인간이 매긴 각 랭킹을 맞추도록 학습하는 과정이 맞나요? --> 네, 맞습니다. 2단계에서 보상 모델(Reward Model, RM)은 인간이 매긴 랭킹 데이터를 사용하여 학습합니다. 이 과정은 다음과 같이 이루어집니다: 데이터 수집 : 1단계에서 생성된 여러 응답을 수집합니다. 인간 평가자들은 이러한 응답들에 대해 랭킹을 매깁니다. 보상 모델 학습 : 보상 모델은 입력으로 주어진 응답 세트와 그에 대한 인간 평가자의 랭킹 데이터를 사용하여 학습합니다. 보상 모델의 목표는 주어진 응답 세트에 대해 인간 평가자가 매긴 랭킹을 예측하는 것입니다. 3) 3단계는 "1단계에서 Fine-Tuned된 모델을 이제는 인간이 보상해주는 대신 2단계에서 생성한 RM이 인간역할을 하며 지도해준다" 라고 이해해도 될까요? --> 네, 맞습니다. 3단계는 강화 학습(Reinforcement Learning, RL) 단계로, 1단계에서 Fine-Tuning된 모델을 더 개선하기 위해 2단계에서 학습된 보상 모델(Reward Model)을 사용하여 학습하는 단계입니다. 이를 통해 모델이 더 나은 응답을 생성하도록 합니다. 좋은 질문 감사합니다.
- 0
- 1
- 27
질문&답변
2024.05.20
션 7. CNN (Convolutional Neural Network)의 7번째 강의는 실습 - FashionMNIST 데이터셋 이용 실습 문제 풀이 관련 강의 내용순서 문의
빠진 동영상 추가해 놓았습니다. Site 개편 과정에 실수로 동영상 하나를 빼먹었네요. 지적해 주신 덕분에 모르고 있던 큰 실수를 수정할 수 있었습니다. 감사의 표시로 "파이토치를 활용한 딥러닝 모델 구축 (₩88,000)" 과정의 무료 쿠폰을 보내 드립니다. 쿠폰 코드는 16224-57d9f1393e77 이고 만기는 2024-12-31 입니다. 감사합니다.
- 0
- 1
- 49
질문&답변
2024.05.08
seq2seq 모델
Seq2Seq (sequence-to-sequence) 모델은 인코더-디코더 구조를 기반으로 한다고 볼 수 있습니다. 인코더는 입력 데이터를 고정된 길이의 벡터로 변환하고, 디코더는 이 벡터를 바탕으로 최종 출력 시퀀스를 생성합니다. Teacher Forcing은 디코더의 학습 방법 입니다. 디코더가 시퀀스를 생성할 때, 이전 시간 스텝의 실제 출력(대상 시퀀스)을 다음 입력으로 사용하는 방식입니다. 결론적으로, Seq2Seq 모델과 인코더-디코더 구조는 서로 밀접하게 연결되어 있으며, Teacher Forcing은 디코더를 학습시키는 한 방법으로 사용됩니다. 따라서 이들은 각각 독립적인 모델이 아니라, 서로 연결되어 있는 개념들이라고 볼 수 있습니다. 좋은 질문 감사합니다.
- 0
- 1
- 80
질문&답변
2024.05.02
강의 내용중 질문있습니다.
LSTM 함수 정의전 맨 아래와 같이 정의를하는데 B같은 경우 인풋을 의미로 sentences = ["hi man", "hi woman"] 리스트의 값과 같이 2개를 받는다고 생각하면되나요? ==> 맞습니다. 정확하게는 전처리 과정을 거쳐서 [["hi", "man"], ["hi", "woman"]] 이렇게 B=2, T=2 가 됩니다. T 같은경우에는 time이 정확히 어떤것을 의미하는 것일까요?? ["hi", "man"] 에서 t1 은 "hi", t2 는 "man" 입니다. 만약 T 를 5로 정한 경우에는 전처리 과정에서 다음과 같이 바꿔줘야 합니다. [["hi", "man", "pad", "pad", "pad"], ["hi", "woman", "pad", "pad", "pad"]] D 또한 feature인데 어떤것을 의미하는 지모르겠습니다. ==> 단어의 경우 word embedding의 dimension 수를 의미합니다. 예제에서는 간단히 하려고 1로 정했지만 만약 512 차원의 word embedding으로 만들어 주면 512, 100 차원의 word embedding을 만들면 D=100 이 됩니다. 혹시 아래 이미지와 같은 이미지를 기준으로 T값 2는 hi를 h, i 로 2개 받는다는 의미일까요? ==> 맞습니다. 당연히 helo 의 경우는 h, e, l, o 로 T 가 4 겠지요? U는 이미지 기준 4겠네요? ==> 아니요. 3 입니다. hidden layer 에 값(가중치)이 3개 있으니까요. output layer 가 h, e, l, o 중 하나를 맞추는 softmax 출력층이므로 neuron 이 4 입니다.
- 0
- 1
- 56