소개
오랜 개발 경험을 가지고 있는 Senior Developer 입니다. 현대건설 전산실, 삼성 SDS, 전자상거래업체 엑스메트릭스, 씨티은행 전산부를 거치며 30 년 이상 IT 분야에서 쌓아온 지식과 경험을 나누고 싶습니다. 현재는 인공지능과 파이썬 관련 강의를 하고 있습니다.
홈페이지 주소:
강의
전체12수강평
- 추천시스템 전반을 이해하기 쉽도록 잘 구성된 강의 입니다. 특히 이론과 실습의 균형이 잘 잡혀 있습니다.
YoungJea Oh
2024.04.26
0
- 아주 좋아요
법경
2024.04.11
0
게시글
질문&답변
2024.05.02
강의 내용중 질문있습니다.
LSTM 함수 정의전 맨 아래와 같이 정의를하는데 B같은 경우 인풋을 의미로 sentences = ["hi man", "hi woman"] 리스트의 값과 같이 2개를 받는다고 생각하면되나요? ==> 맞습니다. 정확하게는 전처리 과정을 거쳐서 [["hi", "man"], ["hi", "woman"]] 이렇게 B=2, T=2 가 됩니다. T 같은경우에는 time이 정확히 어떤것을 의미하는 것일까요?? ["hi", "man"] 에서 t1 은 "hi", t2 는 "man" 입니다. 만약 T 를 5로 정한 경우에는 전처리 과정에서 다음과 같이 바꿔줘야 합니다. [["hi", "man", "pad", "pad", "pad"], ["hi", "woman", "pad", "pad", "pad"]] D 또한 feature인데 어떤것을 의미하는 지모르겠습니다. ==> 단어의 경우 word embedding의 dimension 수를 의미합니다. 예제에서는 간단히 하려고 1로 정했지만 만약 512 차원의 word embedding으로 만들어 주면 512, 100 차원의 word embedding을 만들면 D=100 이 됩니다. 혹시 아래 이미지와 같은 이미지를 기준으로 T값 2는 hi를 h, i 로 2개 받는다는 의미일까요? ==> 맞습니다. 당연히 helo 의 경우는 h, e, l, o 로 T 가 4 겠지요? U는 이미지 기준 4겠네요? ==> 아니요. 3 입니다. hidden layer 에 값(가중치)이 3개 있으니까요. output layer 가 h, e, l, o 중 하나를 맞추는 softmax 출력층이므로 neuron 이 4 입니다.
- 0
- 1
- 15
질문&답변
2024.04.25
DBSCAN 실습 결과
클러스터링이 "잘 되었는지"를 평가하기 위해서는 실제 데이터와 도메인 지식을 바탕으로 한 데이터에 관한 이해가 필요합니다. 실습 교재에서 제가 임의로 생성한 데이터 포인터는 random 하게 생성한 sample 들이므로 단순히 DBSCAN 함수 사용법을 이해하기 위한 목적이므로 검증에 큰 의미는 없습니다. 산점도의 모습은 비지도 학습이 잘 된 것으로 보입니다. 좋은 질문 감사합니다.
- 0
- 1
- 32
질문&답변
2024.04.25
DBSCAN 질문
R의 'unit'은 데이터 포인트 간의 거리를 측정하는 데 사용되는 단위입니다. 단위는 데이터의 특성에 따라 달라집니다. 예를 들어, 위치 데이터의 경우 미터나 킬로미터가 될 수 있고, 다른 유형의 수치 데이터에서는 그 데이터의 단위를 따릅니다. 따라서 데이터 포인트의 "점 크기"를 의미하는 것이 아니라, 사용된 데이터의 측정 단위(예: 거리, 금액 등)를 말합니다. Border Point는 R 안에 최소 M개 미만의 이웃을 가지지만, Core Point의 영향 범위 내에 존재하는 포인트를 의미합니다. 단순히 R 안에 다른 데이터 포인트가 하나라도 있으면 Border Point가 되는 것은 아닙니다. 반드시 그 R 안에 있는 다른 포인트 중 적어도 하나가 Core Point여야 합니다. 좋은 질문 감사합니다.
- 0
- 1
- 30
질문&답변
2024.04.24
heatmap에서 numeric_only=True
corr() 함수는 기본적으로 수치형 데이터만을 대상으로 상관 계수를 계산합니다. numeric_only=True 는 필수적인 옵션은 아니지만, 코드의 의도를 명확히 전달하기 위해 사용되었습니다. 생략한 경우는 default parameter 가 적용 되므로 동일한 결과가 나옵니다. 감사합니다.
- 0
- 1
- 36
질문&답변
2024.04.24
Feature Scaling 강의 질문 있습니다!
나이와 같은 연속적인 수치 데이터에서 결측치를 중간값으로 대체하는 것은 통계적으로 이상치의 영향을 줄이면서 전체 데이터의 분포를 유지하는 데 도움이 됩니다. 또한 나이는 생존 여부 판단에 중요한 변수일 수 있기 때문에, 단순히 이 값을 제거하기보다는 적절한 추정값으로 채우는 것이 모델의 성능을 유지하는 데 도움이 될 수 있습니다. Embarked 는 두개 밖에 결측치가 없으므로 전체 데이터셋에 미치는 영향이 크지 않아 제거해도 되는 경우가 많습니다. Fare 의 경우 값의 범위가 넓으므로 로그 변환은 큰 값의 영향을 줄이고, 모델이 데이터를 더 잘 이해하도록 도움을 줍니다. 그런데 Parch (부모와 자녀의 수)나 SibSp (형제, 배우자의 수) 같은 다른 변수들도 비슷하게 치우친 분포를 가질 수 있으나 이러한 변수들은 원래부터 정수 값을 가지며, 대부분의 값이 0 또는 매우 낮은 숫자로 구성되어 있습니다. 이러한 경우, 로그 변환을 적용하면 많은 값들이 -inf (음의 무한대)로 변환되거나 변환 후의 효과가 미미합니다. 4. pop 메소드를 사용하면 X_train 과 X_test 에서는 Survived 가 제거되며, 동시에 y_train 과 y_test 에는 Survived 의 값이 저장됩니다. 실제로 Jupyter notebook 에서 실제로 실행해 보세요. 감사합니다.
- 0
- 1
- 50