소개
오랜 개발 경험을 가지고 있는 Senior Developer 입니다. 현대건설 전산실, 삼성 SDS, 전자상거래업체 엑스메트릭스, 씨티은행 전산부를 거치며 30 년 이상 IT 분야에서 쌓아온 지식과 경험을 나누고 싶습니다. 현재는 인공지능과 파이썬 관련 강의를 하고 있습니다.
홈페이지 주소:
강의
전체11수강평
- 아주 좋아요
법경
2024.04.11
0
- 영상 마지막은 왜 항상 강의가 끊겨있나요
ingi jang
2024.03.25
0
게시글
질문&답변
2024.04.25
DBSCAN 실습 결과
클러스터링이 "잘 되었는지"를 평가하기 위해서는 실제 데이터와 도메인 지식을 바탕으로 한 데이터에 관한 이해가 필요합니다. 실습 교재에서 제가 임의로 생성한 데이터 포인터는 random 하게 생성한 sample 들이므로 단순히 DBSCAN 함수 사용법을 이해하기 위한 목적이므로 검증에 큰 의미는 없습니다. 산점도의 모습은 비지도 학습이 잘 된 것으로 보입니다. 좋은 질문 감사합니다.
- 0
- 1
- 24
질문&답변
2024.04.25
DBSCAN 질문
R의 'unit'은 데이터 포인트 간의 거리를 측정하는 데 사용되는 단위입니다. 단위는 데이터의 특성에 따라 달라집니다. 예를 들어, 위치 데이터의 경우 미터나 킬로미터가 될 수 있고, 다른 유형의 수치 데이터에서는 그 데이터의 단위를 따릅니다. 따라서 데이터 포인트의 "점 크기"를 의미하는 것이 아니라, 사용된 데이터의 측정 단위(예: 거리, 금액 등)를 말합니다. Border Point는 R 안에 최소 M개 미만의 이웃을 가지지만, Core Point의 영향 범위 내에 존재하는 포인트를 의미합니다. 단순히 R 안에 다른 데이터 포인트가 하나라도 있으면 Border Point가 되는 것은 아닙니다. 반드시 그 R 안에 있는 다른 포인트 중 적어도 하나가 Core Point여야 합니다. 좋은 질문 감사합니다.
- 0
- 1
- 26
질문&답변
2024.04.24
heatmap에서 numeric_only=True
corr() 함수는 기본적으로 수치형 데이터만을 대상으로 상관 계수를 계산합니다. numeric_only=True 는 필수적인 옵션은 아니지만, 코드의 의도를 명확히 전달하기 위해 사용되었습니다. 생략한 경우는 default parameter 가 적용 되므로 동일한 결과가 나옵니다. 감사합니다.
- 0
- 1
- 31
질문&답변
2024.04.24
Feature Scaling 강의 질문 있습니다!
나이와 같은 연속적인 수치 데이터에서 결측치를 중간값으로 대체하는 것은 통계적으로 이상치의 영향을 줄이면서 전체 데이터의 분포를 유지하는 데 도움이 됩니다. 또한 나이는 생존 여부 판단에 중요한 변수일 수 있기 때문에, 단순히 이 값을 제거하기보다는 적절한 추정값으로 채우는 것이 모델의 성능을 유지하는 데 도움이 될 수 있습니다. Embarked 는 두개 밖에 결측치가 없으므로 전체 데이터셋에 미치는 영향이 크지 않아 제거해도 되는 경우가 많습니다. Fare 의 경우 값의 범위가 넓으므로 로그 변환은 큰 값의 영향을 줄이고, 모델이 데이터를 더 잘 이해하도록 도움을 줍니다. 그런데 Parch (부모와 자녀의 수)나 SibSp (형제, 배우자의 수) 같은 다른 변수들도 비슷하게 치우친 분포를 가질 수 있으나 이러한 변수들은 원래부터 정수 값을 가지며, 대부분의 값이 0 또는 매우 낮은 숫자로 구성되어 있습니다. 이러한 경우, 로그 변환을 적용하면 많은 값들이 -inf (음의 무한대)로 변환되거나 변환 후의 효과가 미미합니다. 4. pop 메소드를 사용하면 X_train 과 X_test 에서는 Survived 가 제거되며, 동시에 y_train 과 y_test 에는 Survived 의 값이 저장됩니다. 실제로 Jupyter notebook 에서 실제로 실행해 보세요. 감사합니다.
- 0
- 1
- 46
질문&답변
2024.04.24
Feature Scaling
테스트 데이터( X_test )에 대해서 새로운 통계값(평균, 분산)을 계산하는 fit 을 수행하지 않는 이유는 모델 평가 시 테스트 데이터가 학습 과정에서 사용된 데이터와 동일한 조건에서 평가되어야 하기 때문입니다. 즉 X_train 데이터로 만든 내 모델이 실전에서 보지 못한 새로운 데이터를 입력 받았을 때 정상 처리하려면 학습 데이터에 했던 것과와 동일한 전처리(Standard Scaling 또는 MinMax Scaling)를 새로운 데이터에도 해 주어야 하는데 이때 새로운 데이터의 전처리에 적용할 평균/분산 (Standard Scaling의 경우) 또는 최대/최소값(MinMax Scaling의 경우) X_train에서 구해 놓았던 값을 그대로 사용한다는 의미 입니다. 만약 새로운 데이터의 통계적 수치가 과거 모델을 만들었던 X_train의 통계 수치와 크게 바뀌었다면 데이터의 분포가 바뀐 것이니 새로운 데이터에 맞추어 모델을 새롭게 훈련 시켜야 합니다. 그 것이 인공 지능 모델이라는 소프트웨어의 유지 보수 과정입니다. 감사합니다.
- 0
- 1
- 26