Microsoft MVP(Python Developer Technologies)
네이버 커넥트 재단 부스트코스 데이터사이언스 강의 설계 및 교수자
서울대 빅데이터혁신공유대학, 서울대 평생교육원, 연세대 DX Academy, 한신대 ABC Camp, 한양대 대학원, 전남대,
한국능률협회, 삼성SDS 멀티캠퍼스, 멋쟁이사자처럼, 패스트캠퍼스, 모두의연구소 등 다수의 교육기관 및 기업 강의
다양한 도메인(제약, 통신, 자동차, 커머스, 교육, 정부기관 등)의 기업 데이터 분석
20년이상 게임, 광고, 교육 등 다양한 도메인에서 웹 백엔드 개발자 및 데이터 분석가 현업 경험
강의
로드맵
전체 1수강평
- 공공데이터로 파이썬 데이터 분석 시작하기
- 파이썬 증권 데이터 수집과 분석으로 신호와 소음 찾기
- 캐글 설문조사로 데이터 분석 입문하기
게시글
질문&답변
패키지 설치 에러 ydata-profiling
안녕하세요. ydata-profiling 은 추상화된 도구로 다양한 EDA를 한번에 해준다는 장점이 있지만 패키지 의존성 문제나 라이브러리 업데이트 문제가 있어 파이썬 버전 등을 맞춰 주어야 하는 문제가 있습니다.인프런 AI 인턴이 답변해준것처럼 파이썬 버전을 맞춰줄 수도 있으나 강의를 위해서만 버전을 맞춘다면 번거로울거 같아 google colab을 사용해서 실습을 진행하시는 것을 권장 드립니다.
- 0
- 2
- 36
질문&답변
adapt() valid 포함
안녕하세요. 좋은 질문을 주셨네요. 말씀해 주신것처럼 어휘를 학습할 때 valid까지 학습하면 데이터 누수가 될 수도 있습니다. valid에만 있는 단어가 사전에 포함되게 되기 때문에 제외하기도 하나, test 데이터는 제외하는게 맞고 valid의 경우에는 데이터셋의 크기를 고려해서 제외하거나 포함하게 됩니다.valid로 학습하지 못하는 어휘가 너무 많게 되면 모델 성능이 함께 떨어질 수도 있습니다.데이터셋이 작거나, 훈련/검증 데이터 간의 단어 분포 차이가 클 때, 훈련 데이터만으로는 충분한 어휘를 학습하기 어렵습니다. 이 경우, 검증 데이터의 어휘까지 포함시켜 더 풍부한 단어 사전을 만들면, 'Unknown' 토큰으로 인한 정보 손실을 줄여 전반적인 모델 성능 향상을 기대할 수 있습니다.
- 0
- 1
- 26
질문&답변
concat 을 통한 데이터 프레임 합치기 에러 문의
안녕하세요. 해당 기능을 사용하는 장점이 어떤 컬럼이 올지 몰라도 컬럼 스키마를 지정하지 않고 사용할 수 있다는게 가장 큰 장점인데요. 판다스 기능이 업데이트 되면서 컬럼명 형식 등이 불일치 되는 데이터에 대해 병합 오류가 발생하고 있습니다. 그래서 전체를 병합하기 전에 병합할 일부 컬럼 정보를 지정하고 병합해 보시는 것을 추천드립니다. 조만간 해당 내용에 대해 콘텐츠를 업데이트하도록 하겠습니다. 이용에 불편을 드려 죄송합니다. 감사합니다!
- 0
- 1
- 28
질문&답변
구글 코랩에서 한글 폰트 설정
안녕하세요. 최근에는 koreanize-matplotlib 을 사용하시는 것을 가장 추천합니다.!pip install koreanize-matplotlib 로 설치해 주시고 아래 처럼 임포트만 해오면 간단하게 해결됩니다. import koreanize_matplotlib
- 1
- 2
- 866
질문&답변
코드 에러
안녕하세요. 먼저 AI 인턴이 답변을 해준 것처럼 해당 라이브러리가 설치가 되었는지 확인을 부탁드립니다.!pip install koreanize-matplotlib주피터 내에서 설치한다면 위 명령어로 설치하시고 사용해 보세요.감사합니다 :)
- 0
- 2
- 83
질문&답변
감성 분석을 하려면 어떤 부분을 공부해야 하나요?
안녕하세요. 감성분석은 이진 분류 문제입니다.강의 섹션9에서 분류 문제를 다루는데 다중 분류가 아닌 이진 분류로 긍정과 부정을 분류하게 되면 감성 분석이 됩니다.또, 최근에는 직접 머신러닝 모델을 만드는 방법도 있지만 OpenAI API를 통해 감성분석 결과를 받는 방법도 있습니다.강의 섹션9는 머신러닝을 통한 분류 문제를 다루게 됩니다.참고를 부탁드려요. 감사합니다.
- 0
- 2
- 138
질문&답변
자세한 설명 부탁드려요 ㅜ
안녕하세요.해당 라이브러리의 명칭이 ydata-profiling 으로 변경되었습니다. 다음은 공식 깃헙 링크 입니다.[ydataai/ydata-profiling: 1 Line of code data quality profiling & exploratory data analysis for Pandas and Spark DataFrames.](https://github.com/ydataai/ydata-profiling) 그래서 설치하는 해당 패키지 설치하셨을 때도 ydata-profiling 으로 설치가 되었기 때문에 pandas-profiling 으로 찾으시면 안 나올 수 있어요. ydata-profiling 으로 찾아보시겠어요? 또, 링크는 어떤 운영체제를 사용하고 있는지, conda, pip 등에 따라 다른 위치에 설치 됩니다.그래서 폴더를 열어 하나씩 찾아보셔야 해요.해당 라이브러리가 폰트 설정이 까다로워서 사용에 불편함을 드려 죄송합니다. 조만간 해당 라이브러리 사용에 대해 강의 업데이트를 할 수 있도록 하겠습니다.감사합니다.
- 0
- 2
- 117
질문&답변
seaborn 라이브러리 호출하였으나 그래프가 안 그려져요
안녕하세요. 올려주신 코드를 보니 대부분 잘 작성해 주셨습니다.보통은 그래프가 표시되지 않으면 %matplotlib inline 를 통해 표시를 하는데 이 또한 잘 작성된 것으로 보여집니다. AI인턴이 답변해 준 것처럼 시각화 코드 아랫줄이 plt.show()를 추가해 보시고 그래도 안 된다면 다시 질문 주세요.plt.figure(figsize=(10, 3))sns.barplot(data=df_last, x="지역명", y="평당분양가격") 잘 해결되길 바라겠습니다.감사합니다.plt.show()
- 0
- 2
- 149
질문&답변
value_counts와 count 차이
안녕하세요. value_counts() 는 범주끼리 그룹화 한 데이터에 대한 빈도를 세어 줍니다.count()는 groupby() 등과 함께 사용해야지만 범주형 데이터에 대한 빈도수를 구할 수 있습니다. df['컬럼명'].value_counts() 로 구할 수 있는 값이라면 df.groupby(['컬럼명'])['특정기준컬럼'].count() 와 같이 구할 수 있습니다.value_counts()가 더 간단한데 여러 컬럼을 함께 고려해서 빈도수를 세거나 빈도수도 구하고 평균, 표준편차 등 다양한 연산을 하고자 할 때는 집계 함수인 agg를 사용하여 .agg(['count', 'mean', 'std']) 형태로 사용할 수 있습니다.새해 복 많이 받으세요.감사합니다.
- 0
- 2
- 147
질문&답변
수업자료 다운로드 링크 에러
안녕하세요.이용에 불편을 드려 죄송합니다. 지금 확인해 봤을 때는 다운로드가 가능한데 혹시나 해서 해당 강의 커리큘럼 페이지를 통해 다운로드 받으실 수 있도록 파일을 업로드 해두었습니다.감사합니다!(사진)
- 0
- 2
- 112