todaycode
@todaycode
受講生
19,286
受講レビュー
810
講義評価
4.9
Microsoft MVP(Python Developer Technologies)
네이버 커넥트 재단 부스트코스 데이터사이언스 강의 설계 및 교수자
서울대 빅데이터혁신공유대학, 서울대 평생교육원, 연세대 DX Academy, 한신대 ABC Camp, 한양대 대학원, 전남대,
한국능률협회, IGM세계경영연구원, 삼성SDS 멀티캠퍼스, 멋쟁이사자처럼, 패스트캠퍼스, 모두의연구소, 국립암센터 등 다수의 교육기관 및 기업 강의
다양한 도메인(제약, 통신, 자동차, 커머스, 교육, 정부기관 등)의 기업 데이터 분석
20년이상 게임, 광고, 교육 등 다양한 도메인에서 웹 백엔드 개발자 및 데이터 분석가 현업 경험
📚 도서
講義
受講レビュー
- カチッ!AIで専門家のようにWebクローリング&データ分析(w. GEMINI CLI)
- カチッ!AIで専門家のようにWebクローリング&データ分析(w. GEMINI CLI)
- カチッ!AIで専門家のようにWebクローリング&データ分析(w. GEMINI CLI)
投稿
Q&A
안녕하십니까! 질문드립니다!
안녕하세요. robots.txt 는 권고사항이고 강제사항은 아닙니다.권고사항이라 지키는 것이 좋지만 이미 레딧의 많은 글은 LLM 모델에서도 학습에 사용하고 있는 것으로 알려져 있습니다.해당 데이터를 수집해서 무단으로 공개하는 것이 아니라 개인 연구용으로 사용한다면 수집을 하더라도 문제가 될 소지는 많지 않습니다.감사합니다!
- 0
- 2
- 23
Q&A
md파일 수정만 하는게 아니라 실제 파일 수정
안녕하세요. /init 명령어는 gemini 에 기본적으로 있는 명령어이고 GEMINI.md 파일을 기본적으로 생성해 줍니다.혹시 다음과 같이 /i 만 했을 때 init 명령이 보이는지 확인을 부탁드립니다.기존에 GEMINI.md 파일이 있다면 파일이 있다고 만들어지지 않아 다른이름으로 백업을 해두시고 해보셔도 좋습니다.(사진) 두번째 마크다운 파일만 생성해 달라고 했는데 파이썬 파일까지 생성할 수 있습니다. 저는 코드는 작성하지 말고 문서 내용만 정리해 달라고 얘기할 때도 있습니다. GEMINI는 확률모델이기 때문에 마크다운 문서만 만들어 달라고 했는데도 그 내용을 실행까지 해버리기도 합니다. 그래서 코드 작성까지는 하지 말고 문서만 만들어 달라고 강조해서 얘기해 보세요. 그랬는데도 코드까지 생성한다면 /clear를 통해 대화를 초기화 하고 다시 얘기해 보세요! 감사합니다!
- 0
- 2
- 23
Q&A
26번 영상과 23번 영상이 같습니다
안녕하세요. 이용에 불편을 드려 죄송합니다.해당 영상 교체가 완료되었습니다.즐거운 주말 되세요!감사합니다.
- 0
- 1
- 25
Q&A
영상에 사용한 슬라이드
안녕하세요. 해당 사이트 링크로 혹시라도 불안하실까 하여 왜 카스퍼스키가 경고 메시지를 출력하는지도 함께 전달드립니다.자바스크립트 코드 등을 실행하는 이벤트 등도 카스퍼스키가 위험하다고 판단하는 요소가 되었을 수도 있을 듯 합니다. 해당 사이트의 코드에는 악성 코드나 관련 cdn 등의 링크는 없습니다.아마도 uv 설치 관련 명령어가 원인이었을 거 같습니다. uv 는 많은 파이썬 개발자들이 사용하는 도구이며, 공식문서 기준으로 작성되었으니 이 부분 또한 참고 부탁드리겠습니다.다음의 답변도 함께 참고해 보세요 => https://chatgpt.com/share/69390b49-f700-800f-82e2-578b4cfb226b
- 0
- 2
- 30
Q&A
영상에 사용한 슬라이드
안녕하세요. 강의 이용에 불편을 드려 죄송합니다.아마도 사용하시는 보안 프로그램에서 깃허브가 소스코드 저장소이기 때문에 보안 설정을 해둔거 같습니다.해당 강의에 PDF 파일로 다운로드 받으실 수 있게 강의에 PDF 형테로 파일을 첨부해 두었습니다. 다음 화면처럼 강의의 자료 다운로드 기능을 활용해서 PDF 버전을 다운로드 받아주세요!링크는 기존 슬라이드의 버튼 상단에 기입되어 있으니 해당 링크를 선택해서 필요한 도구를 설치해 주세요! 감사합니다!(사진)
- 0
- 2
- 30
Q&A
Component 수는 어떻게 지정을 해야 할까요?
안녕하세요! LDA나 NMF에서 최적의 컴포넌트 수(토픽의 개수, K)를 찾는 방법에 대해 질문해주셨네요. 토픽 모델링에도 비슷한 정량적 지표들이 있으며, 가장 널리 사용되는 것은 'Perplexity'와 'Coherence Score' 입니다.하지만 군집 분석과 마찬가지로, 이 지표들이 항상 정답을 알려주는 것은 아니며, 최종적으로는 사람이 직접 토픽의 품질을 보고 판단하는 정성적 평가가 매우 중요합니다. 1. 정량적 평가 지표 (Quantitative Metrics)가. Coherence Score (응집도 점수) Coherence Score는 생성된 토픽이 얼마나 의미적으로 일관성 있는지를 측정하는 지표입니다. 즉, 한 토픽 내에 등장하는 상위 단어들이 서로 얼마나 연관성이 높은지를 계산합니다.해석: 점수가 높을수록 의미적으로 일관된, 사람이 해석하기 좋은 토픽이 생성되었음을 의미합니다.사용법:다양한 K 값 (예: 5, 10, 15, ..., 100)에 대해 LDA/NMF 모델을 각각 학습시킵니다.각 모델에 대해 Coherence Score를 계산합니다.K 값에 따른 Coherence Score를 그래프로 그립니다.그래프에서 점수가 가장 높게 나타나는 지점(Peak)이나, 점수가 급격히 꺾이며 안정화되는 지점을 최적의 K 후보로 선택합니다.종류: C_v, Umass, C_uci, C_npmi 등 여러 계산 방식이 있으며, 일반적으로 C_v가 사람의 판단과 가장 유사한 경향을 보여 많이 사용됩니다. Python의 gensim 라이브러리에서 쉽게 계산할 수 있습니다.실루엣 스코어와의 유사점: 군집이 얼마나 잘 형성되었는지 측정하는 실루엣 스코어처럼, Coherence Score는 토픽이 얼마나 의미적으로 잘 형성되었는지 측정합니다.나. Perplexity (혼잡도)Perplexity는 모델이 학습 데이터를 얼마나 잘 설명하는지를 나타내는 지표로, 모델이 테스트 데이터를 얼마나 잘 예측하는지를 측정합니다.해석: 값이 낮을수록 모델이 데이터를 잘 설명(예측)한다는 의미입니다.사용법:K 값에 따른 Perplexity를 그래프로 그립니다.그래프의 기울기가 완만해지는 지점 (Elbow Point)을 최적의 K 후보로 선택합니다.주의사항:Perplexity는 K가 커질수록 계속해서 낮아지는 경향이 있습니다.이 경우, 토픽이 너무 세분화되어 사람이 해석하기 어려운 수많은 토픽이 생성될 수 있습니다.Perplexity가 낮다고 해서 반드시 사람이 해석하기 좋은 토픽인 것은 아닙니다. 최근에는 Perplexity보다 Coherence Score를 더 신뢰하는 추세입니다.엘보우 플롯과의 유사점: 군집 내 거리(inertia)가 줄어드는 엘보우 플롯처럼, Perplexity도 특정 지점에서 감소율이 둔화되는 '팔꿈치' 지점을 찾습니다.2. 정성적 평가 방법 (Qualitative Evaluation)정량적 지표는 훌륭한 가이드라인을 제공하지만, 최종 결정은 결국 사람이 해야 합니다. 토픽 모델링의 주된 목적은 '사람이 이해하고 인사이트를 얻는 것'이기 때문입니다.방법:Coherence Score나 Perplexity를 통해 찾은 몇 개의 K 후보(예: K=20, 25, 30)를 정합니다.각 K 값으로 학습된 모델의 토픽별 상위 단어 목록을 직접 출력해 봅니다.아래 기준에 따라 토픽의 품질을 평가합니다.해석 가능성 (Interpretability): 각 토픽의 단어들이 하나의 의미 있는 주제로 묶이는가? (예: '농구', '축구', '야구', '선수' -> '스포츠' 토픽)차별성 (Distinctiveness): 각 토픽들이 서로 다른 주제를 다루고 있는가? 아니면 비슷한 토픽이 중복되는가?잡음 (Junk Topics): 의미 없는 단어(불용어, 특수문자 등)로만 구성된 토픽이 있는가?최종 선택: 정량적 지표가 가장 좋았던 K가 아니더라도, 사람이 보기에 가장 해석이 잘 되고, 비즈니스 목적에 부합하는 토픽들을 생성하는 K를 최종적으로 선택합니다.실용적인 접근법 (Workflow)K의 범위 설정: 분석하려는 문서의 양과 도메인 지식을 바탕으로 K의 대략적인 범위를 설정합니다. (예: 10부터 100까지 5단위로)정량적 지표 계산: 설정한 K 범위 내에서 각 K 값에 대해 모델을 학습시키고 Coherence Score (C_v)와 Perplexity를 계산합니다.시각화 및 후보 선정: K 값에 따른 두 지표를 그래프로 그려봅니다. Coherence Score가 가장 높은 지점과 Perplexity의 엘보우 지점을 중심으로 2~3개의 K 후보를 선정합니다.정성적 평가: 선정된 K 후보들에 대해 각각 토픽 결과를 출력하여 직접 눈으로 확인하고, 가장 해석 가능하고 유용한 토픽을 생성하는 K를 최종적으로 선택합니다.즐거운 연휴 주말되시길 바라겠습니다.감사합니다.
- 0
- 2
- 40
Q&A
주식 자동매매 프로그램 제작 관련 조언 부탁드립니다
안녕하세요. 강의를 수강해 주시고 좋은 질문을 남겨주셔서 감사합니다.다만, 강의 소개에도 있는 것처럼 이 강의는 투자 관련 강의가 아닙니다.자동매매 등에 대한 내용도 다루지 않습니다.강의와 무관하게 취미삼아 자동매매를 구현해 본적이 있습니다. 그런데 생각보다 원하는 시점과 구매가격을 맞추는 것이 쉽지 않았고 이를 통해 오히려 손해를 봤습니다.저는 자동매매보다는 다른 일에 관심이 더 많아 취미로 잠시 자동매매를 해본 것에 만족했습니다.그래서 제가 자동매매에 대한 조언을 드리기는 어렵습니다.인터넷 서점이나 자동매매와 관련된 강의가 많이 있습니다. 해당 강의는 데이터 분석 기법을 증권데이터를 소재로 알아보는 강의이기 때문에 만족스러운 답변을 드리지 못해 죄송합니다.남은 연휴 주말 즐겁게 보내시길 바라겠습니다.감사합니다.
- 0
- 1
- 148
Q&A
패키지 설치 에러 ydata-profiling
안녕하세요. ydata-profiling 은 추상화된 도구로 다양한 EDA를 한번에 해준다는 장점이 있지만 패키지 의존성 문제나 라이브러리 업데이트 문제가 있어 파이썬 버전 등을 맞춰 주어야 하는 문제가 있습니다.인프런 AI 인턴이 답변해준것처럼 파이썬 버전을 맞춰줄 수도 있으나 강의를 위해서만 버전을 맞춘다면 번거로울거 같아 google colab을 사용해서 실습을 진행하시는 것을 권장 드립니다.
- 0
- 2
- 76
Q&A
adapt() valid 포함
안녕하세요. 좋은 질문을 주셨네요. 말씀해 주신것처럼 어휘를 학습할 때 valid까지 학습하면 데이터 누수가 될 수도 있습니다. valid에만 있는 단어가 사전에 포함되게 되기 때문에 제외하기도 하나, test 데이터는 제외하는게 맞고 valid의 경우에는 데이터셋의 크기를 고려해서 제외하거나 포함하게 됩니다.valid로 학습하지 못하는 어휘가 너무 많게 되면 모델 성능이 함께 떨어질 수도 있습니다.데이터셋이 작거나, 훈련/검증 데이터 간의 단어 분포 차이가 클 때, 훈련 데이터만으로는 충분한 어휘를 학습하기 어렵습니다. 이 경우, 검증 데이터의 어휘까지 포함시켜 더 풍부한 단어 사전을 만들면, 'Unknown' 토큰으로 인한 정보 손실을 줄여 전반적인 모델 성능 향상을 기대할 수 있습니다.
- 0
- 1
- 49
Q&A
concat 을 통한 데이터 프레임 합치기 에러 문의
안녕하세요. 해당 기능을 사용하는 장점이 어떤 컬럼이 올지 몰라도 컬럼 스키마를 지정하지 않고 사용할 수 있다는게 가장 큰 장점인데요. 판다스 기능이 업데이트 되면서 컬럼명 형식 등이 불일치 되는 데이터에 대해 병합 오류가 발생하고 있습니다. 그래서 전체를 병합하기 전에 병합할 일부 컬럼 정보를 지정하고 병합해 보시는 것을 추천드립니다. 조만간 해당 내용에 대해 콘텐츠를 업데이트하도록 하겠습니다. 이용에 불편을 드려 죄송합니다. 감사합니다!
- 0
- 1
- 59






