kyleschool
@kyleschool
Học viên
15,418
Đánh giá khóa học
597
Đánh giá khóa học
4.9
10년차 데이터 과학자, 데이터 엔지니어, 머신러닝 엔지니어로 근무했으며, 쏘카와 타다에서 데이터 분석, 데이터 엔지니어링 개발, 머신러닝 알고리즘을 개발했습니다.
카일스쿨 유튜브에 데이터 커리어 관련 영상을 올리고 있으며, 어떻게 해야 강의를 수강하신 분들이 회사에서 일을 잘할 수 있을까?를 고민하며 자료를 만들고 있어요.
Google의 GDE(Cloud)로 활동하고 있어요.
카일스쿨 유튜브 : https://www.youtube.com/c/kyleschool
기술 블로그 : https://zzsza.github.io/
인스타그램 : https://www.instagram.com/data.scientist/
대표 컨텐츠 : https://github.com/Team-Neighborhood/I-want-to-study-Data-Science
데이터 과학자가 되기 위해 진행한 다양한 노력들 : https://zzsza.github.io/diary/2019/04/05/how-to-study-datascience/
Khóa học
Đánh giá khóa học
- Nhập môn BigQuery (SQL) dành cho người mới bắt đầu
- Nhập môn BigQuery (SQL) dành cho người mới bắt đầu
- Nhập môn BigQuery (SQL) dành cho người mới bắt đầu
- Nhập môn BigQuery (SQL) dành cho người mới bắt đầu
- Thử thách cùng học về Tư duy dữ liệu (Data Literacy) dành cho PM - Khóa 1
Bài viết
Hỏi & Đáp
4-8 지표정의 연습문제
건너건너님 안녕하세요! 지금 하나씩 보며 피드백 준비 중이에요. 로그 설계도 제출해주셨는데 곧 피드백 드릴게요! 로그 설계 부분까지 늦어도 다음주 수요일엔 다 할 예정이에요!!조금만 기다려주셔요. 감사합니다.
- 0
- 2
- 32
Hỏi & Đáp
최종 과제 제출
안녕하세요. 문제 푸시느라 고생하셨습니다!우선 여러 시도를 해주신 점 칭찬드리고 싶어요! 이 레포트를 제 팀원이 제게 가지고 왔다면 어떻게 피드백을 할지 생각하며 의견을 드려봅니다. 구체적인 문제 정의를 더 해보시면 좋겠어요. 구체적인 문제 정의가 거의 보이지 않아요. 스킬(시계열 분석 등)이 더 보이는데, 현업에서는 문제 정의를 제대로 하는 것이 제일 중요해요. 스킬(How) 영역은 문제 정의가 어떻게 되느냐에 따라 나오는거라 문제 정의를 하는 것이 중요합니다.현재 인사이트라고 해주신 부분을 봤는데, 인사이트보다는 데이터 현황 파악을 해주신 것 같아요. 인사이트라고 하면 단순 데이터 해석을 넘어서 의미를 찾는 과정이 인사이트입니다. 단순히 지표가 이정도 올랐다 -> 데이터 현황 해석이고, 인사이트는 지금 지표가 갑자기 올랐던 부분이 왜 올랐는가? 에 대한 이유를 찾아야 합니다아래와 같이 남겨주셨는데공휴일·주말 기반 스파이크 효과를 재현하고 이를 일반화할 수 있는 전략 설계가 필요하다(공휴일 효과를 감안하더라도, 전일 대비 4~5배 수준의 결제 증가는 일반적인 캘린더 효과를 초과하는 비정상적 스파이크로 해석 가능) 머신러닝에서 일반화, 정규화, 이상치를 제외하는 작업을 많이 하는데 지금 과제의 핵심은 "수요 예측"이 아니라, 이런 상황을 어떻게 진단할 것인가?입니다. 그래서 일반화를 원하는 것이 아닙니다. 실제로 데이터를 보면 전일 대비 4-5배 수준의 결제 증가가 있을 수 있습니다. 이럴 때 이 상황을 비정상적이고 이상치라고 하는 것은 머신러닝의 모델 생성 관점이고, 데이터 분석에서는 이런 케이스가 왜 발생했을까?를 고민해보는 것이 필요합니다. 어떤 이유로 4-5배가 올랐을까, 어떤 검색이 올랐지? 등 원래 이걸 더 스스로 찾아보게 하려는 과제인건데, 힌트를 드리자면 저희가 언제 배달을 시키나요? 국민적으로 어떤 이벤트가 발생하면 많은 사람들이 치킨을 시키나요? 이걸 보고 어떤 것을 떠올릴 수 있는데, 현업에서는 이런 것을 스스로 생각해야 합니다. 지금 올라갔네 => 어 왜 그러지? (Why So?) => 오 올랐던 케이스들이 대부분 이런 케이스다. => 그럼 이제 무엇을 해야 할까?(So What?) 이 흐름을 가져가는 것이 필요합니다. 단순히 쿼리를 실행하고 시각화를 한다고 데이터 분석이 아니고, 이게 왜 발생했지?라는 것을 계속 생각하는 것이 필요합니다. 이런 과정은 논리적 사고 과정인데 데이터 분석과 일을 하는 과정에서 이 역량이 제일 중요합니다. 스킬보다 이런 사고 과정이 핵심 역량이에요. 이 부분에 대한 내용은 제 PM을 위한 데이터 리터러시 강의에서 다루고 있어요. 이 강의를 보시면 어떤 방식으로 생각을 전개해야 하는지 더 이해가 되실 거예요(BigQuery 강의 듣고 리터러시 강의를 들은 분들이 리터러시 강의를 먼저 들었으면 좋았을 것 같다는 후기도 남겨주셨었어요) https://inf.run/xJGzh 데이터를 분석하는 과정은 지금처럼 데이터를 보면서 데이터를 해석해보고 => 그 안에서 가설을 만들어야 합니다. 어 이거 왜 이러지? => 그리고 데이터를 또 확인하고 => 오 이것 때문이네! 라고 나오면 이 부분을 인사이트라 부를 수 있습니다. 그리고 이 인사이트를 어떻게 적용해야 우리 지표가 오를까? 고민하는 것이 중요합니다. 퍼널 분석을 보니, 퍼널 분석도 데이터를 해석만 하고 구체적인 가설이 보이지 않아요. 데이터를 분석할 땐 특정 집단과 다른 집단을 비교해야 합니다. 지금 인사이트에 써주신 카테고리 탐색 경로 퍼널 분석은 현황 데이터를 해석한 것이고, 더 구체적으로 가려면 "신규 회원의 카테고리 탐색 경로" vs "기존 회원의 카테고리 탐색 경로" 이렇게 데이터를 더 쪼개서 봐야 합니다. 비교를 해야 한다를 기억하시면 좋겠어요. 더 나아가서는 검색을 한번이라도 시도한 유저 vs 시도하지 않은 유저의 검색 퍼널 지표가 다른지도 볼 수 있지요. 이렇게 두 집단을 비교하면 "검색을 한번이라도 한 집단이 검색을 하지 않은 집단보다 페이지 전환율이 n%p 더 높다"라고 결론이 나올 수 있는데, 이런 결론은 인사이트라고 부를 수 있을 겁니다. 한단계 더 들어갔기 때문이에요 카테고리쪽 가설에서 "가설: 카테고리 기반 탐색은 가장 직관적인 discovery 경로로 작동하며, UI 개선 및 추천 알고리즘 고도화 시 전환율과 매출 기여도 증가 가능성이 있다."라고 해주셨는데 가설을 제시했다면 구체적으로 이게 맞다고 볼 수 있는 근거(데이터)가 있어야 합니다. 직관적인 것은 다음 퍼널로 많이 갔기 때문에 그렇게 정의를 했을까요? 직관적이다의 정의는 무엇일까요?데이터를 보고 더 쪼개면 => 개선 방향(Action Item)이 더 구체적으로 될 수 있어요. 이 관점을 꼭 기억하시면 좋겠습니다 리텐션 분석에서 신규나 기존 유저를 나눠주셨는데, 단순히 숫자만 제시하는 것이 아니라 신규 유저가 급격한 감소를 했다면 왜 그럴까?를 한번 더 깊게 고민해보셔요. 추천 기능이 최소 주문 금액 미충족 상태의 사용자를 보정하여(0 → 1 전환), 결제 가능 상태로 유도함으로써 전체 전환율을 충족 사용자 수준으로 끌어올렸을 가능성이 있다. 일부 사용자에게는 쿠폰, 프로모션, 배달 정책 등으로 최소 주문 금액을 충족하지 않아도 결제가 가능한 구조가 존재하여, 0 상태에서도 높은 전환율이 유지되었을 가능성이 있다. 위 두 가설은 근거가 부족해서 팀장 관점에서 "가능성이 있다고 했는데 그래서 진짜에요?"라고 말하면 할 말이 없어질 수 있지요. 이 이유가 진짜 맞을까? => 탐색해보기를 계속 해보셔요. 분석 방법론보다 문제를 구체적으로 쪼개고, 쪼갠 내용을 보면서 가설을 만드는 연습을 해보셔요. 궁금한 내용이나 이해가 되지 않는 부분이 있다면 남겨주셔요. 고생하셨습니다!
- 0
- 3
- 72
Hỏi & Đáp
vs code
안녕하세요. vscode에 google cloud 확장프로그램이 있을거라 그거로 하시면 되긴 합니다.https://docs.cloud.google.com/bigquery/docs/vs-code-extension?hl=ko 다만 빅쿼리는 콘솔이 아닌 환경에서 할 때 데이터가 안보인다거나 하는 버그를 겪은 적이 있어서 콘솔을 추천합니다. 콘솔에서 해야 루커 스튜디오나 구글 스프레드시트로 바로 보낼 수 있거든요.
- 0
- 2
- 29
Hỏi & Đáp
수업자료 다운
안녕하세요! 압축을 반디집으로 푸셨나요?
- 0
- 2
- 33
Hỏi & Đáp
최종 과제 제출
상우님 안녕하세요! 내용 확인하고 있어요. 꼼꼼하게 보느라 시간이 걸리는데 조만간 피드백 드려볼게요!
- 0
- 3
- 72
Hỏi & Đáp
질문있습니다!
안녕하세요. 회사마다 다양한 방식으로 할텐데해당 프로젝트를 통해 얼마나 임팩트를 가지고 올 수 있을지 추산하는 과정을 거칩니다. 예를 들어 특정 페이지에 접속하는 유저(특정 기능을 사용한 유저)가 100명이고, 그 중 30%만 구매하는데, 그 유저들의 평균 구매 금액이 3만원이다. 이런 상황에 70%에게 더 판매를 할 수 있는 기능을 만들면 얼마의 임팩트를 줄 수 있다 등으로 계산할 수 있어요(실제론 더 복잡하게 계산할 수 있는데 간단하게 설명드린거라고 보시면 됩니다) ICE 방법론이라고 Impact, Confidence, Ease 로 분류해서 각 Task가 몇점인지 파악하는 방법도 존재합니다. 이것은 방법론이 중요한 것이 아니라 조직 내에서 어떤 것을 먼저 할 지 의사결정하는 기준이 필요한 것이라고 생각해주시면 될 것 같네요 회사의 전략 상황에서 먼저 하면 좋은 것들은 먼저 할 수도 있고, 어떤 회사는 탑다운으로 위에서 시키는 것을 해야하는 경우도 있고, 어떤 회사는 바텀업으로 할 일을 공유해서 하는 회사도 있을 거예요. 회사의 방향성과 문화에 따라서도 달라서 정해진 부분은 없는 것 같아요 저는 현재 회사의 전략에 부합하는 것들 위주로 하고, 현재 전사 목표가 매출 증진이면 매출을 증진하는 것들을 먼저 해봅니다. 그 과정에서 걸리는 시간도 파악하고, 예상 임팩트도 계산해서 시간 대비 임팩트가 큰 것부터 진행하곤 합니다. 추정을 하는 것은 아래 영상의 페르미 추정 부분을 살펴보시면 도움이 될 거예요https://www.youtube.com/watch?v=axZLFQjrFKM
- 0
- 1
- 48
Hỏi & Đáp
1-2. 제품(Product) 화면이 안보여요
검정화면이 뜨는 것은 녹화 프로그램이 감지된 경우에 뜬다고 해요. 참고해주셔요
- 0
- 3
- 41
Hỏi & Đáp
쿼리 화면 문의
안녕하세요. 강의 자료에 모든 쿼리문을 올려두었어요!https://inf.run/VxSrg 지금 모바일에서 시청하고 계실까요?
- 0
- 2
- 58
Hỏi & Đáp
4-8 지표 정의하기 연습 문제 풀이
창희님 안녕하세요! 문제 푸느라 고생하셨습니다. 하나씩 의견을 드려볼게요 1번CTR, CVR 잘 생각해주셨고, 비교를 위한 것이라고 해주신 것도 좋네요지표를 분자 분모로 해주신 것도 좋습니다여기서 이제 의사 결정을 어떻게 할지 한번 생각해보셔도 좋을 것 같아요. CTR이 올라갈 때 CVR이 내려갔다면 어떻게 판단할 것인가?생각 과정은 잘 하신 것 같고, 1번 생각하는데 얼마나 시간을 쓰셨을지 궁금하네요. 시간을 많이 쓰셨다고 생각하면 어떻게 해야 줄일 수 있을까 고민해보셔요 2번잘 생각해주셨고, CVR을 메인 지표로 해주셨는데 CVR이란 퍼널 구조에 따라서 퍼널이 길면 지표가 낮아집니다. 그래서 지표의 변화가 적을 수 있어요. 그래서 이 문제를 위해 CTR을 먼저 보는 경우도 있습니다. 이 관점도 기억해보시면 좋을 것 같아요체류 시간의 경우 다양하게 해석이 되는데 (1)은 납득이 되고 (2)는 결정하는 과정이니까 체류 시간이 길어질 수 밖에 없을 것 같아요. 그렇다고 하면 몇 초가 적절하냐?라는 기준점을 제시하는 것이 필요합니다. 그 기준점을 어떻게 잡을 것인가?도 중요할 것 같구요검색 알고리즘처럼 "알고리즘" 이 붙는다면 보통 사용하는 지표가 어느정도 정해져 있습니다https://www.google.com/search?q=%EA%B2%80%EC%83%89+%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98+%EC%A7%80%ED%91%9C검색 알고리즘 지표로 검색해서 어떤 식으로 하는지도 살펴보셔요!지금 작성해주신 것은 제품 관점의 지표고, 위에 제가 공유드린 것은 알고리즘 관점의 지표에요. 하나에도 두가지 관점이 있구나 생각해주시면 됩니다 3번네 이건 제가 생각한 것과 같게 생각해주셨어요. 잘하셨습니다 4번4번 문제는 리텐션이나 체류 시간이라고 답하면 저는 아쉬운 답변이라 생각할 것 같은데, 그 이유는 "비즈니스 모델"을 고려해서 지표를 말해달라고 했기 때문입니다비즈니스 모델을 고려하지 않으면 리텐션 체류 시간이 모두 다 쓰일 수 있는 Output 지표입니다비즈니스 모델을 고려한 Input 지표를 만들면 좋겠다는 의도로 낸 문제입니다서비스 접속 = 주문으로 이어지는 경우가 대부분이라고 해주셨는데 이 근거는 어디에서 나온걸까요?DAU가 1000명이면 주문이 1000명에 근접하다고 생각하시는걸까요? 제 경험상 아닌 경우를 더 보긴 했습니다. Push를 보내거나 하면 DAU는 올라가는데 주문은 영향이 적은 상황도 있구요그렇기 때문에 지금 Input 지표를 생각해보시면 좋겠습니다(배달 비즈니스의 목표를 생각하면서)5번5번도 2번과 문제가 거의 비슷하고, 추천 알고리즘은 Recall, Precision 등의 방식으로 확인하곤 합니다https://imlookingformyjob.tistory.com/entry/%EC%B6%94%EC%B2%9C%EC%8B%9C%EC%8A%A4%ED%85%9C-%EC%B6%94%EC%B2%9C%EC%8B%9C%EC%8A%A4%ED%85%9C-%EC%A2%85%ED%95%A9-%ED%8F%89%EA%B0%80-PV-CTR-AB-Test-%EC%A0%95%ED%99%95%EB%8F%84-%EC%A0%95%EB%B0%80%EB%8F%84-%EC%9E%AC%ED%98%84%EC%9C%A8-F1-Score-PrecisionRecallK-MAPK-nDCG-Hit-RateK추천 알고리즘 지표로 검색해서 글 몇개 살펴보시고 인지하시면 좋을 것 같아요! 6번1인당 평균 작품 소비수를 제시해주셨는데, 평균 1.5개, 3.5개 이런 식으로 표현될 것 같아요.저라면 하루에 소비된 작품 수나 작품을 소비한 유저 수를 구할 것 같고, 유저 수가 있으면 말씀하신 것을 보조적으로 계산해둘 수 있을 것 같아요그 이유는 "평균"값은 데이터 분포에 따라 달라집니다. 그렇기 때문에 아웃라이어가 생기면 지표가 올라갈 수도 있어요(물론 트래픽이 많으면 이것도 어느정도 영향이 덜 미치겠지만) 그래서 저는 평균을 보기도 하지만 평균을 계산하기 위해 구성되는 값을 더 먼저 보고 평균을 봅니다그리고 평균 외에도 중앙값도 보는 편이에요. 두개를 보면 분포가 어떤지 이해할 수 있거든요이렇게 하면 어떻게 해야 사람들이 작품을 더 많이 볼 수 있을까? 생각할 수 있어서 Action Item을 구체화할 때 도움이 됩니다여기서 더 나아가면 신규 유저별, 기존 유저별로도 쪼개볼 수 있지요 7번네 이 부분은 지표는 잘 생각해주셨고, 추후에 있을 실험 내용을 맛보게 하려고 낸 문제였어요. 실험 파트를 보시고 다시 문제 보시면 영감을 얻으실 수 있을 거예요 문제 푸느라 고생하셨습니다!!
- 0
- 1
- 82
Hỏi & Đáp
1-2. 제품(Product) 화면이 안보여요
앗 재부팅하니 되었다는 답변을 써주신 것을 봤는데 해결이 안된걸까요?
- 0
- 3
- 41






