9년차 데이터 과학자, 데이터 엔지니어, 머신러닝 엔지니어로 근무했으며, 쏘카와 타다에서 데이터 분석, 데이터 엔지니어링 개발, 머신러닝 알고리즘을 개발했습니다.
카일스쿨 유튜브에 데이터 커리어 관련 영상을 올리고 있으며, 어떻게 해야 강의를 수강하신 분들이 회사에서 일을 잘할 수 있을까?를 고민하며 자료를 만들고 있어요.
Google의 GDE(Cloud)로 활동하고 있어요.
카일스쿨 유튜브 : https://www.youtube.com/c/kyleschool
기술 블로그 : https://zzsza.github.io/
인스타그램 : https://www.instagram.com/data.scientist/
대표 컨텐츠 : https://github.com/Team-Neighborhood/I-want-to-study-Data-Science
데이터 과학자가 되기 위해 진행한 다양한 노력들 : https://zzsza.github.io/diary/2019/04/05/how-to-study-datascience/
講義
受講レビュー
- BigQuery(SQL) 活用編(ファネル分析、リテンション分析)
投稿
Q&A
3-13 리텐션 과제 제출
재현님 고생하셨습니다! 이 문제가 정말 난이도가 있는 문제긴 합니다. 실무에서도 고민을 많이 해야하는 부분이고, 이런 과정을 하신 것이 실무를 간접적으로 경험한 것이라고 생각합니다 이 문제가 최종 과제와 연결되는 부분이라, 피드백을 토대로 고민을 해보시는 것을 추천합니다 피드백1, 4번의 경우 쿼리를 작성해보는 것을 목표로 한 것이고 잘 작성하셨습니다. 이걸 나아가서 쿼리 작성으로 끝이 아니라 더 자세히 해석하고, 가설을 만드는 것도 해보시는 것을 추천해요3번3번은 데이터를 본 후에 -> 해당 데이터에서 가설을 떠올리는 것이 필요합니다. 어떤 사람들이 많이 계속 사용할까?여기서 검색을 1번이라도 한 사람이 리텐션이 높을까? -> 검색 1번을 한 사람들의 리텐션 비율과 전체적인 비율과 비교이렇게 가설을 만들고, 데이터를 구체적으로 뽑고, 검색 1번을 한 사람과 검색 2번을 한 사람의 차이는? 또는 어떤 이벤트를 하면 사람들이 더 많이 들어온다! 이런 것을 발견하는 것이 중요합니다2번2번은 Retain User로 생각하면 어려워서, WAU를 New, Current, Resurrected, Dormant로 구분해보는 것을 추천합니다작성해주신 것처럼 각각을 정의하고, Dormant에서+4라고 했는데 그럼 왜 +4인가?라고 누군가 물어보면 근거를 데이터로 제시할 수 있어야 합니다Resurrected는 왜 5주일까요?Current는 왜 직전 3주일까요?이런 근거를 정할 때 정답이 있는 것이 아니라, 데이터를 보면서 판단해야 합니다주차별로 New, Current, Resurrected, Dormant 인원이 계속 달라질텐데 이걸 구해보셔요1주차에 New였던 유저가 2주차엔 Current로 상태가 변할 수도 있습니다주차별 New, Current, Resurrected, Dormant를 구하면 신규 유저가 많이 들어오는지, 현재 유저가 들어오는지 등을 토대로 어떤 사람들을 집중으로 Action을 할 지 떠올릴 수 있답니다분석이 제대로 안된 것 같으시다면 Action Item을 구체적으로 내지 않아서 그럴 수 있습니다. 쿼리를 짜고 데이터를 간단하게 보는 것은 분석의 레벨이 얕고, 나온 데이터를 보면서 또 가설을 생각해보고, 그걸 데이터로 확인해보고, Action Item을 떠올리는 것이 분석이라고 생각하시면 됩니다 최종 과제도 있으니 이 부분 참고해서 봐보셔요. 최종 과제에서 목표는 단순히 쿼리 작성이 목표가 아니라, 가설을 잡아서 해결하는 것이 핵심이에요. 고생하셨습니다!
- 0
- 2
- 30
Q&A
Syntax에러
안녕하세요. 첫번째 이미지에서는 SELECT 절에 컬럼이 없어서 오류가 발생하고 있네요.SELECT와 FROM 사이에 *을 넣어주면 실행 됩니다 두번째 이미지에는 지금 빨간색으로 NULL이란 이상한 문자가 들어가서 오류가 발생하고 있습니다. 이 문자를 삭제하면 됩니다!
- 0
- 2
- 24
Q&A
최종 과제 제출
은지님 안녕하세요! 과제 푸시느라 고생하셨습니다 현황 파악 부분전체적인 트렌드를 파악해주셨는데, 이거를 다르게 보는 방법도 있습니다. 예를 들어 주별로는 성장했는가? 주별 User를 파악해보는 것도 추천드려요. 서비스의 사용 빈도에 따라 하루 단위가 아니라 주별로 보는 것이 유의미한 경우가 있어요일자별로 볼 때도, 1일 방문 유저를 더 세분화해서 볼 수 있는지 생각해보시면 좋습니다예를 들어 과제에서도 드렸던 신규 유저 / 기존 유저 / 복귀 유저 이렇게 나눠서 데이터를 보면 신규 유저는 늘어나고 있는데 기존 유저가 이탈한 것인지 혹은 신규는 계속 비슷했는지 등 나눠서 볼 수 있게 됩니다이렇게 하나의 데이터를 조금 더 쪼개보면 Action Item을 더 잘 생각할 수 있게 됩니다액션 아이템 도출이 어렵다고 하면 데이터를 한번 더 쪼개보셔요!또 다른 관점으로는 데이터를 파악할 때 그냥 단순히 올라가는구나 멈추는구나 하는 것에서 하나 더 나아가서, 평일과 주말의 패턴이 다를까? 공휴일이 있을 때 패턴이 다를까? 이런 가설을 생각해보고 데이터를 확인해보는 과정이 필요합니다데이터 하나를 보고 디테일하게 한번 더 생각해보는게 핵심이라 데이터를 보고 어떤 관점으로 또 볼까? 생각해보셔요일별 결제 전환 사용자 수에서 감소 원인 분석 필요라고 해주셨는데, 이렇게 하면 분석 필요만 쓰는 것이 아니라 가설을 생각해보시면 도움이 됩니다. 왜 떨어졌을까? 어떤 일이 있었을까? 이런 관점으로요퍼널에서 이상치를 제외한 이유는 무엇일까요?이상치가 아니라 그 안에서도 유의미한 의미가 있을 수 있습니다. 공휴일의 패턴이 다를 수도 있는 것이지요공휴일과 아닌 시기의 퍼널 비율을 비교해보고, 공휴일엔 조금 더 많은 사람들이 퍼널에 전환되는구나 이런 것들을 알 수 있게 됩니다아래 표에 있는 0 to 50, 50 to 100, 100 to now는 무엇일까요? 컬럼에 나와있는 부분에 대한 정의가 나와있지 않아서 어떤 것을 의미하는지 알기 어렵네요 가설 수립 부분가설에서 리텐션 사용자 비중 증가로 전환율이 개선되었다라고 해주셨는데 이건 어떤 의미인가요?리텐션이라는 지표가 전환이 되었다는 것을 의미하는데, 유사한 표현을 반복한 것처럼 보입니다(두개가 상관관계가 정의에 따라 이미 높을 것이라는 의미)가설의 한계에서 과거 원인 분석과 미래 액션 계획을 직접 연결하고자 함은 어떤 의미일까요? 문장만 봐서는 이해가 되지 않아 질문드려요가설 검증 부분리텐션 사용자를 결제 기록이 있는 사용자라고 해주셨는데, 리텐션이라는 지표를 정확하게 정의를 해야 리텐션 사용자를 사용할 수 있습니다여기서는 최초 결제 후에 해당 기간에 결제 기록이 있는 사용자라고 해서 지표의 의미가 헷갈리네요만약 과거 2025-01-01에 가입해서 그 시기에 결제하고, 2025-02-03에 결제하면 리텐션 사용자인가요? 이 리텐션 사용자는 언제의 리텐션 사용자인걸까요?리텐션의 정의를 주문이라고 했다면, 리텐션이 홈 화면에서 결제 전환을 한 사람의 비율과 유사한데 지금 써주신 부분의 인과가 반대인 것 같아요. 유저들의 페이지 전환율이 높아져서 그 결과 주문까지 이어지고, 그게 리텐션 유저를 증가시킨 것이지요. 리텐션 유저가 늘어나서 페이지 전환율이 높아졌다고 말하는 것은 X->Y를 반대로 해석한 것 같아요 리텐션 액션 순위에서 유저 세그먼트를 그리고 Action Item이 구체적이지 않은 것은 가설이 구체적이지 않아서 그렇게 느끼실 수 있을 것 같아요. 저도 처음에 분석할 땐 이게 어려웠어요. 그래도 이렇게 고민을 작성하시고 제가 말씀드린 것을 보시면, 이제 어떻게 해야할지 감이 떠오르실 것 같아요! 한번 위에 말씀드린 내용을 토대로 다시 한번 시도해보시면 어떨까요? 정리드리면데이터를 더 디테일하게 뜯어서 확인해보기가설을 만들어서, 생각해보기지금도 가설을 생각하는 것을 잘 시도해주셨는데, 지표 정의상 X, Y를 반대로 이해하신 것 같아요. 이 부분을 다시 생각해보시고 무엇이 Input 메트릭일까? 무엇이 Output 메트릭일까? 을 같이 생각해보시면 도움이 될 것 같아요! 과제 하시느라 너무 고생하셨고 계속 또 질문 해주셔요!!!
- 0
- 3
- 58
Q&A
최종 과제 제출
은지님 안녕하세요. 과제를 보면서 피드백을 준비하고 있어요. 금요일까지 공유드릴게요!!
- 0
- 3
- 58
Q&A
지표정의 4-8 문제풀이 입니다.
종삼님 안녕하세요! 문제 푸시느라 고생하셨습니다!하나씩 의견을 드려볼게요 기능이 잘 동작하고 있는지 확인하려면?1번에서 어떤 항목에 대해서 구할지를 작성해주셨는데, 지표를 명확하게 작성해주시는 것이 좋습니다. 예를 들어 배너의 클릭율(CTR) 이렇게 표시하고 분자와 분모를 명시하는 방식입니다.현재 작성해주신 배너 : 전달 내용 대비 유저 참여수/출력수로 실제 참여유도 효과 측정인데 여기서 "전달"이 무엇인지(배너가 노출되는 것을 의미하는지?), 참여수는 무엇인지? 출력수는 무엇인지?(출력이 노출인 것 같기도 한데 전달과 차이는 무엇인지) , 참여 유도 효과라는 것은 어떻게 측정하는지가 정의가 되어야 합니다. 이를 위해 제가 강의에서 말씀드린 지표들을 먼저 활용해서 이름을 붙여주는 것을 추천합니다. 많이 활용되기 때문에 일반적으로 알 가능성이 있거든요. 이런 지표들이 아니라면 각각에 정의를 해줘야 합니다.히트맵의 경우 5% 미만 클릭 영역이라고 했는데 이것도 고민할 부분이 있습니다. 히트맵의 클릭 비율을 의미하신 것 같은데, 5% 미만인 부분이 UI 관점에서 나올 수 밖에 없는 영역이 있습니다. 예를 들어 누를 수 없는 영역은 히트맵에서 클릭이 안된다고 나오겠죠. 그렇기 때문에 5% 미만 클릭 영역 = 사실 클릭할 컴포넌트가 없는 영역일 수 있습니다. 또한 지표를 정의할 때, 이 지표로 어떤 Action을 할 수 있는가?가 명확할수록 좋은 지표입니다(Actionable한가) 히트맵에서 UI 사각지대 발견하면 => 뭘 할 수 있을까?가 나오는지 생각해보시면 좋을 것 같아요. 위에서 말한 것처럼 클릭할 컴포넌트가 없어서 컴포넌트를 추가한다고 하면 이상해질 수 있겠죠(컴포넌트를 배치하지 않은 이유가 있을테니)카테고리나 추천 영역도 비슷합니다. 구체적으로 정의를 해보시면 좋을 것 같아요. 추천의 실질적 비즈니스 기여도 측정이라고 하면 더 구체적으로 명시해야 합니다. 추천을 통한 구매 금액의 합처럼 구체적인 단어를 써야 합니다. 추상적인 것은 지표화까지 가지 않을 것일 가능성이 높아요.N분 이내 기준 설정을 왜 했는가?에 대해 질문이 들어오면 그걸 명확하게 이야기를 할 수 있어야 하는데, N분 기준이 어렵다면 처음엔 N분 기준을 없이 하는 것이 좋을 수 있습니다 2번. 검색 만족도 지표1번과 동일한 내용이 반복되어서 1번을 보시고 2번을 다시 고민해봐도 좋을 것 같아요.검색 퍼널을 이야기해주셨는데, 검색 퍼널이라는 것은 검색하는 과정을 보겠다는 의미이고, 지표를 정의해야 합니다. 실제 주문까지의 주문 전환율을 의미한다면 주문 전환율(CVR) = 검색을 통해 주문한 수 / 검색을 진행한 수. 이렇게 정의를 하는 것이 필요합니다.검색 정확도에서 N개 결과 클릭률을 통한 검색 품질 평가라고 해주셨는데, 지표가 어떻게 나오면 좋은 품질인가요? 이 부분도 고민해보시면 좋은데, 검색이나 추천은 알고리즘 영역이라 이미 사용하는 지표가 정해져 있습니다. 이런 것들은 한번 찾아보면 되겠구나! 라고 느끼시면 좋을 것 같아요. 무신사의 글을 참고해보시면 이해가 되실 것 같아요https://medium.com/musinsa-tech/map-416b5f143943 3번. 검색필터 기능의 활성화 지표작성해주신 내용을 보니까 한 문장에 많은 것을 넣어서 명확하게 나뉜 것 같지 않을 수 있겠다란 생각이 드네요검색 퍼널 정의 : 검색단어 입력 → 검색실행 → 필터 사용 → 결과값 클릭 → 실제 주문검색 퍼널의 지표 : 주문 전환율(CVR) = 분자/분모이렇게 나눠서 표시를 하시면 다른 사람들도 이해하기 좋을 것 같아요.이 문제를 출제한 의도는 꼭 주문까지 가지 않더라고, 필터 기능의 본질적인 것을 생각해보시고 지표를 도출하는 것을 연습하기 위함이였습니다. 필터가 잘 사용되고 있다고 하는 것은 주문까지 가지 않아도 생각할 수 있는데, 어떤 것을 봐야 할까요? 배달 서비스에서 가장 중요한 지표는?리텐션이라는 지표는 어떤 서비스에서도 다 중요하다고 말할 수 있는 지표입니다. 문제에서 "배달"이라는 것으로 한정한 이유는 배달 비즈니스 모델을 고려한 Input 지표를 생각해보시길 바라는 마음에 낸 문제입니다. 리텐션은 Output 지표구요.배달 서비스의 Input은 무엇일까요? 배달 서비스를 사용하는 유저들은 본질적으로 왜 사용하나요? 이 부분을 고려해서 지표를 다시 생각해보셔요 5. 추천 알고리즘의 성능 지표전환율이라고 해주셨는데, XX 전환율 이렇게 구체적으로 작성해주시면 좋을 것 같아요. 장바구니 or 주문 Count라고 해주셨는데 지표 정의에서 or을 사용할 수도 있지만, 명확한 것이 좋은 지표일 수 있어서 두개를 나눠서 보는 것도 방법일 것 같아요. 장바구니는 어떤 의도로 보려고 하는 건가요? 6. 자주 사용하는 서비스의 지표지금 생각하신 아이디어의 본질은 무엇일까요? 리텐션은 Output 지표고 아이디어의 Input을 생각하는 것이 필요합니다. 수강생이 여기서 해결하려고 하는 문제는 무엇인가요?통화 품질은 상황에 따라서 다르게 나타날 수 있을 것 같아요. 통화 후 1분 이내 팔로우 비율이라는 것은 왜 1분인지 설명을 해야 하며, 사람들이 새벽에 늦게 끝냈다면 바로 잠이 들어 1분이란 시간이 적절하지 않을 수 있을 수 있지요. 여러 상황이 나타날 수 있다면 저는 그 상황을 지표로 정의하지 않으려고 합니다. 해석이 다양할 수 있다는 것을 의미하거든요 7. 퍼널 개선 프로젝트온보딩 달성률은 조금 더 구체적으로 정의를 해보시면 좋을 것 같아요. 가입 전환율이라고 해주셨는데, 온보딩은 보통 가입한 후에 서비스를 잘 사용할 수 있도록 할 때 쓰이곤 합니다. 전환 이벤트를 정의해서 그 전환 이벤트를 달성했는가 등을 통해 사용자가 잘 사용하는가를 볼 수 있어요.이 문제는 이후에 나오는 AB Test 부분을 보시면 더 이해가 되실 것 같아요. 1번을 풀다보니 궁금한게 있어 추가질문 드립니다!퍼널 분석 시 사용자가 중간에 다른 과정을 거쳐 목표에 도달하는 경우 어떻게 분석하나요?예시: 배달 서비스 메인영역 클릭 → (중간에 검색, 카테고리 탐색 등) → 장바구니/주문 완료이런 간접 경로를 통한 전환도 메인영역의 성과로 인정해야 하는지, 인정한다면 어떤 방식으로 측정하는지 궁금합니다.이런 상황을 어떻게 측정할 것인지 정의를 하고 시작합니다. 한번이라도 검색을 했다면 인정하는 경우도 있고, 주문 직전에 검색을 했어야만 인정하는 경우도 있습니다. 프로젝트의 목적에 따라서 정한다고 보시면 됩니다. 그래서 퍼널 분석할 때 퍼널을 잘 정의하는 것이 필요합니다 문제 푸시느라 고생하셨습니다! 제 의견을 보고 또 다시 생각을 해보셔요!
- 0
- 1
- 44
Q&A
데이터 로그 관련 질문
데이원님 안녕하세요! 믹스패널 기반으로 AB하는게 대부분이라고 하신 것은 AB Test를 의미하는걸까요? AB Test를 하기 위해서도 데이터 로그 설계가 필요합니다. 그리고 GA나 Amplitude나 Mixpanel이나 로그 설계의 흐름은 동일합니다. 각 도구에서 로깅하는 API 가 다를 뿐입니다. 도구가 다른 것은 크게 중요하지 않고 로그 설계를 어떻게 해야 원하는 지표를 얻을 수 있을까를 보시는 것이 핵심입니다. 면접에서 믹스패널로 로그 설계를 했다, 앰플리튜드로 로그 설계를 했다에 대해 생각을 다르게 한 적은 없는 것 같네요. 팀장님이 기본적인 것부터 하고 나중에 생각해보라고 하셨다면 지금 팀장님이 중요하게 생각하는 것이 무엇인지 물어보고 그것부터 채우면서(데이터쪽이 아니더라도) 점진적으로 확대하면 좋을 것 같네요. 강의 첫 파트에서 나온 것처럼 동료의 신뢰를 얻고 영향력을 점진적으로 올리는 것이 필요합니다.
- 0
- 1
- 36
Q&A
2)AB Test 방법과 관련해서 질문 드립니다!
보리보리쌀님 안녕하세요! 좋은 질문 감사합니다. 이 상황에 이게 맞나? 저게 맞나? 생각해보는 것이 사고력 증진에 도움이 되더라구요 [기존에 없던 신규 기능을 배포한 경우[ 케이스에서 A/B테스트를 하게 될 때 A: 신규 기능을 적용하지 않은 경우, B: 신규 기능을 적용한 경우로 비교 실험하는 것으로 이해했는데 맞을까요?혹은 A/B 각 군 모두 신규 기능 이되 UI/UX 형태를 다르게 해서 비교 실험을 해야하는 것일까요? 신규 기능을 배포할 때도 더 쪼개보면 상황이 여러가지가 될 수 있습니다제품의 완전 핵심적인 부분(2점대에서 3점대로 바뀌면서 화면 UI가 모두 바뀌는 경우)핵심적인 부분은 아닌 새로운 기능 출시 1번과 2번에 따라서 AB Test를 하는 것이 좋은지, 어떤 방식으로 해야할 지가 나뉩니다.1번의 경우 기존 화면 / 신규 화면을 나눠서 AB Test를 하면서 사용성이 달라지는지 파악하고, 2번의 경우엔 문제의 크기나 회사 상황에 따라 논의하고 결정했습니다 2번을 조금 더 자세히 이야기 해보면기능의 첫 배포를 할 때신규 기능을 적용한 경우 / 신규 기능을 적용하지 않은 경우구매 전환율(CVR) 같은 지표를 통해 신규 기능 여부를 나눌 수 있다면 구매 전환율(CVR) 지표를 보조 지표로 볼 수 있습니다(보조 지표인 이유는 CVR 지표는 직접적인 것보다 장기적인 관점에서 나오는 지표라 판단해서)만약 공통의 지표가 나오기 어렵다고 하면신규 기능을 아예 100% 배포 -> 이후 기능 런칭할 때 AB Test 진행이런 결정을 하는 이유는 처음이기에 기준점이 없을 수 있습니다. 그래서 일단 빠르게 배포해서 데이터를 쌓고, 베이스라인으로 삼을 지표를 만든 후 그 이후 기능부터 AB Test를 합니다신규 기능을 2가지 버전으로 나누어서 배포이상적으로는 이게 좋아보이지만, 2가지 버전으로 만드는 것은 개발이나 디자인 리소스가 2배가 드는 일이기 때문에 속도가 느려질 수 있습니다. 아주 작은 것만 수정하는 것은 또 굳이?일 수도 있구요신규 기능의 베이스라인으로 삼을 수 있는 지표모든 기능들의 처음이 존재할텐데, 처음 배포했을 때 지표를 베이스라인으로 삼을 수 있습니다. 예를 들어 홈으로 들어온 사람 중 30%가 신규 기능을 사용했다 => 그럼 이번에도 30% 넘으면 일단 과거보다 잘 되어가는 것으로 생각해볼 수도 있다(판단하진 않고 생각만 해봅니다. 동일한 기능이 아닐테니) 위 내용은 페르미 추정을 사용해서 베이스라인을 만들었다고 보면 되는데, 베이스라인을 만드는 이유는 잘 되고 있나? 아닌가?의 기준선이 없기 때문이라고 보시면 됩니다인프콘에서 발표한 내용에 페르미 추정이 있으니 참고해보셔요!https://youtu.be/axZLFQjrFKM?si=qycBX1mKtfcRgQOa강의 마지막 부분에 있는 Case Study(쏘카)도 보시면 도움이 될 것 같네요. 그 당시 전체적인 퍼널에서 세부 기능을 바꾸었어요.
- 1
- 2
- 47
Q&A
데이터분석가 역할?
ngtos님 안녕하세요!복습하시면서 이렇게 자신만의 생각을 작성하고 제게 피드백 요청을 구하시는 것 좋네요!우선 취업이나 역량 관련해서는 제 유튜브 영상을 보시면 도움이 될 것 같아요https://youtu.be/mzOWMax9Sxc?si=dQyoH24HiEsjFnE8https://youtu.be/Z0PEIqKOhDE?si=T5c8NdfA_F-OQmq8 질문의 답이 위 영상들에서 나오지만 한번 더 작성을 해볼게요 질문 1 - 직무 구분 및 하는 일직무 구분이랑 하는 일은 회사마다 매우 다르고, 작은 회사나 이제 막 시작하는 제로 투 원 시기에는 직무가 세분화되지 않을 가능성이 높습니다. 직무가 세분화되는 것은 어느정도 회사의 규모가 커져서 일을 나눠야 하는 경우고, 일이 나눠지지 않을 땐 데이터 분석가라고 부르곤 합니다0 -> 1 단계에선 데이터 분석가가 할 일이 크게 없을 수 있습니다. 제품이나 비즈니스가 있어야 데이터가 생기니깐요. 그래서 PMF를 찾기 전인 극초반엔 데이터 분석가의 역할을 경영진(주로 대표)이나 PM이 진행하곤 합니다시장 수요, 산업 동향, 경쟁사 분석은 어떻게 보면 데이터 분석가라고 생각할 수 있지만, 전략쪽에서 좀 더 많이 시도하곤 합니다. 데이터 분석가라고 하면 인하우스 데이터를 다루는 경우가 조금 더 많다 생각합니다1 -> 100은 회사에서 중요하게 생각하는 문제를 푸는 것이 핵심이고, 뭐가 중요한지는 매번 달라집니다. 이 내용은 인프콘에서 발표한 영상을 보시면 이해가 되실 것 같아요https://youtu.be/axZLFQjrFKM?si=eoJy_HwR-YvoZ6K2 비즈니스 분석가는 회사에서 비즈니스, 사업팀에 속하곤 하는데 이럴 때 사업팀, 경영진(CEO, CBO)과 주로 이야기를 할 수 있고, 프로덕트 분석가는 제품팀에 속해서 제품팀, CPO와 주로 이야기를 하곤 합니다. 하지만 회사에서 경영진도 세분화가 되지 않는 경우도 있습니다 질문 2네 말씀하신 흐름을 거치곤 합니다. 다만 데이터 가공 및 전처리는 말씀하신 타이밍에 있을 수도 있고, 회사가 발전하면 데이터 마트가 생겨서 데이터 가공 시간이 줄어들 수 있습니다지표를 명확하게 잘 설정하고, 현황 분석을 한다면 데이터 분석보단 데이터 해석에 집중한다고 보면 될 것 같아요데이터 분석은 2가지로 나뉜다고 생각하시면 좋을 것 같아요현황 분석(지금 무엇이 문제고, 어떤 부분부터 하면 좋을지 큰 그림을 그리는 경우)Action Item 도출(주로 새로운 기능 개발을 하는 Action Item)두가지에 따라 접근하는 방식이 다릅니다. 질문 3저는 하드 스킬이 그렇게 중요하지 않다고 생각하는 사람인데, 데이터 해석을 잘 하려면 하드 스킬보단 문제를 집요하게 생각하고, 계속 문제를 파악하는 것이 중요합니다. 데이터를 추출하기 위해 SQL, 파이썬, 엑셀 등을 쓸 수 있고 시각화를 하기 위해 태블로, Superset, Redash 등 다양한 것을 쓸 수 있는 것이지요그리고 AI가 발전해서 하드 스킬이라고 할 수 있는 부분이 꽤 쉬워지고 있습니다. 오히려 새로운 것을 빠르게 잘 익히는 것이 중요한 것 같네요신입분들이 대부분 하드 스킬에만 집중하는데, 과거 7년 전에는 하드 스킬만 잘해도 채용이 되었지만 요즘은 실제로 경험을 했는지를 주로 생각하곤 합니다.그래도 데이터 분석가의 기술 스택을 굳이 따지자면, SQL, 적절한 시각화 도구(파이썬이나 태블로나 뭐든 상관없다고 생각), SQL로 잘 안되는 경우 약간의 파이썬머신러닝/딥러닝을 하는 데이터 분석가는 과거에 비해 줄어들었습니다. 머신러닝/딥러닝을 하는 직무는 데이터 분석가보단 데이터 사이언티스트, 머신러닝 엔지니어라는 이름으로 채용하는 것이 더 많아졌어요(예전엔 데이터 분석가로 다 뽑았지만) 그래서 두개를 다 하려고 하는 것보단 하나를 집중하는 것이 좋은 것 같아요 제 유튜브에 데이터 분석가 공부 방법, 포트폴리오 주제 영상도 보셔도 좋을 것 같네요!
- 0
- 2
- 47
Q&A
weekly retention 구하기 과제
안녕하세요! 두가지 방법 모두 하시면서 차이점 찾으신 점 박수드리고 싶네요! 2가지 방법이 있는데, 저는 DATE_TRUNC를 한 후, DATE_DIFF를 하는 것을 선호합니다.그 이유는 데이터를 분석하다보면 연도가 넘어가는 상황이 있는데 그럴 때는 DATE_TRUNC하고 DATE_DIFF를 하는 것이 더 장기적으로 유연하게 활용할 수 있습니다. EXTRACT를 사용하면 YEAR도 항상 가지고 가야하고, 빼다가 실수가 생기는 경우를 많이 봤습니다. 동일 연도 내에서 한다고 하면 EXTRACT가 편하긴 한데, 그러는 경우에 EXTRACT(WEEK FROM date)보다 EXTRACT(ISOWEEK FROM date)를 하는 것이 좋습니다.ISOWEEK은 ISO 6701의 표준인데, 월요일부터 시작하고 목요일이 포함된 주가 해당 연도의 1주차가 됩니다. 1~53범위의 값이 반환되고 더 일관성 있는 주차가 계산되게 됩니다.저는 동일 연도에서도 DATE_TRUNC + DATE_DIFF를 추천하긴 해요..!
- 0
- 2
- 42
Q&A
7-3 Foodie Express 프로젝트 회고에 대해 질문이 있습니다.
안녕하세요.저번 질문과 유사하게, 상황에 따라 판단하면 되고 절대적인 답은 없는 것 같아요. 지표 현황 공유하는 것은 각각의 장단이 있습니다. 우선 팀 내의 데이터 리터러시가 높은 경우라면 오히려 더 명확해지고 속도가 빨라집니다. 모두 데이터를 바라보는 관점이 명확한 상황이라면요. 아마 지금 오래 걸린다고 하는 것은 데이터 리터러시 역량이 부족해서 의견이 많이 나올 것 같아 그럴 수 있는데 핵심 지표가 명확히 있다고 하면 의사 결정은 명확하게 됩니다. 지표 정의가 명확하지 않으면 말이 많아질 수 있구요. 즉 문제 정의 부분이 얼마나 잘 되는가와 팀원들이 데이터 해석 역량이 있는지에 따라 달라집니다 데이터를 혼자 보는 것이 반복되면 나중엔 팀원들이 데이터에 관심이 없어지게 될 수도 있습니다. 지표를 공유해도 PM/PO/데이터 분석가님이 알아서 하세요~ 저는 개발만 합니다. 이렇게 될 수 있거든요. 즉, 팀원들이 지표를 볼 때 수동적이게 됩니다. 그러면 팀이 하나의 목표를 향해 가는 것이 아니라 그냥 자기가 맡은 일만 하게 되는데, 이런 것보단 공동의 목표를 서로 인지해서 같이 논의하는 것이 좋았습니다.뭐가 좋냐 안좋냐는 없어서 상황에 따라 적절하게 결정하면 될 것 같네요. 그리고 제가 강의에서 말씀드린 것은 모든 것을 다 같이 하자는 것보단 지표 현황 그래프를 보고 이거 관점으로 Action Item을 이야기하는 것에 더 가깝습니다. 개발자나 디자이너도 의견을 낼 수 있고, PMPO만 의견을 내는 것이 더 건강하지 않은 구조가 될 수 있을 것 같아요. 발산 수렴의 경우에도 상황에 따라 다릅니다. 제가 말씀드린 것을 법칙으로 생각하는 것보단 상황에 따라 발산과 수렴을 번갈아 생각한다라는 것을 이해하시는 것이 제일 중요합니다. 일단 활용하려는 데이터가 어느정도 있고, 데이터를 바로 바로 확인할 수 있다면 발산을 하며 수렴도 가능합니다. 수렴을 할 때는 데이터만 보고 판단하는 것이 아니라 직관도 활용하곤 합니다. 장기적 관점으로 유리한 것도 있을 수 있어서요. 무조건 다 데이터만 보고 수렴하진 않을 수도 있다고 생각해주셔도 좋을 것 같아요. 회사의 목표나 전략이 있으면 그걸 따르면서 데이터를 해석하는 것도 중요합니다. 이것도 상황에 따라 다른 이유가 종삼님이 의견을 들으면서 바로 데이터 보면서 이게 좀 더 임팩트가 있겠다라고 말할 수 있으면 바로 정리하면 되고(이게 기다리는 시간을 줄일 수도 있으니) 그게 아니면 말씀하신대로 검토하고 하면 됩니다. 저는 회의를 늘리는 것을 선호하지 않아서 파악할 데이터는 상시로 준비해두고 그 안에서 고민하곤 해요. 회의하는 것에 절대 법칙은 없기 때문에, 일단 해보고 팀원들이 얼마나 같이 참여하는지를 살펴보세요. 저는 회의에서 PM이나 팀장만 말하고 있으면 그건 좋지 않은 시그널로 봅니다. 다들 몰입해서 자유롭게 의견을 내고, 의견을 잘 낼 수 있는 환경을 구성하는 것이 PM/팀장의 역할이라고 생각합니다. 회의 방식에 대한 회고를 하면서 점진적으로 변경하면 됩니다.예) 우리가 발산을 너무 많이 하느라 시간이 부족하다 -> 발산을 줄이는 원칙 만들기.예2) 다 같이 이야기를 하고 수렴해서 Action Item 선정은 데이터를 보며 PM이 결정하기우리 팀이 지금 내가 하려는 회의를 잘할 수 있는 준비가 되어 있는가?를 생각해보시고 그게 아니라면 조금씩 해당 역량을 올릴 수 있게 도와주는 것이 중요할 것 같아요 지금 생각하신 흐름이 종삼님 상황에 맞다고 하면 그거로 하시면 되어요!
- 0
- 1
- 41