kyleschool
@kyleschool
Học viên
14,472
Đánh giá khóa học
536
Đánh giá khóa học
4.9
9년차 데이터 과학자, 데이터 엔지니어, 머신러닝 엔지니어로 근무했으며, 쏘카와 타다에서 데이터 분석, 데이터 엔지니어링 개발, 머신러닝 알고리즘을 개발했습니다.
카일스쿨 유튜브에 데이터 커리어 관련 영상을 올리고 있으며, 어떻게 해야 강의를 수강하신 분들이 회사에서 일을 잘할 수 있을까?를 고민하며 자료를 만들고 있어요.
Google의 GDE(Cloud)로 활동하고 있어요.
카일스쿨 유튜브 : https://www.youtube.com/c/kyleschool
기술 블로그 : https://zzsza.github.io/
인스타그램 : https://www.instagram.com/data.scientist/
대표 컨텐츠 : https://github.com/Team-Neighborhood/I-want-to-study-Data-Science
데이터 과학자가 되기 위해 진행한 다양한 노력들 : https://zzsza.github.io/diary/2019/04/05/how-to-study-datascience/
Khóa học
Đánh giá khóa học
- 3 triệu lượt xem cho biết: "Viết blog kỹ thuật thực tế"
- Nhập môn BigQuery(SQL) cho người mới bắt đầu
- Nhập môn BigQuery(SQL) cho người mới bắt đầu
- [Thử thách Đọc hết] Cùng đọc 『AI Engineering』 trong 5 tuần!
- Hiểu biết về dữ liệu dành cho PM (Phân tích dữ liệu sản phẩm)
Bài viết
Hỏi & Đáp
location IS NOT NULL 을 굳이 안 써도 되지 않나요?
안녕하세요. 지금 데이터에선 말씀하신 것처럼 tp.location = t.hometown을 해도 되지만, 만약 트레이너 중에 포켓몬을 잡지 않은 트레이너가 생긴다면(trainer엔 데이터가 있지만 trainer_pokemon에 기록이 없는 경우) 이슈가 될 수 있습니다. 이런 경우를 대비해서 추가했다고 생각해주시면 될 것 같아요. 지금 쿼리에서는 trainer에 데이터가 있으면 trainer_pokemon에도 있어서 문제가 되진 않지만 실무에서 쿼리를 작성할 때 JOIN 위치에 따라 IS NOT NULL을 붙이는 것이 습관이 되어서 그렇게 보여드렸다고 생각해주셔요
- 0
- 2
- 15
Hỏi & Đáp
12강 집계 함수
안녕하세요. 질문을 보고 제가 제대로 이해가 되지 않아서, 쿼리 예시를 주시면서 질문을 해주시면 Y3149님이 어떤 것을 헷갈려하는지 정확히 알 수 있고, 그 방향으로 답변을 드릴 수 있습니다. 9번 문제의 경우 풀이해주실때 SELECT 이후 컬럼 generation 을 작성해주셨는데 , 8번 문제 풀이 시 select 이후 컬럼 을 따로 작성하지 않아서 두 가지 모두 쿼리문에 작성해본 결과여기서 select 이후 컬럼이란 것이 어떤 의미인가요? SELECT 절에서 count(*)만 있다는 것에 대한 이야기인가요? 두가지 모두 쿼리문에 작성해본 결과 => 무엇을 작성했다는건가요? generation인가요?결과에서도 컬럼이 함께 나온다 => 어떤 컬럼인가요? 어떤 값이 나온다는건가요? 작성하신 쿼리랑 결과를 같이 알려주시면 더 좋을 것 같아요.
- 0
- 1
- 17
Hỏi & Đáp
2-6. 연습 문제 1~3번
안녕하세요1번 관련해서 쿼리를 보면 당연한 결과입니다select count(type2) as type2_count, count(id) as id_count from basic.pokemon where type2 is nullWHERE 조건에 type 2 IS NULL을 주셨기 때문에 지금 데이터는 type2가 모두 NULL인 데이터만 모였습니다. 그 상태에서 COUNT를 하신거에요. type2엔 모두 다 NULL인 상태인데, COUNT에서 NULL은 세지 않습니다. 그래서 0이라고 나온겁니다. id를 COUNT할 때는 id에 대한 값이 모두 존재하기 때문에 그렇게 나오는 것입니다. 즉, 쿼리를 그렇게 작성하셨기 때문에 그렇습니다. 미리보기에서는 전체 데이터를 보신거구요SELECT * FROM basic.pokemon미리보기를 하면 이렇게 WHERE 조건이 없이 데이터를 보는겁니다. 엑셀 파일도 문제가 없습니다. 윈도우인 분들도 많이 쓰셨거든요. 한국어가 이상하게 나오는 것은 인코딩 이슈인 것 같고, 스프레드시트에 데이터 업로드해서 보면 정상적으로 나올 겁니다. BigQuery에 올라간 데이터를 보면 정상적으로 나오는 것 같아요
- 0
- 1
- 19
Hỏi & Đáp
안녕하세요! 11번 문제 query문에 관해 질문드립니다
안녕하세요. MAX 함수는 값들 중에 제일 큰 값을 반환하는 함수고, 가장 많은 type1이 나오는 것이 아닙니다. 따라서 COUNT를 하고 나서 정렬을 하는 것이 올바른 방법입니다type1은 타입이 저장되어 있는데(예 : fire, water ...) 이 값들은 문자 데이터입니다. 문자 데이터에서 값이 가장 큰 것은(영어 기준) z가 a보다 큽니다. 따라서 알파벳에서 제일 뒤에 있는 값이 나오게 됩니다. type1에서 여러 값이 있는데 w로 끝나는 water가 제일 뒤에 있는 알파벳이라 water가 나올텐데 그건 그냥 type1에서 제일 큰 값이 나온 것이고 제일 많은 타입은 아닙니다. 이걸 확인하기 위해서 원본 데이터를 보고 제일 많은 type1을 직접 세보는 것도 방법입니다즉, 현재 MAX 함수에 대해 제일 많은 것을 보여준다고 생각하신 것 같은데 값 중에 제일 큰 값을 반환할 뿐 갯수를 세는 함수는 아니라고 생각해주시면 될 것 같아요.
- 0
- 1
- 16
Hỏi & Đáp
[과제] 퍼널 PIVOT 테이블 작성하기
안녕하세요! 쿼리 잘 작성해주셨네요현재 SUM으로 PIVOT을 해주셨는데, 지금 쿼리는 MAX나 SUM을 하나 동일한 결과가 나옵니다(SUM 하기 직전에 IF문으로 데이터를 살펴보셔요) 다만 저는 MAX를 선호하는데, 지금 데이터에서는 중복이 없어서 괜찮지만 중복이 있는 경우에 SUM을 해야 하는지 MAX를 해야 하는지 데이터를 보고 결정해야 합니다. 값을 모두 더하고 싶을 땐 SUM, 그게 아니라면 저는 MAX를 선호합니다. SUM을 하실거라면 인프런 AI 인턴의 말처럼 참이 아닐 때 0이라고 해주시는게 좋긴 합니다. 만약 NULL이랑 숫자가 SUM을 하면 NULL이 나오거든요!
- 0
- 2
- 24
Hỏi & Đáp
2-6 #2 WHERE vs. HAVING절 사용 여부 차이
안녕하세요. WHERE은 FROM 절에 있는 컬럼에 조건을 설정할 때 사용합니다. 현재는 pokemon 테이블에 type2가 있기 때문에 WHERE에서 필터링을 먼저 하는 것이 더 좋습니다. 현재 HAVING으로 해도 결과는 동일하게 나오긴 하지만, WHERE이 더 연산 효율적입니다. WHERE로 먼저 데이터를 필터링하고 그 후에 집계하면 더 효율적입니다. HAVING으로 하면 집계를 한 후에 HAVING을 하는 것이구요
- 0
- 1
- 36
Hỏi & Đáp
4-8 지표정의 문제 풀이 입니다
안녕하세요! 문제 푸시느라 고생하셨습니다!. GPT 도움 없이 풀었다는 점 너무 멋지십니다. 이렇게 하고 나중에 AI와 이야기를 하면 더 많이 발전할 수 있을 거예요.#1. 기능이 잘 동작하고 있는지 확인하려면?배달 서비스를 담당하는 PM입니다. 배너 영역, 메뉴 카테고리, 이런 음식 어때요, 동네 맛집 기능이 잘 동작하고 있는지 확인하려면 어떤 지표를 확인해야 할까요? 지표를 정의하고, 지표가 어떤식으로 움직이면 잘 동작한다고 볼 수 있을까요?성과 지표: DAU 리텐션 (각 영역이 잘 동작하면 -> 사용자 만족도가 높아짐 -> 재접속)보조 지표: 한 세션의 앱 체류 시간이 점점 길어지는 형태가드레일 지표: 수익이 떨어지면 안됨 1번 문제는 "배달" 서비스로 한정한 이유가 있습니다. 보통 지표를 정의해보라고 하면 많이 나오는 것 중 하나가 DAU, 리텐션인데 이건 Output 지표라서 어떤 Action을 해야할지 구체적으로 나오기 어렵습니다. Input Metric을 지표로 정의를 해주면 무엇을 해야 할지에 대한 아이디어를 떠올리기 쉽습니다. 지금 DAU 리텐션이라고 해주셨는데, 이건 어떤 지표일까요? 어떤 정의일까요? DAU와 리텐션은 별개의 지표인데 합쳐서 말씀해주셔서 정의를 명확히 제시해주는 것이 필요할 것 같습니다.저는 지표를 말할 때는 분자와 분모로 구성하고, 지표가 어떤 것을 의미하는지 한줄로 정리하는 것을 습관으로 합니다. 이렇게 하지 않으면 보는 사람마다 다르게 해석할 수 있기 때문입니다.보조 지표에서도 지표로 표현하는 것보단, 체류 시간이 점점 길어지는 형태라고 해주셨습니다. 체류 시간이 늘어나길 바라는 바람을 작성해주신 것 같아요. 지표에는 정의만 있고, 이 지표가 어떻게 될지에 대해서는 추가적인 부분에 생각을 작성해보는 것을 추천드려요. #2. 검색 만족도 지표배달 서비스를 담당하는 PM입니다. 고객이 검색 기능에 만족했는지 확인하려면 어떤 지표를 봐야 할까요? 검색하는 흐름을 떠올려보면서 그 안에 있는 이벤트를 조합해보세요검색 필드 클릭 후 구매까지 CVR은 지표가 꽤 낮게 나올 수 있기 때문에, CVR을 먼저 보지 않고 CTR을 성과 지표로 보는 경우도 있습니다. 검색 -> 결제 사이의 퍼널이 많이 존재한다면 CTR을 토대로 판단하기도 합니다. 이건 회사의 상황에 따라 결정할 문제긴 하지만, CVR은 지표가 10% 미만으로 나오는 것을 많이 봐서, 변동폭이 작기에 CTR을 보는 경우도 있습니다. 검색이라는 것은 단순히 제품 관점 외에 알고리즘 관점에서도 지표를 선정할 수 있는데, 네이버의 글을 참고해보시면 이해의 폭이 더 넓어질 수 있을 것 같아요. https://medium.com/naver-dna-tech-blog/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D%EC%9D%84-%ED%99%9C%EC%9A%A9%ED%95%9C-%EA%B2%80%EC%83%89-%ED%92%88%EC%A7%88-%EC%A7%80%ED%91%9C-%EA%B0%9C%EB%B0%9C-sigir23-paper-recap-6090914005a8 가드레일 지표에서 UV 수가 떨어지면 안된다고 생각하는 이유는 무엇인가요? UV 수는 떨어질 가능성이 있을 것 같은데 이렇게 생각ㅎ신 이유가 궁금하네요 #3. 검색 필터 기능의 활성화 지표검색 결과 상단에 위치할수록이라고 해주셨는데, 그럼 상단의 정의는 무엇일까요? 상위 5개일까요? 만약 유저가 스크롤을 해서 총 40개를 봤어도 상위는 5개일까요? (물론 써주신 것은 최상단이라고 해주셔서 제일 높을 것이라는 가정하에 하신거라 이건 잘 생각해주셨고, 단어 하나에 대한 정의도 중요하다는 것을 공유드리고 싶어서 질문드려요) #4. 배달 서비스에서 가장 중요한 지표는?아마 DAU 리텐션이 계속 나오는 것으로 보아.. "주문 완료 리텐션"을 DAU 리텐션으로 표시하셨나 싶네요. DAU랑 리텐션의 개념이 정확히 정립이 되었는지 고민해보시면 좋을 것 같아요.배달 서비스에서 가장 중요한 지표는 비즈니스 모델을 제대로 이해해야 합니다. 비즈니스 모델에서 어떤 행위가 핵심적인 행위인가? 고민해보고 그 행위에 대한 지표를 추가하면 됩니다. 저라면 주문 완료 수를 본다고 할 것 같네요. 주문이라는 행위가 배달 서비스를 사용하는 근본적인 이유니깐요. CX 해결 리드타임 1시간 이내를 정의하신 이유는 무엇일까요? 반복되는 패턴을 인지하셨을텐데 이 지표를 왜 선택했는지도 같이 명시하면 좋을 수 있답니다. 제가 아니여도 회사에서 동료들이 물어볼 수 있는 관점이라서요 배달 서비스가 잘 되려면에서 ROI가 좋아야 한다고 해주셨는데 ROI는 무엇일까요? Return On Invest의 약자인 것은 아는데 여기서 R과 I는 무엇일까요? 지표 정의를 할 때는 Specific하게 구체적으로 해주는 것이 필요합니다.공급과 수요가 많아야 함도 조금 더 구체적으로 해보면 좋은데, 월별 신규 음식점 입점 수와 사용자의 앱 사용 DAU가 많아야 한다 이렇게 지표까지 표현을 해보시면 좋을 것 같아요. 공급/수요는 지표라고 보긴 어려울 수 있을 것 같아요. 적은 광고 비용으로 음식점을 입점시키려면 -> 글에서 갑자기 광고 비용은 왜 나왔을까요? 위에 지표에서 광고에 대한 내용이 없는데 갑자기 나왔네요! #5. 추천 알고리즘의 성능 지표말씀해주시는 CVR을 사용할 수 있고, 추천 시스템도 알고리즘이라서 알고리즘의 지표들이 있습니다. 아래 정리된 글을 한번 읽어보시면 도움이 될 것 같아요. https://lsjsj92.tistory.com/663 그리고 가드레일 지표에서 객단가는 떨어지면 안됨이라고 했는데, 현실적으로 실험을 할 때 지표가 떨어질 수도 있긴 합니다. 그래서 객단가는 5% 이내의 변동만 허용한다 같이 범위까지 더 추가해주시면 좋답니다스크롤 깊이에서 30%를 말씀하게 된 이유는 무엇일까요? 어떻게 정해진 수치일까요? #6. 여러분들이 자주 사용하는 서비스의 지표비즈니스 모델에 대해 쪼개보신 것 같고, 광고 수익을 올리기 위해서는 체류 시간이 중요한 것은 맞을 것 같고 구독료를 올리기 위해선 어떻게 해야 할까요? 체류 시간이 높다고 구독을 더 할 것이라고 가정하셨는데 어떤 근거로 생각하셨나요? #7. 퍼널 개선 프로젝트이 문제는 질문에 나온 전환율을 바라보되, AB Test를 해봐야 합니다. 실험 파트를 보신 후에 다시 문제를 살펴보시면 아이디어가 떠오를 것 같아요! 문제 푸시느라 고생하셨습니다. 궁금한 내용이 있으시면 말씀해주셔요!
- 0
- 2
- 70
Hỏi & Đáp
4-8 지표정의 문제 풀이 입니다
dev님 안녕하세요! 어떻게 답변을 드릴지 고민하고 있어요. 오늘~내일 중으로 답변 드릴게요!
- 0
- 2
- 70
Hỏi & Đáp
섹션 별 퀴즈
안녕하세요!발표 자료에 있는 문제입니다. 인프런 플랫폼에서 나오는 객관식 문제 말구요
- 0
- 1
- 40
Hỏi & Đáp
진도율 업데이트
안녕하세요! 강의를 온라인에서 클릭할 경우 하단에 봤어요 버튼이 있는데 이걸 눌러주시면 되어요! (사진)
- 0
- 2
- 61







