퇴근후딴짓
@roadmap
시니어 (9년 이상)·
교육
수강생
6,902
수강평
1,146
강의 평점
4.9
멘토링 신청
3
멘토링 리뷰
-
멘토링 평점
-
안녕하세요. 퇴근후딴짓입니다.
- 데이터 분석, 데이터 사이언티스트, 인공지능 분야 커리어 멘토링
- HRD, DevRel 커리어 멘토링
강의
수강평
- [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
- [4주] <바이브 코딩> 완독 챌린지: 퇴근 후 1시간 함께 공부하기 (완주시 길벗 2만 포인트 증정)
게시글
질문&답변
수강 연장 문의
11월 달 건은 지금은 검토 불가 입니다. 양해 부탁드립니다. 만료 한달 이내에 연락 부탁드리며 그때 기준에 맞춰 안내 드리겠습니다,.
- 좋아요수
- 0
- 댓글수
- 2
- 조회수
- 36
질문&답변
섹션5. 회귀 강의 관련 질문드립니다
안녕하세요!작업형2에서 우리가 주로 사용하는 성능 좋은 모델은랜덤포레스트와 라이트지비엠입니다. 이 두 모델은 트리 형태의 모델로 스케일링의 영향이 미미 합니다 🙂 따라서 필수로 할 필요는 없고 여유가 있다면 선택적으로 비교해 보시죠!! 화이팅입니다.
- 좋아요수
- 0
- 댓글수
- 2
- 조회수
- 24
질문&답변
LabelEncoding 시 train data 학습(fit_transform, transform)
결론부터 말하면 데이터 누출(Data Leakage)이 아닙니다.데이터 누출은 test의 정보가 train 학습에 영향을 줄 때 발생합니다.이 코드는 train은 으로 인코딩 사전만들고 test에는 적용만 했어요!! 다만 강의에서는 데이터 누출에 대해 자세히 다루지 않고 있으며, train과 test의 카테고리가 다를 경우에는 누출 문제를 무시하고 둘을 합쳐서 인코딩하는 방법을 설명하고 있습니다. 이 부분은 시험에서 크게 중요하지 않아 별도로 설명하지 않고 있으니 참고해 주세요.화이팅입니다!
- 좋아요수
- 0
- 댓글수
- 2
- 조회수
- 32
질문&답변
label 인코딩 에러 발생 원인
cols를 리스트로 만들어야 합니다:) 중괄호: 딕셔너리, 집합에서 사용함대괄호: 리스트 cols =['neighbourhood_group','neighbourhood','room_type']
- 좋아요수
- 0
- 댓글수
- 2
- 조회수
- 33
질문&답변
로지스틱 회귀분석은 옛날거 밖에 없나요?
아!! 오해가 생길수 있겠군요! 예시ㅁ 문제가 구버전일 뿐 로지스틱 회귀 내용은 구와 신 구분이 없습니다.별도로 곧 분리하도록 할게요!
- 좋아요수
- 0
- 댓글수
- 2
- 조회수
- 35
질문&답변
점수차가 많이 나는데 따로 하신게 있으신가요?
안녕하세요! 코드에 전혀 문제 없습니다.시험에서 제공하는 데이터 그리고 제가 제공한 데이터가 빅데이터가 아니라 매우 작은 데이터라 파라미터 값에 영향을 받는 경향이 있는데원인을 찾자면 강의에서 사용한 random_state 값이 운이 좋게도 2022가 더 낮은 결과를 보여줬네요그렇다고 random_state 변경하는 연습은 무의미 해요! (한 두번만 변경해보는건 좋아요)우리가 사용한 검증데이터라서 그렇지 테스트 데이터에서는 또 달라질 수 있고 알 수 없는 영역이라지금 하던대로 진행해 주시면 됩니다. GPT가 42를 주로 많이 사용하더라고요 🙂
- 좋아요수
- 0
- 댓글수
- 2
- 조회수
- 36
질문&답변
1유형 강의 다 나간 후 어떻게 할까요?
작업형2로 넘어갔다가 문제는 추후 더 풀어보는 것을 추천드립니다 🙂
- 좋아요수
- 0
- 댓글수
- 2
- 조회수
- 38
질문&답변
판다스 표 표시
안녕하세요! print()함수를 사용할 때는 텍스트로 혜림님과 같이 나오는 것이 정상입니다.시험에서도 표형태가 아니라 지금 출력한 텍스트 형태로 보이게 됩니다. 다만 코랩에서는 그냥 시리즈나 데이터 프레임을 변수명만 가장 마지막에 적게 되면보기 좋게 출력해줘요! print(menu)가 아니라 menu로만 출력하면 저와 같이 나옵니다:)
- 좋아요수
- 0
- 댓글수
- 3
- 조회수
- 28
질문&답변
작업형1 모의문제 4번에 3)문제 질문
df=df.iloc[0:10] 이 코드에서 만약 100개의 데이터가 있었다면 10개로 슬라이싱이 되버렸습니다.그럼 10개의 데이터만 df에 남아 있는데 특정 컬럼 합계를 묻게 되면 나머지 90개는 알 수가 없습니다.
- 좋아요수
- 0
- 댓글수
- 2
- 조회수
- 37
질문&답변
이상치 전처리 작업
안녕하세요!좋은 질문입니다 😊말씀하신 것처럼 이상치를 판단하는 방법에는 현실적인 범위 기준(도메인 지식) 과 통계적 기준(IQR, 분위수 기반) 이 모두 있습니다.학교에서 배우신 IQR 방식도 충분히 올바른 방법입니다.다만 빅데이터분석기사 실기 시험에서는 제공되는 데이터 크기가 비교적 작고, 데이터의 특성을 지금 알 수 없어요. 이런 상황에서 IQR을 일괄적으로 적용하면 실제로 필요한 데이터까지 이상치로 판단되어 삭제될 수 있고, 결과적으로 학습 데이터가 너무 줄어 성능에 영향을 줄 가능성이 있습니다.틀린 접근은 아니나 작업형2 시험에서는 리스크가 있어 추천하진 않습니다. 예를 들어 다중 분류 A, B, C가 있고 C가 10개 밖에 없는데 IQR로 50%가 삭제되면 성능에 문제가 생겨요
- 좋아요수
- 0
- 댓글수
- 2
- 조회수
- 45





![Thumbnail image of the [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)](https://cdn.inflearn.com/public/courses/329972/cover/dcfb28fd-48c1-4bb1-ab31-d59eac874194/329972-original.png?w=148)