빅데이터 분석기사 (2회): 기출유형-작업형2 관련 질문있습니다.
안녕하세요 수강중에 궁금한 게 생겨서 문의 남깁니다!
빅데이터 분석기사 (2회): 기출유형-작업형2에서 데이터를 보면,
X_train 애들중에서도 .. 사실 범주형인데 수치형인척 하는 애들이 있잖아요? (Cost_of_the_Product, Discount_offered, Weight_in_gms 말고는 사실상.. 범주형이라고 생각했습니다.) 얘네는 범주형으로 바꾸지 않아도 되나요? 검색을 해보니까 비닝을 통해 한다던데........ 수업시간엔 배운 기억이 없어서요.. 근데 이런 경우 꽤 많지 않나요? 타이타닉도 좌석 class 관련 column은 위와 같은 경우라고 생각하는데.. 예..
결론적으로는 범주형은 get_dummies나 label encoding을 통해 수치화 시켰던거 같은데 그 역은 안 하는 이유가 궁금합니다! (적으면서 든 생각은 범주형을 수치화시킨다음 모든 수치화된 columns들을 한번에 돌리는거라 그런건가 싶긴한데)
2. EDA를 통해 얻은 통찰(?) 들을 어떻게 써먹을 수 있나요? 그니까.. Travel Insurance를 예측하는 문제에서 "a,b,c라는 항목이 낮게 나오고, d,e,f라는 항목이 높게나오면 -> Travel Insurance가 있을 확률이 높을것이다." 라는 가설을 classification에서 어떻게 활용할 수 있나요?
++
에서 예시 문제를 직접 푸는 과정에서, 문제 풀고-> 중간에 답 입력하고 -> 다시 풀러갔을 때 리셋이 됩니다. 이게 맞나요?
예를들어 작업형 1 -1)을 문제 화면에서 풀고 -> 1- 1) 정답 입력하러 가고 -> 1-2)를 풀러 다시 문제화면을 갔을 때 1-1때 풀었던 것들이 다 리셋되어 있더라구요.. 중간 저장 같은 버튼도 없던데 실제 시험에서도 그런가요?
2. 이상치 관련 문제에서 등호 여부는 어떻게 되나요? 예를 들어
(Q1 – 1.5 IQR) 보다 작거나 (Q3 + 1.5 IQR) 보다 큰 데이터는 이상치로 처리한다. << 고 할 때 이상치라고 판단한 부분을 X <= Q1 - 1.5 IQR라고 하나요 X < Q1 - 1.5IQR이 맞나요? 궁금증이 생겼던 문제에서는 둘다 결과에 영향이 없긴하던데 .... 예.. 등호 여부가 궁금합니다
공지사항을 이제 확인했는데 7회 준비 스터디 방 이제 못들어가나요 ㅠㅠ?
매번 장문의 질문인데 명쾌하게 답변해주셔서 감사합니다!!
답변 1
1
맞습니다.
숫자이지만 범주형인 데이터가 있어요~ 그런데 작업형2에서 컬럼에 대한 설명이 명확하지 않을 때가 많아서 판단하기는 어려움이 있어요! 데이터를 보고 판단해야 하는 부분이라 입문자에게는 적합하지 않다고 판단해 제외하였습니다. 몰라도 아직까지는 문제가 없습니다.
참고로 캐글에 공유한 t1-21번 문제에서 비닝을 다루고 있어요
https://www.kaggle.com/code/agileteam/py-t1-21-expected-question/notebook
단, 작업형3은 숫자지만 범주형인 값에 대해 명확하게 해야 합니다. 회귀분석에서는 값이 달라져요!
포뮬러에서 C(변수명)으로 처리해야 합니다.
2.
특정 그룹에서 결과가 더 자주 발생하는 패턴을 발견했다면, 이 정보를 사용하여 모델의 성능을 향상시키는 특성 공학을 수행할 수 있습니다. 예를 들어, 특정 연령대에서 보험 구매 확률이 높다면, 연령대를 기반으로 한 새로운 범주형 변수를 생성할 수 있습니다.
3.
실제 시험에서는 저장기능이 있어요! 중간중간 눌러주면 됩니다.
실제 문제가 출제되었을 때도 둘다 값이 같았어요. 일반적으로는 등호를 포함합니다.
스터디방 링크 새소식에 업데이트 해놓을게요 ! 오셔서 미션을 수행해주셔야 입장 가능합니다.
출력값 질문
0
11
1
수업노트가 어디에 있나요?
0
21
1
실기시험 제출관련
0
153
2
6.20 작업형 2 과적합
0
158
3
코딩팡 장업형2 베이스 라인 인코딩 종류 질문
0
49
2
로지스틱회귀, 회귀
0
48
2
회귀 문제를 풀때 질문입니다.
0
55
1
불균형 처리 후 성능이 더 낮아졌다면,
0
61
2
실기 체험 제2유형 에러 문의
0
61
1
LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요
0
50
2
3번문제 등분산 가정
0
48
2
작업형3 target 형 변환 질문
0
35
2
[작업형1] 연습문제 섹션1 ~ 10 의 section4
0
36
3
원핫인코딩과 레이블 인코딩에서 concat
0
59
2
제2유형 질문입니다.
0
46
2
C()
0
44
2
작업형 2에서 strafity 적용 유무
0
52
2
수강 기간 연장 가능 여부 문의드립니다.
0
61
1
ols
0
43
2
2유형 작성관련 질문(일반 심화)
0
39
2
2유형 작성관련 질문
0
41
2
2유형 object컬럼 개수 다르면
0
48
2
코딩팡질문이요ㅠㅠ
0
45
2
관찰값과 기대값의 개념이 헷갈립니다.
0
25
2





