원핫인코딩 관련
원핫인코딩 관련하여 질문이 있습니다.
cols = [ object형 컬럼들, , , ] 으로 지정한 후 어떤 문제에서는
pd.get_dummies(df[cols]) 로 되어있는 곳도 있고,
pd.get_dummies(df, columns=cols)로 되어있는 곳도 있는데, 둘다 마찬가지 결과가 나오는걸까요?
추가적으로, 다중분류 부분에서 보면 숫자로되어 있는 object형 변수는 자동으로 원핫인코딩이 되지 않으므로
pd.get_dummies(df[0])으로 코딩해야 한다고 하셨는데요,
그렇다면 위의 예시에서 df, columns=cols로 했을 경우에는 숫자로 되어있는 변수는 dtype이 object형이어도 자동으로 원핫인코딩이 되지않는걸까요..?
답변 1
0
pd.get_dummies(df[cols]) 과 pd.get_dummies(df, columns=cols)는 차이가 있어요
pd.get_dummies(df[cols]):이 방식은 먼저
df[cols]를 통해 데이터프레임df에서cols에 해당하는 열만 선택합니다.그런 다음
pd.get_dummies를 이용해 이 선택된 부분집합에 대해 원-핫 인코딩을 수행합니다.결과적으로, 원-핫 인코딩된 데이터프레임은
cols에 지정된 열만 포함하며,df의 다른 열은 포함되지 않습니다.숫자가 있다면 숫자가 있는 컬럼은 인코딩 하지 않습니다.
pd.get_dummies(df, columns=cols):이 방식은 원본 데이터프레임
df를 기반으로 합니다.columns=cols매개변수를 통해cols에 지정된 열만 원-핫 인코딩을 적용합니다.결과적으로, 원-핫 인코딩된 열은
cols에 지정된 범주형 열로 대체되지만,df의 다른 열(원-핫 인코딩되지 않은 열)도 결과 데이터프레임에 포함됩니다.숫자가 있는 컬럼이 있어도 강제로 원핫인코딩 합니다.
두번째 질문은 조금 이상합니다. 다시 질문 부탁드려요
pd.get_dummies(df[0]) 코드를 제가 설명한 적이 있을까요? df[0]는 저도 알 수 없는 코드라서요~😱
columns=cols로 했을 경우에는 숫자로 되어있는 변수는 dtype이 object형이어도 자동으로 원핫인코딩이 되지않는걸까요..?
아니요! 겟더미즈에 넣으면 object형은 원핫인코딩 됩니다. 🙂
0
답변 감사드립니다!!
말씀주신 부분은 다중분류 평가지표 부분에서 pd.get_dummies(y_true[0])이라고 되어있는 부분이었습니다.
y_true는 [2, 2, 3, 3, 2, 1,....] 이런 리스트였구요. 숫자면 자동으로 원핫인코딩 되지않아서 [0]을 넣었다고 하셨던것같아서 여쭤봤습니다. 위의 df[cols]와 관련이 있나 했어요^^;;
로지스틱회귀, 회귀
0
25
2
회귀 문제를 풀때 질문입니다.
0
31
1
불균형 처리 후 성능이 더 낮아졌다면,
0
44
2
실기 체험 제2유형 에러 문의
0
34
1
LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요
0
33
2
3번문제 등분산 가정
0
34
2
작업형3 target 형 변환 질문
0
29
2
[작업형1] 연습문제 섹션1 ~ 10 의 section4
0
23
3
원핫인코딩과 레이블 인코딩에서 concat
0
42
2
제2유형 질문입니다.
0
39
2
C()
0
36
2
작업형 2에서 strafity 적용 유무
0
43
2
수강 기간 연장 가능 여부 문의드립니다.
0
45
1
ols
0
36
2
2유형 작성관련 질문(일반 심화)
0
29
2
2유형 작성관련 질문
0
26
2
2유형 object컬럼 개수 다르면
0
36
2
코딩팡질문이요ㅠㅠ
0
36
2
관찰값과 기대값의 개념이 헷갈립니다.
0
19
2
작업형2 ID 컬럼 삭제 질문
0
38
2
2유형 작성관련 질문
0
27
2
memoryerror 질문
0
20
2
작업형 유형2 이렇게 고정 템플릿으로 가져가도 될까요?
0
37
1
ID 삭제 필수 인가요?
0
33
3





