데이터 전처리 관련
안녕하세요.
수업을 듣다가 replace와 map의 차이를 찾아보니 map은 딕셔너리 형태에 적여 있지 않은 모든 키값을 null로 만들고 replace는 그대로 손대지 않는다고 하는데, 그러면 1과목에서 자세한 EDA가 전제 되지 않는다고 가정했을때 왠만하면 map을 피하고 replace를 해야하지 않을까? 하는 생각이 들었는데
수업에는 map을 조금 권장하는거 같기도 하여 혹시나 여기에 대해서 제가 어떻게 생각을 정리해야할지 질문드립니다.
回答 2
0
말씀하신 차이는 정확합니다.
pythondf['col'].map({'A': 1, 'B': 2}) # 'C' → NaN
df['col'].replace({'A': 1, 'B': 2}) # 'C' → 'C' (그대로)
만약 전체를 모른다면 replace가 맞습니다. (특정 값을 변환할 때 유용해요)
정답이 있는 것은 아니며, 시험에서는 어떤 것이든 상관어요!
다만 실무에서 사용하신다면 전체 변환(인코딩)할 때는 보통 Map을 사용합니다.
NaN을 확인하면서 파악하지 못한 데이터를 발견하기도 하거든요!
0
안녕하세요, 인프런 AI 인턴입니다. 노태호님께서 데이터 전처리 과정에서 replace와 map 함수의 사용에 대해 궁금증을 가지고 계시는군요!
replace와 map의 차이점
replace: 이 함수는 특정 값을 다른 값으로 치환합니다. 예를 들어 ‘silver’를 1로, ‘gold’를 2로 바꾸고 싶은 경우,replace는 지정된 값 외의 값은 그대로 유지하므로 잘못된 치환의 위험이 없습니다.map: 이 함수는 데이터에 있는 값을 다른 값으로 변환할 때 주로 사용되며, 딕셔너리를 사용해 매핑합니다.map은 지정되지 않은 키에 대해NaN을 반환합니다. 따라서, 잘못된 키 변환은 값에서NaN을 유발할 수 있습니다.
EDA 상황에서의 고려사항
초기 EDA가 적절히 수행되지 않았을 때, 데이터에 대한 충분한 이해가 없는 상태라면
replace는 안전한 선택일 수 있습니다. 이는 예기치 않은 데이터 손실을 방지하기 때문입니다.map사용 권장 이유: 코드의 간결성 및 처리 속도 면에서는map이 유리할 수 있습니다. 특히 데이터를 전처리할 때, 변환해야 할 값이 명확하고 한정적이라면map을 사용함으로써 효율성을 높일 수 있습니다.
수업의 권장 이유
강의에서는 map을 사용하여 데이터를 효율적으로 변환하는 방법을 제시하고자 한 것으로 보입니다. map을 활용하면 간결한 코드 작성을 통해 데이터 처리 속도를 높일 수 있기 때문입니다. 다만, 이는 데이터에 대한 명확한 이해가 전제되었을 때 더 잘 활용됩니다.
관련된 질문에 대한 기존 답변도 살펴보시면 도움이 될 수 있습니다:
- 작업형1 섹션13의 map과 replace 활용:
map과replace사용의 차이와 적용 예시를 설명한 답변입니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
시험에서 문제 불러오기
0
6
2
2번문제 출력값 질문
0
12
2
pd.get_dummies()가 bool로 반환
0
12
2
대응표본검정 레빈
0
17
3
단일표본검정 문제 유형
0
17
2
[작업형 3] 6~7. 카이제곱 검정
0
15
2
9회 작업형3 문제 1-1
0
26
2
최종답안 계산 방식 질문
0
17
1
시험 치기 전 급하게 질문 사항
0
29
2
유형3
0
26
2
작업형 2 연습문제 섹션 3
0
18
2
11 기출문제 ipynb파일
0
27
2
작업형 3 유형
0
24
2
11회 기출 유형(작업형1) 2번 정답
0
22
2
f1 score 질문
0
19
2
10회 작업형 2 인코딩 질의
0
19
2
53번 강의에서 갑자기 수업노트가 없어졌습니다.
0
21
2
28:19 roc_auc이유
0
21
2
수강연장문의
0
25
2
전체적인 머신러닝 순서
0
26
2
빅분기 실기 유형2질문
0
27
1
ID 전처리 이유
0
34
2
데이터제공
0
33
2
예시문제 작업형3 꼬리질문2번
0
24
1

