inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

머신러닝 학습 및 평가(분류)

데이터 전처리 관련

해결된 질문

21

노태호

작성한 질문수 1

0

안녕하세요.

수업을 듣다가 replace와 map의 차이를 찾아보니 map은 딕셔너리 형태에 적여 있지 않은 모든 키값을 null로 만들고 replace는 그대로 손대지 않는다고 하는데, 그러면 1과목에서 자세한 EDA가 전제 되지 않는다고 가정했을때 왠만하면 map을 피하고 replace를 해야하지 않을까? 하는 생각이 들었는데

수업에는 map을 조금 권장하는거 같기도 하여 혹시나 여기에 대해서 제가 어떻게 생각을 정리해야할지 질문드립니다.

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

0

퇴근후딴짓

말씀하신 차이는 정확합니다.

pythondf['col'].map({'A': 1, 'B': 2}) # 'C' → NaN

df['col'].replace({'A': 1, 'B': 2}) # 'C' → 'C' (그대로)


만약 전체를 모른다면 replace가 맞습니다. (특정 값을 변환할 때 유용해요)

정답이 있는 것은 아니며, 시험에서는 어떤 것이든 상관어요!


다만 실무에서 사용하신다면 전체 변환(인코딩)할 때는 보통 Map을 사용합니다.

NaN을 확인하면서 파악하지 못한 데이터를 발견하기도 하거든요!

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 노태호님께서 데이터 전처리 과정에서 replacemap 함수의 사용에 대해 궁금증을 가지고 계시는군요!

replacemap의 차이점

  • replace: 이 함수는 특정 값을 다른 값으로 치환합니다. 예를 들어 ‘silver’를 1로, ‘gold’를 2로 바꾸고 싶은 경우, replace는 지정된 값 외의 값은 그대로 유지하므로 잘못된 치환의 위험이 없습니다.

  • map: 이 함수는 데이터에 있는 값을 다른 값으로 변환할 때 주로 사용되며, 딕셔너리를 사용해 매핑합니다. map은 지정되지 않은 키에 대해 NaN을 반환합니다. 따라서, 잘못된 키 변환은 값에서 NaN을 유발할 수 있습니다.

EDA 상황에서의 고려사항

  1. 초기 EDA가 적절히 수행되지 않았을 때, 데이터에 대한 충분한 이해가 없는 상태라면 replace는 안전한 선택일 수 있습니다. 이는 예기치 않은 데이터 손실을 방지하기 때문입니다.

  2. map 사용 권장 이유: 코드의 간결성 및 처리 속도 면에서는 map이 유리할 수 있습니다. 특히 데이터를 전처리할 때, 변환해야 할 값이 명확하고 한정적이라면 map을 사용함으로써 효율성을 높일 수 있습니다.

수업의 권장 이유

강의에서는 map을 사용하여 데이터를 효율적으로 변환하는 방법을 제시하고자 한 것으로 보입니다. map을 활용하면 간결한 코드 작성을 통해 데이터 처리 속도를 높일 수 있기 때문입니다. 다만, 이는 데이터에 대한 명확한 이해가 전제되었을 때 더 잘 활용됩니다.

관련된 질문에 대한 기존 답변도 살펴보시면 도움이 될 수 있습니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

작업형2 인코딩 질문

0

17

2

작업형 3 벼락치기 공부방법 질문

0

16

2

기출 11회 작업형 2_전체 데이터 학습 여부

0

27

2

예측값 결과 소수점 차이

0

24

2

기출 문제와 실전챌린지 연습문제 무엇부터 푸는게 나은가요?

0

27

1

전처리 train() test([ ])

0

19

2

작업형 1 배경지식 질문

0

25

2

옳게 풀은건지 질문드립니다!

0

16

1

roc_auc_score

0

28

2

추가질문 합니다

0

20

2

시험환경 구름

0

19

2

2유형 질문드려요

0

17

2

RandomForest vs lgb

0

26

2

전처리 관련질문

0

26

3

작업형3 기출

0

18

2

유형2에서 데이터분할 생략 가능여부

0

30

2

9회 기출 유형3 질문

0

21

2

lgb 기초편

0

17

2

괄호 사용

0

25

2

작업형 2 데이터 전처리 질문

0

23

1

11회 기출 유형 작업형1 문제 3-1

0

22

1

예시문제 작업형2 (ver2023) 질문입니다

0

20

2

Data type에 따른 처리

0

23

2

시험에서 문제 불러오기

0

21

2