결측치 채우기 부분 관련 질문
384
작성한 질문수 45
안녕하세요 선생님. 결측치 채우기 섹션에서 궁금한 부분이 있어 질문을 드립니다.
결측치 채우기 부분에서 왜 문자열 데이터는 빈도가 높은 데이터 순을 대치하는 방법을 적용하는지 궁금하여 여쭤봅니다.
그리고 그 아래 코드에 .mode()는 어떤 것을 의미하는 지 알려주시면 감사드립니다.
그 부분과 연결지어 아래 부분에,
# 이제 각 Feature 마다 빈도수가 가장 많이 나타나는 값을 추가하는 코드를 작성한다.
for i in final_cat_vars:
all_df[i] = all_df[i].fillna(all_df[i].mode()[0])
빈도수가 가장 많이 나타나는 값을 왜 추가하는지 알려주시면 감사드립니다.
답변 1
0
결측치 대치는 여러가지 방법이 있는데, 그 중 가장 쉬운 방법인, 빈도수가 가장 많이 나온 것을 대체 한 것입니다. 이 방법이 꼭 좋은 방법은 아니나, base 머신러닝 모형을 구축할 때는 쉽게 구축 할 수 있기 때문에 사용한다고 생각하면 될 것 같습니다.
mode() 함수는 문자열의 각 값을 계산한 후, 높은 순부터 정렬하여 반환합니다. mode()[0]은 각 칼럼에서 가장 높은 값을 추출한다는 뜻입니다.
결측치 대치는 이 문제 하나만으로도 논문으로 나올 수 있는 매우 어려운 문제입니다. 본 강의에서는 가장 쉬운 방법을 택했다고 보면 될 것 같습니다. 문자열 결측치에서 가장 큰 어려운 문제는 high-cardinality 이슈가 있습니다. 관련 키워드로 검색해보시고, 혹시나 이해가 어려우면 추가로 강의를 제작해서 올리도록 하겠습니다.
섹션5. 회귀 강의 관련 질문드립니다
0
2
1
36. 텔레그램 연동(특강) 노션 링크
0
8
1
수강기간연장 문의드립니다
0
11
1
수강 연장 문의
0
14
1
label 인코딩 에러 발생 원인
0
13
2
LabelEncoding 시 train data 학습(fit_transform, transform)
0
14
2
로지스틱 회귀분석은 옛날거 밖에 없나요?
0
23
2
강의 초반 질문드려요!
0
13
1
사주 정보를 넣고 웹훅
0
17
2
오류 문구 입니다.
0
20
1
creatomate를 대체할 만한 곳
0
19
1
Part2 - 19번 ~ 20번 강의 사이에 일부 내용이 생략된듯합니다.
0
23
2
Gemini 모델 변경 문의
0
21
2
소스코드 다운로드 어떻게 받는지 물어보려고 했는데...
0
12
1
판다스 표 표시
0
19
3
part2 gemini api 연동
0
20
3
알라딘 서점에서 도서목록 관련 Request정보를 찾을 수가 없습니다.
0
21
3
boxcox를 변환하는 코드 에
0
796
2
레몬에이드 데이터 자료에 없습니다
0
419
1
데이터셋 압축 문제
1
384
1
주피터 노트북, 비쥬얼 스튜디오 다안되는데 다른 방법이없나요
0
195
1
강의자료
0
316
1
레몬에이드 데이터 자료에 없습니다
0
403
2
선생님 문의드립니다.
1
417
2





