'상호명이 '파스쿠찌|잠바주스'가 아닌 것만 가져오세요.'에 궁금한 점이 있습니다.
278
작성한 질문수 6
안녕하세요, 선생님. 강의 잘 듣고 있습다.
복습하다 중간에 궁금한 점이 생겨 질문드립니다,
03_frainchise_eda_input 파일에서요.
# "상권업종대분류명"이 "학문/교육"이 아닌 것만 가져옵니다. 에서는 아래처럼 작성을 하는 것으로 배웠습니다.
df_bread = df_bread[df_bread['상권업종대분류명'] != '학문/교육'].copy()
그리고 아래의 문항 중 # 상호명이 '파스쿠찌|잠바주스'가 아닌 것만 가져오세요. 에서
df_bread[~df_bread['상호명'].str.contains('파스쿠찌|잠바주스')]로 알려주셨는데요.
이것의 shape을 찍어보면 (812, 12)가 오는데 아래처럼
df_bread[df_bread['상호명'] != '파스쿠찌|잠바주스']로 했을 때 는 (823, 12)로 row의 개수가 달라서 왜 다른지 궁금하여 문의드립니다.
저는 두 개의 row 개수가 같을 거라고 생각을 했는데 달라서 어떻게 다른 것인지 궁금합니다.
항상 좋은 강의 감사드립니다 :)
답변 3
1
안녕하세요.
좋은 질문을 해주셨네요.
== 연산은 완전히 일치하는 데이터를 가져오게 됩니다.
아래 파스쿠찌와 잠바주스가 들어간 상호명을 가져오게 했는데요.
"파스쿠찌", "잠바주스" 라고 표기되지 않고 "파리크라상파스쿠찌홍" 등으로 표기된 것을 볼 수 있습니다.

.str.contains() 는 일부 텍스트가 일치하면 True로 연산을 하게 되고 다시 데이터프레임으로 감싸면 해당 데이터만 가져옵니다.
여기에서는 조건식 앞에 ~ 표시를 했기 때문에 해당 텍스트가 들어가지 않는 데이터만 가져왔습니다.
그래서 == 연산 혹은 != 연산을 사용할 때는 내부에 | 를 적어주게 되면 정규표현식의 or 로 인식하지 않고 문자 그대로 | 로 해석하게 됩니다.
감사합니다 :)
패키지 설치 에러 ydata-profiling
0
120
2
자세한 설명 부탁드려요 ㅜ
0
176
2
seaborn 라이브러리 호출하였으나 그래프가 안 그려져요
0
287
2
value_counts와 count 차이
0
341
2
안녕하세요 데이터 최신과 관련해서 문의드립니다.
0
205
3
scatterplot질문
0
122
1
강의 화면이 안나옵니다
0
164
2
4분12초 2013년부터 데이터가 없으면 어떻게하나요?..
0
188
2
에러 메시지
1
303
2
그래프 색이 동일하게 나옵니다.
0
308
2
시각화 라이브러리 비교
0
382
2
주피터 노트북 설치
0
390
1
2. 상가 기술통계 아웃풋 자료에서 오류가 납니다
0
226
1
14. distplot g = sns.FacetGrid(df_last, row="지역명", height=1.7, aspect=4) g.map(sns.distplot, "평당분양가격", hist=False, rug=True); 오류
0
178
1
group by agg function failed 에러
0
687
2
빈도수가 1000개 이상인 데이터를 따로 담을 때 코드 질문 있습니다.
0
288
2
주피터 노트북 실행 했는데 앞에 *가 생기고 결과가 나오지 않아요
0
363
3
get_string함수에서 문자 'nan'
0
200
1
seaborn X축 시작 지점 조정 질의의 건
0
213
1
14강 distplot 질의
0
289
1
nbextension 설치 및 셋팅 후 적용이 안되는 이슈
0
478
1
corr = df.corr() 입력시 오류
1
373
1
keyword grid_b is not recognized
0
336
1
%ls data 매직커맨드 사용시 한글 깨짐
0
293
1





