66,000원
다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결공공데이터로 파이썬 데이터 분석 시작하기
대용랑 데이터 전처리 [pandas 이용] 방법
안녕하세요. 먼저 좋은 강의 올려 주셔서 감사합니다. "캐글 설문조사로 데이터 분석 입문하기" 수강하면서 강의가 너무 좋아 "공공 데이타.." 강의도 수강하게 되었습니다. 강의를 듣고 있는 중에 실제 현업에 적용시 궁금한 사항이 있어서 이렇게 질문을 남깁니다. • pandas를 이용해 전처리를 수행 중에 대용량 데이터 건수를 전처리 하는 기능. 병렬 프로세스가 아닌 분산 환경에서 전처리를 할 수 있는 방법이 있을까요? 또 분산 환경에서 전처리를 수행할 경우 성능 개선 및 안정성, 효용성이 좋은 기술이 있을지 궁금합니다. 인터넷으로 검색하다 보면 modin/dask 등 몇 개의 라이브러리가 있던데 성능과 안정성, 유용성 등을 실제 경험해 보지 않아서 잘 모르겟습니다.
- 미해결공공데이터로 파이썬 데이터 분석 시작하기
하루종일 고민하다가 질문할 곳이 없어서 여기에 질문합니다....
강의와 상관없는 내용이지만 하루종일 이것때문에 고민하다가 질문합니다..답변 해주시면 너무 감사할 것 같아요 open cv설치에 관련된건데요 pip install opencv-python을 하고 설치 완료후에 import cv2를 하면 계속 cv2라는 모듈이 없다고 에러가 납니다. 다른 모듈은 (pandas ,numpy)모두 에러가 나지 않고 잘 실행되는데 cv2모듈만 계속 에러가 납니다 혹시 관련 경험이 있으시면 알려주시면 정말 감사하겠습니다. 수업과 관련되지않은 질문 이지만 감사합니다!
- 미해결공공데이터로 파이썬 데이터 분석 시작하기
평당분양가격 설정하기
안녕하세요 4/20 강의에서 df_last["평당분양가격"] = df_last["분양가격"] * 3.3 을 입력했을 때 Dead Kernel이 뜨면서 실행이 되지 않습니다. 맥북프로를 사용하고 잇는데 혹시 제 컴퓨터가 성능이 좋지 않아 오류가 나는건지 어떻게 해결할 수 있을지 답을 얻고 싶어 질문드리게되었습니다. 답변 부탁드립니다. 감사합니다
- 미해결공공데이터로 파이썬 데이터 분석 시작하기
이미지가 다음과 같이 안보이는대 어떤문제가 있는 건가요?
(사진)
- 미해결공공데이터로 파이썬 데이터 분석 시작하기
선생님 도와주세요...
os가 아닌 windows 10 을 쓰고 있는데 자꾸 에러가 나서 data 파일을 따로 만들어서 엑셀 파일을 넣었습니다. 하지만 ls data를 해도 선생님 화면 처럼 데이터 로드가 안되네요,,,
- 미해결공공데이터로 파이썬 데이터 분석 시작하기
ValueError: Cannot mask with non-boolean array containing NA / NaN values 해결방법
(사진)
- 미해결공공데이터로 파이썬 데이터 분석 시작하기
round()함수 적용
선생님~ 강의에서 3:02 에서 선생님은 그냥 park_size.style.background_gradient() 이렇게만 쓰셧는데도, 공원면적(mean)/ 공원면적(median)이 소수점 1자리수까지 나오는데.. 저는 round(2)를 해봐도 적용이 안되고 그냥 이렇게 나오네요.. astype(int) 하면 정수로 바뀌긴 하지만.. 소수점을 2자리까지 나오게 하고 싶을 경우에는 어떻게 할까요..? 그리고 선생님 df와 제 df가 결측치 부분이나 다 똑같을텐데.. 저는 선생님은 소수1자리까지 나오고 제꺼에서는 소수점자리수가 엄청 많이 나오는 걸까요..?
- 미해결공공데이터로 파이썬 데이터 분석 시작하기
style.background_gradient() 차이
선생님 날짜데이터에서는 그냥 .style.background_gradient() 쓰게 되면 값이 소수점으로 나오는데.. r 공원데이터에서는 소수점으로 처리가 안되네요 .. astype(int)를 사용해서 소수점 처리하는 부분은 알겠지만.. 왜 소수점처리의 차이가나는건가요? 이유가 궁금하네요..
- 미해결공공데이터로 파이썬 데이터 분석 시작하기
전화번호와 자동차등록번호 마스킹 차이점
선생님 전화번호마스킹할 때에는 re.sub('(\d{3})-(\d{2})(\d{2})-(\d{2})(\d{2})', r'\1-\2**-**\5', '010-1234-5678')이런식으로() 괄호 안에 \d 를 그냥 써주셨는데.. 자동차등록번호 마스킹할 때에는 re.sub("([0-9])([가-힣])([\d])([\d]{2})([\d])", r"*\2\3**\5", car_num) 이런식으로()괄호안에 \d를 쓸 때 [] 안에 넣는 이유는 무엇인가요? 별차이가 없는건지.. 왜 []를 써주었는지 궁금합니다..
- 미해결공공데이터로 파이썬 데이터 분석 시작하기
문자열에 뒤쪽에 * 넣으려고 하는데..
선생님~ 이번에는.. car_num = "32가나1234"에서 "32가*1234" 이렇게 만들려고 하는데.. 강의에서처럼 숫자에서는 마지막 한자리만 바뀌는게 되던데.. 문자에서는 적용이 왜 안되나요..?ㅠ 어떻게 해야 할까요?
- 미해결공공데이터로 파이썬 데이터 분석 시작하기
마스킹 연속으로 했을 때
선생님 car_num = "32가나1234"를 "3*가*1234" 이렇게 만들고 싶어서 re.sub("([0-9])([가-힣])([\d]{4})", r"**\3", car_num) 이렇게 해봤는데.. 안되네용..ㅠ 패턴자리에 어떻게 해야 하나요?
- 미해결공공데이터로 파이썬 데이터 분석 시작하기
mask_phone_number 함수
phone = '+82-10-1234-5678' def mask_phone_number(phone): num = phone.split('-') num_len = len(num)//2 #전화번호의 가운데를 지정하기위해('/'을 2개한 이유는 정수형태로 나와서) num[num_len] = re.sub('\w','*',num[num_len]) num[-1] = re.sub('(\d{2})(\d{2})', r'**\2', num[-1]) return '-'.join(num) mask_phone_number(phone) 이렇게 만들었는데요 궁금한점이 num[num_len] = re.sub('\w','*',num[num_len]) num[-1] = re.sub('(\d{2})(\d{2})', r'**\2', num[-1]) 이 부분에서 전화번호 가운데의 부분 num[num_len] = re.sub('\w','*',num[num_len]) 은 정규식 규칙에서 \w로 하고 전화번호 뒷부분 num[-1] = re.sub('(\d{2})(\d{2})', r'**\2', num[-1]) 에는 정규식 규칙에서\d로 하셨는데.. 전화번호 가운데 부분도 숫자라서 \d로 해야 하는 거 아닌가요? (규칙에서 \w를 \d로 바꿔도 잘 적용됩니다.) \w는 (A-Z, a-z, 0-9 ) 문자, 숫자 다 가능해서 그렇게 쓰신건가요?
- 미해결공공데이터로 파이썬 데이터 분석 시작하기
강원을 강원도로 바꿀 때 str.replace
강의에서는 '강원'을 '강원도'로 변경할 때 replace를 썼는데 df["시도"]는 series 데이터니까 문자열 분석할 때 str.replace()써도 되나요?? df["시도"].str.replace("강원", "강원도")로 코드 돌려봤을 때 '강원도'데이터는 '강원도도'로 변경되었는데 이럴때는 어떻게 해결하면 좋을까요?? replace와 str.replace의 차이가 궁금합니다!!
- 미해결공공데이터로 파이썬 데이터 분석 시작하기
안녕하세요 선생님
index에 월을 넣는 boxplot은 맨 아래에 있는 ㅡ 선이 1월이고 맨 위에 있는 ㅡ선이 12월이고 초록색 ㅡ선이 6.5월 인것인가요? 제가 제대로 이해를 한건지 궁금해서 여쭤봅니다. 항상 좋은강의 감사합니다!
- 미해결공공데이터로 파이썬 데이터 분석 시작하기
get_string 에서 결측치 관련
선생님~ df['편익시설'] = df['공원보유시설(편익시설)'].map(get_string) -> 여기서는 결측치 Nan이 ""으로 바뀌지 않고 그대로 결측치값으로 반환이 되었는데 fac = ",".join(df.loc[df['편익시설'].notnull(), '편익시설']) fac = get_string(fac) / fac = str(df['편익시설'].tolist()) fac = get_string(fac) -> 여기 두 곳에서는 결측치 nan 값이 join이나 str로 인해 모두 문자열이 되어 결측치도 문자 'nan'으로 인식되어서 ""으로 바뀐건가요?
- 미해결공공데이터로 파이썬 데이터 분석 시작하기
문자열 연결 join 관련
선생님~ fac = ",".join(df.loc[df['편익시설'].notnull(), '편익시설']) 이 코드에서요~ Series 형태(값이 1차원 array )df.loc[df['편익시설'].notnull(), '편익시설'] 의 각 행의 값들을 join을 통해 ,(콤마)로 연결해준다는 것인가요 ? 제가 이해한 게 맞나요~?
- 미해결공공데이터로 파이썬 데이터 분석 시작하기
wordcloud 함수에서 random_state
def wordcloud(data, width=1200, height=500): word_draw = WordCloud( font_path=r"C:\Windows\Fonts\malgun.ttf", width=width, height=height, stopwords=['운동기구','개소','외종','외','종'], background_color="white", random_state=42) word_draw.generate(data) plt.figure(figsize=(15,5)) plt.imshow(word_draw) plt.axis('off') #축을 그리지 말라는 의미 plt.show() 이 함수 그릴 때 random_state=42로 쓰셨는데 42 숫자는 의미 없는 건가요? 그냥 아무 숫자나 써주면 되는 건가요~?
- 미해결공공데이터로 파이썬 데이터 분석 시작하기
정규표현식
gym = re.sub("[\[\d\-nan\]]", "", gym) gym[:1000] 선생님 ~ 정규표현식에서 nan 문자앞에는 \ 백슬래시를 안써도 되는건가요~? 문자는 문자그대로 넣어주면 되는건지 궁금해요 특수문자앞에는\를 넣어줘서 \로 나마 구분이 되는데 nan 같이 문자같은건 앞에 \를 넣지도 않아서.. 여러 개가 있으면 구분이 좀 어려울 것 같아서요 ㅠ
- 미해결공공데이터로 파이썬 데이터 분석 시작하기
str(gym) 관련
선생님 5:00~5:40 리스트 형태였던 gym에 str(gym)을 해주면 리스트가 하나의 문자로 된다고 설명하신건가요~? 제가 이해한 부분이 맞나요~?
- 미해결공공데이터로 파이썬 데이터 분석 시작하기
fillna()
선생님 # "소재지도로명주소"의 결측치를 fillna 를 통해 "소재지지번주소"로 채웁니다. df['소재지도로명주소'] = df['소재지도로명주소'].fillna(df['소재지지번주소']) 이렇게 강의에서는 '소재지도로명주소'만 채웠는데 df['소재지지번주소'] = df['소재지지번주소'].fillna(df['소재지도로명주소']).isnull().sum() 이렇게 해서 '소재지지번주소'도 채우면 안되나요?채우지 않으면 '소재지지번주소' 결측값이 979개가 있고,저렇게 채우면 0개로 되어서요..!