처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]대시보드
월 15,400원
5개월 할부 시다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
groupby().sum() 사용 특정 컬럼 기준으로 데이터 합치기 관련
안녕하세요!강의 2:24 에서,Groupby('Country_Region').sum() 사용시 다른 컬럼의 값들을 'Country_Region' 컬럼의 값을 기준으로 데이터를 합치게 되는데,Lat이나 Long_과 같이 데이터를 단순 Sum을 하면 안되는(?) 것들은 어떻게 처리가 되는건가요?
- 해결됨처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
bar그래프에서 특정 구간 색깔 변경하고 싶습니다.
가장 값이 높은 데이터를 선택해서, Red색으로 변경하고 싶은데, 구글링을 통해 찾아봤는데 어떻게 바꾸어야 할지 모르겠어서 질문드립니다.아래 사이트에 있는 것처럼 바꾸고 싶습니다.https://community.plotly.com/t/how-to-highlight-a-single-bar-on-select-in-plotly-dash/60739/3
- 미해결처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
소문자로 바꾸어주었더니, 국기 이미지가 잘 출력되는 것을 확인할 수 있었습니다.
전체 코드에서 'iso2'칼럼에 있는 값을 소문자로 바꾸는 코드 하나만 추가하면 됩니다.doc_final_country['iso2'] = doc_final_country['iso2'].str.lower()그러면 아래 결과처럼 잘 나오는 것을 확인할 수 있었습니다.
- 미해결처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
데이터 프레임 간 연결/병합하기 2 부분에서 질문드립니다. (잘 이해했는지 확인)
선생님, 딥러닝에 이어서, 데이터분석 관련 강의도 어제부터 잘 듣고 있습니다. 수업을 들으면서 Pandas 관련 api사용법을 다시 정리하면서 약했던 부분을 익히며 많은 도움을 받고 있습니다. 좋은 수업 만들어주셔서 정말 감사드립니다.다름이 아니라, merge 함수를 사용하는 과정에서 배우게 되는, "데이터 프레임 조작하기 연습" 부분에서 예제인 두 데이터프레임을 인덱스를 기준으로 합치는 과정에서 이렇게 해도 될까요?<강의 내용>- set_index('id')를 이용해 두 데이터 프레임이 가지고 있는 id칼럼을 인덱스로 넣어준 상태입니다.-따라서 outer join의 경우, left_index=True와 right_index=True, 그리고 join방법을 'outer'로 명시해줌으로써, 인덱스를 기준으로 병합한 것을 확인할 수 있습니다. 그래서, 이번에는 강의 내용을 정리하고 제 것으로 만들 겸,1) set_index를 명시해주지 않았기 때문에 현재 id칼럼이 각 데이터프레임 칼럼에 그대로 있는 상태입니다. 또한 마찬가지로, 기본 인덱스인 range(number) (0, 1, 2....) 값이 들어감을 확인할 수 있습니다.2) 그리고 merge를 할때 on='id' 칼럼 기준으로 how='outer'로 조인을 해주었고,3)최종 출력을 위해 만들어진 데이터프레임의 set_index('id')로 설정해주었습니다.
- 미해결처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
강의 8:44초 질문 (Confirmed대신 Deaths변경)
- 본 강의 영상 학습 관련 문의에 대해 답변을 드립니다. (어떤 챕터 몇분 몇초를 꼭 기재부탁드립니다)- 이외의 문의등은 평생강의이므로 양해를 부탁드립니다- 현업과 병행하는 관계로 주말/휴가 제외 최대한 3일내로 답변을 드리려 노력하고 있습니다- 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.확진자를 사망자로 바꾸는 작업을 진행중인데 강의 8:44초 기준 최종코드에서 나머지는 다 같고 Confirmed를 Deaths로 바꾸어 주었습니다. 그런데 에러가 발생하고 에러내용은 다음과 같습니다. 에러를 풀기가 너무 어렵네요,, 도움 부탁드립니다.KeyError: "['Deaths'] not in index" "None of [Index(['Country/Region', 'Deaths'], dtype='object')] are in the [columns]" -전체 코드-import jsonimport pandas as pdwith open('csse_covid_19_daily_reports/country_convert.json', 'r', encoding='utf-8-sig') as json_file: json_data = json.load(json_file) def country_name_convert(row): if row['Country_Region'] in json_data: return json_data[row['Country_Region']] return row['Country_Region']def create_dateframe(filename): PATH = "csse_covid_19_daily_reports/" doc = pd.read_csv(PATH + filename, encoding='utf-8-sig') #csv 파일 읽기 try: doc = doc[['Country_Region','Deaths']] except: doc = doc[['Country/Region', 'Deaths']] doc.columns = ['Country_Region', 'Deaths'] doc = doc.dropna(subset=['Deaths']) # 3. 특정 컬럼에 없는 데이터 삭제하기 doc['Country_Region'] = doc.apply(country_name_convert, axis=1) # 4. 'Country_Region'의 국가명을 여러 파일에 일관되게 변경하기 doc = doc.astype({'Deaths': 'int64'}) # 5. 특정 컬럼의 데이터 타입 변경하기 doc = doc.groupby('Country_Region').sum() # 6. 특정 컬럼으로 중복된 데이터를 합치기 # 7. 파일명을 기반으로 날짜 문자열 변환하고, 'Confirmed' 컬럼명 변경하기 date_column = filename.split(".")[0].lstrip('0').replace('-', '/') doc.columns = [date_column] return docimport osdef generate_dateframe_by_path(PATH): file_list, csv_list = os.listdir(PATH), list() first_doc = True for file in file_list: if file.split(".")[-1] == 'csv': csv_list.append(file) csv_list.sort() for file in csv_list: doc = create_dateframe(file) if first_doc: final_doc, first_doc = doc, False else: final_doc = pd.merge(final_doc, doc, how='outer', left_index=True, right_index=True) final_doc = final_doc.fillna(0) return final_doc
- 미해결처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
강의교재
데이터 분석을 위해 필요한 파이썬 라이브러리 임포트 방법 부분을 수강중입니다. 강의 교재는 어디에서 다운 받나요?
- 미해결처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
데이터프레임간 연결/병합해서 데이터가공하기 2, 5:02 구간 outer merge 관련 질문드립니다.
안녕하세요, 강사님제공해 주신 수업자료, 다른 수강생 분께서 남기신 질문, 구글까지 모두 찾아보았는데 뾰족한 답변이 나오지 않아 문의드립니다.가장 마지막의 데이터프레임 조작하기 연습_인덱스 기준으로 합쳐서 outer_join 시, 강의에서 보여주신 내용과 다른 표가 결과로 나옵니다.강의 화면 캡쳐본)혼자 풀어본 화면)처음에 아래 코드처럼pd.merge(df1, df2, how='outer', left_index=True, right_index=True)로 혼자 풀어보았는데 계속 아래처럼 concat axis 했던 것처럼 옆으로 합쳐지기만 하는 표가 나오더라고요 ㅠㅠ그래서 뭔가 잘못했나 싶어서 강의자료 코드도 계속 검색해보고 구글링도 해봤는데 뾰족한 답이 나오지 않아 문의드립니다.. 위의 merge(df1, df2, on='id', how='outer'코드는 혹시 df를 선언할 때 오류가 없었는지 확인해보려고 혼자 해봤던 코드입니다. 결과물을 보면 df 선언 자체엔 문제가 없는 것 같은데 뭐가 문제인지 함께 확인해 주실 수 있으실까요?감사합니다.
- 미해결처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
문법 질문입니다
- 본 강의 영상 학습 관련 문의에 대해 답변을 드립니다. (어떤 챕터 몇분 몇초를 꼭 기재부탁드립니다)- 이외의 문의등은 평생강의이므로 양해를 부탁드립니다- 현업과 병행하는 관계로 주말/휴가 제외 최대한 3일내로 답변을 드리려 노력하고 있습니다- 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 15분 33초에서 왜 xbins=dict( ~~ ) 로 소괄호로 묶였는지 잘 모르겠습니다. 이 경우에도 dictionary 형태로 다뤄야하는 것 아닌가요? 그러면 {}를 쓰는게 맞는 것 같아 질문드립니다.
- 미해결처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
[pandas-visualization-iplot 와 pandas-visualization-plotly ] jupyter note book에서 iplot 그래프와 go.Figure() 그래프가 보이지 않아요
pandas-visualization-iplot 와 pandas-visualization-plotly jupyter note book에서 iplot 그래프와 go.Figure() 그래프가 보이지 않아요 plot은 그래프 이미지가 나옵니다 강의는 8-1~4 입니다 install은 잘 된것 같구요 go.Figure() 의 경우 import plotly.graph_objects as go import plotly.offline as pyo # jupyter notebook 에서 보여지도록 설정하는 부분 (가끔 안나올 때, 이 명령을 하면 됨) pyo.init_notebook_mode() 도 실행하였습니다 파이썬 버전도 3 입니다
- 미해결처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
폴더 경로 표시가 헥갈립니다 "\", "/"
선생님 안녕하세요 공부하던중 헥갈리는 부분이 있습니다 내용은 약 14분 정도이구요 상위 폴더는 ../ 이렇식으로 올라면된다고 하셨습니다 그런데 영상내용 앞쪽에서 폴더표시는 윈도우는 "\" 맥은 "/" 이렇게 폴더를 표시한다고 하셨습니다 그렇다면 윈도우는 "..\" 이렇게 되어야하는데 14분대 영상을 보니 폴더들을 모두 '/' 이걸로 표시하고있습니다 그렇다면 윈도우에서 폴더 표시할때 "\" 이것도 되고 "/" 이것도 된다고 생각하면 되는걸까요? 항상 좋은 강의 감사드리며, 답변 부탁드립니다~
- 미해결처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
get_text()
예전 크롤링 수업하실 때 select하신 다음, get_text()로 얻고자하는 데이터를 가져오셨던 거 같은데, 이번 과제에서는 text() 도 get_text()함수도 안써지네요. 그냥 빈칸 여러줄만 뜹니다. 왜 이러는 걸까요
- 미해결처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
PANDAS라이브러리로 데이터가공하기 1 질문드립니다!
안녕하세요 선생님 PANDAS라이브러리로 데이터가공하기 1 '4분 50초~5분 30초' 내용 질문드립니다. 왜 COUNTRY REGION 컬럼만 추출할때는 리스트 괄호 하나면 충분한데 CONFIRMED,DEATHS,RECOVERED 3가지를 복수로 추출할 때에는 괄호 두개가 필요한지 이유가 궁금합니다.
- 미해결처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
csv 파일이 인코딩이 안되요.
cp949 로 인코딩 시'cp949' codec can't decode byte 0xc6 in position 12UTF8로 인코딩 시 UnicodeDecodeError: 'utf-8' codec can't decode byte 0x89 in position 10: invalid start byte인터넷에서는 cp949 안되면 -> utf-8 UTF-8 안되면 -> cp949 로 나와있는데,둘다 안되면 언덯게 해결해야 할까요?
- 해결됨처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
바뀐 국기 사이트에 대하여
- 기존 사이트였던 www.countryflags.io 가 flagcdn.com 로 대체되면서 직접 따라해보니, 2가지 문제점이 있는 걸 발견했습니다. 1. 대문자로는 404 Not Found가 뜹니다. - 따라서 이미지 링크를 만들 때는 .lower() 로 소문자 변경 처리를 해줘야 합니다. - ex) https://flagcdn.com/48x36/US.png -> https://flagcdn.com/48x36/us.png 2. 국기 매칭 오류 - iso2와 Country_Region 를 매칭할 때부터 오류가 있는 것을 확인했습니다. - 시각화를 하면서 US가 워낙 인구가 많기에 눈에 보였지만 다른 것들도 제대로 매칭되었는 지는 확신할 수 없습니다. - 강의 자료를 바탕으로하면, US의 경우 AS로 매칭이 되어서 https://flagcdn.com/48x36/as.png 국기가 뜨더라구요. - 물론 강사님 말씀처럼, 이미지는 참고용이므로 크게 신경쓰지 않아도 될 문제같습니다. 그래서 저는 만들어진 데이터 프레임 값 중 US만 변경하려고 다음과 같이 허접하게 함수를 만들어서 보정했습니다. ㅎㅎ;; def test_func(row): if(row['Country_Region'] == 'US'): row['Country_Flag'] = 'https://flagcdn.com/48x36/us.png' return row doc_final_country = doc_final_country.apply(test_func, axis=1) 대강 국기가 잘 나오는 것 같네요. 혹시나 이 수업을 들으시는 누군가에게 도움이 될까..? 하여 간단히 기록 남겨봅니다..!
- 미해결처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
agrregate 함수 질문
안녕하세요. 강의 잘 듣고 있습닏 :) EDA/pandas/시각화로 이커머스 구매 카테고리 분석 5분 47초에서 행으로 적용시키고 싶은 경우 axis = 'column' 으로 기재 하시는데 상식적으로 행(row)으로 적용시키고 싶다면 axis(축) = row (행) 으로 하는 게 직관적이지 않나요? 문법이 원래 저렇게 되어있는 건가요? 직관과 반대라서 여쭤봅니다. 답변 부탁드립니다. 감사합니다.
- 미해결처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
dir 함수 질문
안녕하세요. 강의 잘 듣고 있습니다 :) EDA/pandas/시각화로 이커머스 고객 구매 트렌드 분석 Q1 5분 14초 에서 dt 를 붙이는 이유가 무엇인가요? 이전에 dir 사용할 때는 저 부분으 본 적이 없어서요. dt 가 혹시 datetime의 약자인가요? dt 앞 객체의 데이터 타입이 datetime 이니 그것을 인식할 수 있게 적어줘야 되는 것인가요? Q2 6분 52초에서도 dt를 붙이는 이유가 무엇인가요? 위 질문과 같이 datetime 임을 인식시켜주는 것인가요? 답변 부탁드립니다. 감사합니다.
- 미해결처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
강의 1:55초 코드가 이해가 안갑니다.
강의 1:55초입니다. def country_name_convert(row): if row['Country_Region'] in json_data: return json_data[row['Country_Region']] return row['Country_Region'] 이 코드가 이해가 가질 않는데요 여기서 if문 내에 json_data이 value를 리턴해주는 이유가 무엇인지 궁금합니다. 아래는 제가 작성한 코드입니다. def modify_cn(row): if row['Country_Region'] in json_data: row['Country_Region'] = json_data[row['Country_Region']] return row 함수 안에 return을 두 번 사용 하는 것은 처음 보는데 저 함수만 강의 코드로 바꿔주면 정상 작동하네요ㅠㅠ
- 미해결처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
help, dir 함수 질문
안녕하세요 : ) 디테일하고 가장 이쁜 시각화 라이브러리 사용법 이해1 5분 35초 Q1 특정 라이브러리나 매소드에 대한 가이드 정보를 얻고 싶을 때 help 를 사용하는 것으로 알고 있는데 help와 dir 함수의 각 사용 목적, 차이점이 무엇인가요? 각각 어떨 때 사용하는지 궁금합니다. Q2 help 의 경우 cf.help() 이런 식으로 쓸 때도 있고 cf.help(bar) 이런 식으로 사용하는 경우도 있는데 help의 괄호 안에 들어가는 것은 cf 내에 있는 특정 함수에 대한 정보를 얻고 싶을 때 지정해 주는 것인가요?
- 미해결처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
chart_studio 가 설치가 안되었다고 뜹니다
- 자료로 배포해주신 pandas-visualization-iplot을 순서대로 인스톨 하엿으나 import chart_studio.plotly as py 가 들어간 블록 실행시 에러가 납니다 chart studio module 이 없다고 어떻게 수정해야 할까요?
- 미해결처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화까지 전과정 기본 익히기) [데이터과학 Part1]
plotly 라이브러리 질문
안녕하세요. 강의 잘 듣고 있습니다 :) 가장 빠른 시각화 라이브러리 사용법 이해1 9분 41초 Q1 제가 생각하기론 plotly 라이브러리와 chart_studio는 별개의 라이브러리라고 생각했는데 chart_studio 라이브 러리가 plotly 라이브러리를 포함하고 있는 상위 라이브러리 인가요? import 하실 때 chart_studio.plotly 로 임포트 하셔서 여쭤봅니다. 시각화한 것을 웹상에서도 보여주기 위해 사용하는 것이 chart_studio 라이브러리이고 시각화를 위한 라이브러리는 plotly 라이브러리로서 두 라이브러리는 별개의 라이브러리 아닌가요? Q2 iplot 은 plotly 라이브러리에 속해있는 것이니 호출 시 plotly.iplot 이런 식으로 사용될 줄 알았는데 df.iplot 이런 식으로 iplot 으로 단독 호출이 가능한 이유는 무엇인가요? cufflinks 라이브러리 때문에 가능한 건가요? Q3 10분 54초 cf.go_offline(connected = True) 이 부분은 무엇을 위한 코드인가요? 답변 부탁드립니다. 감사합니다.