묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[리뉴얼] 처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화 전과정 익히기) [데이터분석/과학 Part1]
IOPub data rate exceeded. 영구 설정 방법, 디렉토리 경로 변경 문의
USvideos.csv 2.8메가 파일 open 하는 과정에서 대용량의 ? 파일이라 열 수 없는 에러가 나왔습니다IOPub data rate exceeded. The Jupyter server will temporarily stop sending output to the client in order to avoid crashing it. To change this limit, set the config variable `--ServerApp.iopub_data_rate_limit`. Current values: ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec) ServerApp.rate_limit_window=3.0 (secs)찾아보니 jupyter notebook 커맨드에서 jupyter notebook --NotebookApp.iopub_data_rate_limit=1.0e10 해당 명령어를 치니 재실행과 함께 일시적으로 동작이 되다 다시 파일을 끄니 동일한 에러가 발생 하였습니다. 해당 명령어를 영구적으로 열어주는 방법명령어 이후 디렉토리 위치가 "/Document"가 디폴트로 지정 되었습니다 원래 작업 하던 경로로 옮기는 방법이 궁금합니다
-
미해결공공데이터로 파이썬 데이터 분석 시작하기
nbextension 설치 및 셋팅 후 적용이 안되는 이슈
말씀주신 내용을 아래와 같이 따라해서 설치했는데 체크박스에 체크하고 재시작 해도 확장 기능이 적용이 안되네요....jupyter contrib nbextension install --userjupyter nbextensions_configurator enable --userpip install jupyter_contrib_nbextensions && jupyter contrib nbextension사진 보시면 파라미터 설정하는 구간도 안뜨는 것 같습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
왜 train 데이터만 fit_transform 하는지요?
안녕하십니까? 계속 궁금해서요.. 왜 train 데이터만 fit_transform 하고test 데이터는 그냥 transform 하는 건지요?test 데이터도 fit_transform하면 어떻게 되는거진요?항상 자세한 설명에 감사드립니다.
-
미해결[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]
3강 강의 자료 코드 관련 질문입니다
- 섹션 3 타이타닉 문제로 시작하는 EDA: 범주형 데이터 분석 패턴1 11분 13초에 나오는 코드를 수정하지 않고 실행하였는데 ValueError: could not convert string to float: 'Braund, Mr. Owen Harris'가 떴습니다. 해결 방법을 알 수 있을까요
-
미해결공공데이터로 파이썬 데이터 분석 시작하기
corr = df.corr() 입력시 오류
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.강의랑 똑같이 했는데도 이러한 오류가 등장합니다could not convert string to float: '와라와라호프'
-
미해결공공데이터로 파이썬 데이터 분석 시작하기
keyword grid_b is not recognized
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.이런 에러가 나오는데 어떻게 해야할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
왜 정확도가 다르게 나올까요?
같은 data자료, 같은 test_size, 같은 random_state로 하였는데 왜 계속 점수가 다르게 나오는건지 여쭤봐도 될까요?해결했습니다!y_val과 pred 위치에 따라 점수가 달라지네요!이유가 뭔 지 여쭤봐도 될까요? 추가질문 하겠습니다.!영상 속 코드랑 똑같이 입력하였는데 roc 점수가 다르게 나옵니다.. 이유가 뭔가요?
-
미해결공공데이터로 파이썬 데이터 분석 시작하기
%ls data 매직커맨드 사용시 한글 깨짐
vscode jupyter notebook 활용하고 있습니다.jupyter notebook 입력창, 결과창의 한글은 잘 보입니다. 하지만, %ls data 매직커맨드 사용시 한글이 깨지고 있습니다.해결방법 없는지 도와주시면 감사하겠습니다.
-
미해결[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]
맥 사용자 mkdir .kaggle 했는데 파일이 안만들어집니다.
맥 사용자 mkdir .kaggle 했는데 파일이 안만들어집니다.그래서 ls해도 아무것도 뜨지 않고, 폴더가 없으니 kaggle.json 파일도 옮길수 없습니다.. 제가 직접 만들어 보려고 했는데 .이 들어가서 파일명을 할 수 없다고 뜹니다 ㅠㅠ 어떻게 해ㅑ야 할까요
-
미해결[리뉴얼] 처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화 전과정 익히기) [데이터분석/과학 Part1]
pandas-brazilian-ecommerce-EDA4.ipynb 내용중 datetime64 타입의 weekday 관련 문의
안녕하세요.그냥 강의내용 복습하다가 jupyter 파일(pandas-brazilian-ecommerce-EDA4.ipynb)에서 문의가 있는데요.이 파일에서 apply() 함수를 활용해서 weekday 를 보기쉽게 요일로 변경할 때 weekday=0 을 '일' 부터 변경하셨던데 이렇게 되면 데이터 해석이 틀려지는 거 같아서 문의드립니다.weekday=0 은 월요일인데 일요일로 변경되도록 하셔서요.답변 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
fit_transform함수 문의
fit_transform 함수가 여러번나오는데제가 이 함수를 잘 모르겠습니다설명을 부탁드립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
프레임과 시리즈구분
안녕하세요대괄호 한번하면 시리즈고 두번하면 프레임이라는게잘 구분이되질 않습니다자세히 설명 부탁드립니다 추가로 보이는건 같은지요?
-
미해결파이썬 기초 라이브러리부터 쌓아가는 머신러닝
선형 회귀 이론 및 실습 부터 전혀 이해가 안되네요.
수업 내용 자체가 갑자기 변화한 것 같습니다.갑자기 내용 자체가 이론적인 부분이 나타나면서 이해가 전혀 안되는데, 찾아보고 공부하고 넘어가는 것이 좋을지아니면 계속 이어 들어가나는 것이 좋을지 문의 드립니다. 내용이 이해가 안되네요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀모형 질문
문제2. 에버비엔비 가격은?평가: R_Squared, MAE, MSE, RMSE, RMSLE, MAPE문제에서 #데이터 전처리train = train.drop('id', axis=1)test_id = test.pop('id')target = train.pop('price') a = [ 'name', 'host_id', 'host_name', 'last_review' ]train = train.drop(a, aixs=1)test = test.drop(a, axis=1)train[reviews_per_month] = train[reviews_per_month].fillna(0)test[reviews_per_month] = test[reviews_per_month].fillna(0) #라벨인코딩 cols = train.select_dtypes(include='object').columns from sklearn.preprocessing import LabelEncoderle = LabelEncoder() for col in cols: train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) #train_test_splitfrom sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=2022) #랜덤포레스트from sklearn.ensemble import RandomForestRegressorrf = RandomForestRegressor()rf.fit(X_tr, y_tr)pred = rf.predict(X_val) #rmsefrom sklearn.metrics import mean_sqaured_error def rmse(y_val, pred): return mean_squared_error(y_val, pred)**2(질문1)이렇게 했는데 rmse에서 **2까지 입력하면 예측값이 0.xx라고 출력되어야 하지 않나요?**2까지 입력했는데 아무 값도 출력이 안되네요ㅠ그리고 데이터 저장 후에는 price가 406, 160..이렇게 출력됩니다!강사님 풀이에는 295, 155..이던데값이 달라도 괜찮은건가요? (질문2)이후 강의에서 rmse를 from sklearn.metrics import mean_squared_errordef rmse(y_val, pred): return mean_squared_error(y_val, pred)**2로 하시던데 rmsle나 mape도 numpy를 사용하지 않고 간단하게 표현하는 방법이 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
대응표본검정관련해서
안녕하세요? 대응표본 검정관련해서요 사피로 검정 전에 있는 귀무가설 u>= 0대립가설 u>0 이라고 되어 있는데요. 보통 이런 경우는 대립가설이 u<0 이 되는거 아닌가요?설명을 듣다보면, 귀무가설이 u<=0 이 아닌지?
-
미해결[리뉴얼] 처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화 전과정 익히기) [데이터분석/과학 Part1]
이 강의를 수강하는데 VS Code를 사용해도 무방할까요?
프로그래밍 알못입니다. (SQL을 통한 데이터 핸들링 정도만 해봤습니다) 파이썬 강의를 보다보면 누구는 vs code 누구는 주피터 노트북 이렇게 쓰는 것 같은데 vs code는 이미 설치되어 있습니다. 추가로 주피터 노트북도 써야 하는지요
-
미해결파이썬을 활용한 머신러닝 딥러닝 입문
tf.data 를 이용한 shuffling and batch 구성 관련 문의
좋은강의 감사합니다.tf.data 를 이용한 shuffling and batch 구성 관련 문의 드립니다.tf.data 를 이용한 shuffling and batch 구성하는 경우의 코드(아래코드)를tf.data 를 이용한 shuffling and batch 구성하지 않는 경우로 변경하는 경우 아래코드를 어떻게 변경해야하나요?-아래-train_ds = tf.data.Dataset.from_tensor_slices((X_train_scaled, y_train_onehot))\.shuffle(10000).batch(128)test_ds = tf.data.Dataset.from_tensor_slices((X_test_scaled, y_test_onehot)).batch(128)..history = model.fit(train_ds, epochs=5, validation_data=test_ds)답변부탁드립니다.2024.3.9
-
미해결[Python 실전] 웹크롤링과 데이터분석 : 전세계 축구 선수 몸값 분석
깃허브에서 csv파일 불러오기 오류 문의
import pandas as pd # csv 저장 파일 불러오기 df = pd.read_csv("https://github.com/yak93tiger/dongsuh_files.git/transfermarkt_50.csv") print(df)에러메시지가 아래와 같이 나오네요 마지막 부분에...urllib.error.HTTPError: HTTP Error 404: Not Found 깃허브에 transfermarkt_50.csv 파일을 업로드 한 상태
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
RMSLE 관련 로그 함수관련 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요? 제가 LOG 함수관련해서 조작법이 서툴러서요. RMSLE관련해서 공식을 찾아보니 아래오 같더라구요근데, 강의자료에 작성된 코딩을 보면 11sqrt(np.mean(np.power(np.log1p(y_test) - np.log1p(y_pred), 2))) 와 같습니다. 여기서 np. log1p(t_test) 이 코딩과 위에 공식이 같은건가요. +1이 여긴 반영되어 있는건지 모르겠습니다. 로그관련 설명을 좀 부탁드리겠습니다.
-
미해결파이썬 증권 데이터 수집과 분석으로 신호와 소음 찾기
Reindexing only valid with uniquely valued Index objects 오류 질문입니다.
import timeimport pandas as pddef get_item_info(item_code): item_url = f'https://finance.naver.com/item/main.naver?code={item_code}' tables = pd.read_html(item_url, encoding='cp949') # if len(tables) == 13: # 코넥스를 거르기 위해 추가함 # continue item_info = [] # 빈 리스트 생성 finance_info = tables[3].iloc[:,[0,-2]] finance_info.columns = [0,1] # 합치기 전 칼럼명 일치시켜주기 item_info.append(finance_info) for t in tables: if t.shape[1] == 2: item_info.append(t) df_item = pd.concat(item_info) df_item = df_item.set_index(0).T time.sleep(0.2) # 과부하 막기 위한 지연 조회, 최소 0.1 이상. return df_itemimport numpy as npimport seaborn as snsimport matplotlib.pyplot as plt # 한글폰트 위함import datetimeplt.style.use("seaborn-v0_8-talk")font_family = "Malgun Gothic"plt.rc("font", family = font_family)plt.rc("axes", unicode_minus=False)url = 'https://finance.naver.com/sise/sise_group_detail.naver?type=upjong&no=282'table = pd.read_html(url, encoding='cp949')raw = table[2]raw = raw.dropna(how='all').dropna(axis=1, how='all') #추가해서 칼럼도 모두 결측치시 삭제.today = datetime.datetime.today()today = today.strftime('%y%m%d')raw['종목명전처리'] = raw['종목명'].str.replace('*','', regex=True) # 문자치환raw['종목명전처리'] = raw['종목명전처리'].str.strip() # 앞뒤 공백 제거import FinanceDataReader as fdrdf_krx = fdr.StockListing('KRX')# print(df_krx[['Code','Name']])df_item_code_name = df_krx[['Code','Name']]# 위의 종목명_전처리 칼럼과 Name 칼럼을 연결지어서 코드 잡아준다.df_item_code_name.columns = ['종목코드', '종목명전처리']raw = raw.merge(df_item_code_name) # 강의에서 df에 해당함# progress_apply는 map의 사용방법을 되짚어보면서 봐라. 일괄적으로 함수 적용시 사용.# 진행사항을 보려면 progress_apply을 사용하면 된다.from tqdm.auto import tqdmtqdm.pandas()result = raw['종목코드'].progress_apply(get_item_info)# result로 받아서 데이터프레임 형식으로 concat 해줘야해서 tolist() 사용함df_item_info = pd.concat(result.tolist())# print(df_item_info['종목코드']) # 출력해보면 종목코드가 없다. 그래서 넣기# df_item_info['종목코드'] = raw['종목코드'] # 아래의 reset_index를 위해 비활성화함# print(df_item_info['종목코드'])# 위에서 index값이 1로 모두 같아 종목코드가 모두 동일 하므로 아래처럼 인덱스 다시 적용df_item_info = df_item_info.reset_index()df_item_info['종목코드'] = raw['종목코드']# print(df_item_info['종목코드'])# 위와 같이 작업 후 index라는 칼럼을 삭제해 준다.del df_item_info['index']# print(raw.shape)df_info = raw.merge(df_item_info) # 따로 지정 안해줘도 종목코드가 같기에 합쳐진다.# 파일명 만들기file_name_1 = url.split('=')[1].replace('&','_')file_name_2 = url.split('=')[2]file_name = f'{file_name_1}_{file_name_2}.csv'# 저장하기df_info.to_csv(file_name, index=False, encoding='cp949') 위와 같이 코드를 작성하고 실행 했는데요. 제목과 같은 오류가 발생 했습니다. 원인을 찾아 본 결과.코넥스 종목이 포함되어 있어서 칼럼명이 맞지 않아 발생하는 것으로 보입니다. 위의 이미지와 같이 코넥스 종목은 코스닥, 코스피 종목 처럼 table 개수 13개 보다 적게 나오므로 if문으로 table개수가 13개 이하이면 건너띄어 데이터를 받게 하면 오류가 발생하지 않을 것 같은데요. if 문을 함수 어느 위치에 넣으면 좋을지 모르겠어서 질문 드립니다. 어느 위치에 if문을 넣어서 해결하면 좋을까요?