55,000원
다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결실전 데이터 사이언스 Part2. 데이터 전처리
결측값 처리
안녕하세요. 실전 데이터 사이언스 Part2. 데이터 전처리 학습을 잘듣고 있는 학생입니다. 강의를 너무 잘듣고 있고, "결측치 처리" 관련해서 질문이 있어서 글을 남기게 되었습니다. 특정 컬럼의 결측값 비율이 50%를 넘고 있습니다. 하지만 이 컬럼과 label값과의 상관관계를 보면 0.45 정도 되기 때문에 중요한 컬럼이란 생각을 하고 있습니다. 이런 경우, 그래도 결측값이 너무 많기 때문에 제거하는게 좋은지 아니면, 평균값 등 다른값으로 대체하는게 좋을지 조언을 구할 수 있을까요? 감사합니다.
- 미해결실전 데이터 사이언스 Part2. 데이터 전처리
n_step 값에 대하여
안녕하세요. n_step값에 대해 설명해 주 셨을때 과거 n일치 기온 데이터를 사용하여 내일 기온을 예측한다고 하셨습니다. 강의에서 본거처럼 n_step을 줄이면 큰 차이는 없지만 n_step을 계속올리고 300, 500, 700하면 R^2 값이 0.90 쯤까지 떨어지더군요. 그러면 predicted값하고 real값하고 더 차이가 많이 납니다. 왜 그런지 알 수있을까요?? 과거 데이터가 더 많을수록 score값은 떨어질수밖에없나요?
- 미해결실전 데이터 사이언스 Part2. 데이터 전처리
dir*.csv가 안됩니다.
안녕하세요. 주피터 노트북으로 In[48] 부분에서 각각 별도의 csv로 장하는걸 보고 싶은데 File "<ipython-input-105-e0d08ae92c5a>", line 4 dir*.csv ^ SyntaxError: invalid syntax이 부분이 안되네요.구글링 해봤는데 쓸만한 정보도 안나옵니다.dir*'.csv'도 해봤는데 안됩니다ㅠㅠ.윈도우10, 주피터 노트북 환경에서는 어떻게 해야될까요??
- 미해결실전 데이터 사이언스 Part2. 데이터 전처리
6 시그마 이상 outlier
안녕하세요. 6 시그마 이상인 값들은 이상치에 해당되는 샘플이라고 하셨는데 그 이유를 알 수있을까요? 수학적이라던지 아니면 통계학적으로라던지 근거를 알 수 있을까요?
- 미해결실전 데이터 사이언스 Part2. 데이터 전처리
로그변환에 대하여
안녕하세요. 로그변환에 대하여 궁금한게 있어 질문 남겨봅니다. 로그 변환을 한 데이터들이 모델이 학습해서 예측하기 좋아서 변환 시켜주는건가요? 로그변환을 안한 데이터를 학습하는거랑 accuracy/precision/f1 score등 차이가 나는지 궁금합니다. 또한 입력특성의 로그변환은 왜 하는지 궁금합니다. 다른 variable들은 로그변환 고려를 안하는건가요? (지하실면적 제외). 아니면 Trial and error을 통해 로그변환 하나씩 시켜보는게 더 효과적인건가요?
- 미해결실전 데이터 사이언스 Part2. 데이터 전처리
In[42] 14:50 코드 질문
안녕하세요 선생님. 질문이 너무 많아 죄송스럽네요..! 매번 질문에 답을 쉽게 이해할수있게 달아주셔서 감사합니다. 이번엔 좀 코드적인 부분에서 궁금했는데 # 가중치의 컬럼 이름을 확인하고 큰 값 순으로 정렬하여 보겠다 result = pd.DataFrame({'feature':X.columns,'weight':model.coef_[0].round(3)}) result.sort_values('weight', ascending=False, inplace=True) result 여기서 42번 cell에서 코드가 조금 이해가 안됩니다. feature이란 column은 X라는 우리 data에서 column을 가져온거 같고 weight은 어떤원리로 가져왔는지 모르겠습니다. model.coef[0]이라는게 41번째 cell에서 저희가 array로 본거중 0번째만갖고온다는게 무슨뜻인지 잘 모르겠습니다. array의 shape이 (1,12)인걸 알아냈고 여기에서 알아서 feature이랑 weight값 12개랑 자동적으로 매칭이 되나요? (즉, 순서가 다 있다는건가요?) 조금 질문이 난해한거 같네요.. 죄송합니다. 그리고 inplace=True는 뭐하는 함수인가요?
- 미해결실전 데이터 사이언스 Part2. 데이터 전처리
Titanic 데이터셋 PClass cateogrical -> one hot encoding
안녕하세요 선생님. 원핫 인코딩을 categorical data에서 무조건 사용하나요? 만약에 categorical data가 숫자가 아닌 문자(alphabet)이면 당연히 컴퓨터가 못이해하니 변환시켜주는건 맞다고 생각하는데 PClass 같은 경우는 1 2 3이고 벌써 숫자 data인데 굳이 one hot encoding을 써서 바꿔주는 이유가 있을까요?
- 미해결실전 데이터 사이언스 Part2. 데이터 전처리
표준 스케일링관련 문의
표준 스케일링에 대해 설명해주시는 과정에서 표준 스케일링이 곧 정규분포로의 변환을 의미하는건 아니라는 말씀을 주셨는데,통계적 지식이 충분하지 않다보니 그 부분이 잘 이해가 되지 않아서 문의드립니다. 표준스케일링 작업을 거칠 경우, 평균이 0, 분산이 1인 표준정규분포와 동일한 조건의 분포로 변환되게 되는데 정규분포로 변환된다는 뜻이 아니라는 거는 예외의 경우가 있거나, 특별히 유의해야하는 부분이 있어서 일까요?
- 미해결실전 데이터 사이언스 Part2. 데이터 전처리
6:14초 dataframe 스케일링한 후 컬럼 추가에 대한 질문
안녕하세요. 주피터노트북으로 따라하던 도중 에러가 났는데 어떻게 고칠줄 몰라 여쭈어봅니다. 37줄을 프린트하면 Key error가 납니다. # 키, 몸무게 데이터를 각각 표준 스케일링한 후 컬럼에 추가 df = df_raw.copy() # 백업 데이터 사용 (결측치 없는) df[:10] from sklearn.preprocessing import StandardScaler scale = StandardScaler() #make constructor - 하나의 객체를 만들었다. df["h_sc","w_sc"] = scale.fit_transform(df["height","weight"]) df[:5] KeyError: "None of [Index(['h_sc', 'w_sc'], dtype='object')] are in the [columns]" 이런 에러가 뜨는데 해결방법을 알 수 있을까여??