묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]
다르게 적용해보는 Feature Engineering2 강의 질문입니다
다르게 적용해보는 Feature Engineering2 강의의 15:13 부분에서 질문입니다강의에서는 mean_survival_rate = np.mean(df_train['Survived'])와 같이 df_train 데이터프레임 Survived 컬럼의 값에 대해 평균을 구하고이를 생존할 확률 이라고 정의하였습니다. 저는 Survived 컬럼의 값은 0과 1로만 이루어져 0은 사망, 1은 생존 이라는 의미를 나타내는 명목 척도로 이해하였는데요,이에 대해 평균을 내면서 값을 구하는 것이 확률로써의 의미를 가질 수 있다는 것이 조금 이해가 되지 않습니다.제가 잘못 받아들이고 있는 것인지 좀 더 보충 설명 해주시면 너무 감사할 것 같습니다!
-
미해결[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]
다르게 적용해보는 Feature Engineering2 강의에서 질문입니다
다르게 적용해보는 Feature Engineering2 강의의 15:11 부분부터 궁금한 점이 있어 질문 올립니다.해당 강의에서는 다음과 같이 2개의 리스트를 작성하였는데요family_survival_rate = list() family_survival_rate_NA = list()동승자가 있는지/없는지를 기준으로 2개의 리스트에 값을 각각 넣어준다는 전체적인 과정은 이해했지만, 사실 family_survival_rate_NA 리스트는 어떤 이유로 존재하는 것인지에 대한 설명이 조금 필요한 것 같습니다. family_survival_rate = list() mean_survival_rate = np.mean(df_train['Survived']) # 0.3838383838383838 for i in range(len(df_all)): if df_all['Family_Name'][i] in family_rates: # 동승자가 있는 경우 family_survival_rate.append(family_rates[df_all['Family_Name'][i]]) # family_rates[df_all['Family_Name'][i]] -> family_rates 딕셔너리에서 위의 이름들을 키 값으로 하고, 이에 해당하는 Survived 값을 찾음 else: # 동승자가 없는 경우 family_survival_rate.append(mean_survival_rate) 동승자가 있으면 family_survival_rate 리스트에 Survived 컬럼의 생존 확률을 넣고, 동승자가 없으면 family_survival_rate 리스트에 생존 확률의 평균값을 넣어주면 충분한 것 아닌가 하는 생각이 드는데요, family_survival_rate_NA 리스트가 어떤 용도로 사용되는 것인지, 그리고 왜 값은 0과 1만을 넣는 것인지 조금 더 설명해 주시면 감사할 것 같습니다!!
-
미해결비트코인 선물거래 자동매매 시스템(저자직강)
선생님 타지표 문의 드립니다.
혹시 실시간으로 zigzag 지표를읽어드리고 싶은데어떻게 불러서 사용해야 하는지 알려주시면 감사하겠습니다.
-
해결됨[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]
하이퍼 파라미터 튜닝 기법 적용하기1(XGBoost 실습) 강의에서 질문입니다
하이퍼 파라미터 튜닝 기법 적용하기1(XGBoost 실습) 강의에서 질문입니다.해당 강의 7:28 부근에서 pbounds에 들어간 하이퍼 파라미터에 대해 설명을 해주셨는데요,pbounds = { 'learning_rate': (0.01, 0.5), 'n_estimators': (100, 1000), 'max_depth': (3, 10), 'min_child_weight': (0, 10), 'subsample': (0.5, 1.0), 'colsample_bytree': (0.5, 1.0), 'gamma': (0, 5) # 'reg_lambda': (0, 1000, 'log-uniform'), # 'reg_alpha': (0, 1.0, 'log-uniform') }아래에 있는 reg_Lambda와 reg_alpha는 왜 주석 처리를 하고, 사용하지 않았는지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기 시험 삼수(12월 응시예정)인데, 첨으로 유료강의를 신청하여 듣게되었습니다ㅠ
제가 작년 10월에 필기를 합격하고, 첫 시험은 회사를 다닌다고 바뻐서 제대로 준비를 못했고 재수인 한달전 시험때는 대학원생 신분이 되어 너무나도 바쁘고 새로운 유형이 생겼는데 제대로 준비를 못하고 들어가서 떨어졌습니다. 시중에 나온 실기책 한권을 구매하여 보긴했으나, 구성도 엉망이고 별로여서 이대로는 잘못하다가 실기 2년 기한이 날아가버릴꺼 같아서 첨으로 빅분기 유료강의를 결제하였습니다. 데이터 진흥원 샘플문제에도 없던 회귀문제가 기출이 되었었는데, 제가 아직 강의를 듣진 않아서 다루시는지는 모르겠으나 향후 12월 시험전에 충분한 업데이트는 해주실 계획이시겠죠? 강의수를 보니 컴팩트하고 수강평도 보니 합격하신분들이 많아 신청하였습니다. 막상 시험장만 가면 2유형같은 경우에 머릿속에는 어렴풋히 프로세스가 있으나 막상 타이핑으로의 출력이 안되고, 1유형인 판다스도 매번 공식 cheatsheet를 찾아서 쓰는지라 익숙하지가 않은것 같습니다. help()함수를 써도 예시가 예상과는 다르게 나와서 활용을 못했던거 같아요. 기초부터 차근차근 강의대로 믿고 착실하게 따라 갈게요ㅠ 잘 부탁드리겠습니다
-
미해결비전공자를 위한 가장 쉬운 데이터분석 입문
가설5 검증준비의 '미세먼지'데이터
가설5 검증준비 강의에서 말씀하시는 미세먼지 데이터를 어디서 다운받을 수 있죠? 링크말고 데이터를 올려주신다고 하셨는데, 안보이네요 ㅠㅠ
-
미해결금융데이터 분석을 위한 판다스 활용법
DataFrame 강의 중 About NaN 질문입니다.
안녕하세요, 수업 잘 듣고 있습니다. 감사합니다.강의 중 DataFrame 값 중 NaN인 값의 날짜를 추출하는 방법이 있었습니다. 이 부분이 잘 이해가 안가서 질문을 드립니다.df_samsung_close.isna() 를 하게 되면, 삼성전자의 종가값이 있는 날은 False, 없는 날은 True이고 인덱스가 날짜인 데이터프레임이 조회됩니다. 따라서, df_samsung_close.isna().values를 하면 True와 False로 이루어진 numpy array가 출력됩니다. 이때 선생님께서는 df_samsung_close[df_samsung_close.isna().values].index를 이용해서 답을 찾으셨는데,일단 데이터프레임[np array]가 의미하는 바를 모르겠습니다. 데이터프레임[np.array(true, false,...)] 했더니 true인 값만이 조회가 되는 syntax가 잘 이해가 가지 않아서요.설명해주실 수 있나요?
-
미해결[리뉴얼] 처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화 전과정 익히기) [데이터분석/과학 Part1]
파일 절대경로 상대경로 질문있습니다
선생님csv파일 다루기 영상 공부하다가, 자꾸만 똑같이 따라했는데도 파일이 안열려서, 절대경로로 했더니열리더라고요근데 왜 상대경로는 안열리는지 너무 궁금합니다제가 캡쳐해서(1.절대경로,2.상대경로) 보내드리는데 ㅠ 절대경로 주소보시고 상대경로는 어떻게 찾아야 하는지 알려주시면 감사하겠습니다 ㅠㅠㅠㅠㅠㅠㅠ
-
미해결데이터 분석을 위한 판다스: 기초부터 데이터 분석까지
테이블 형태 변경 (long to wide)에서 질문이
강의보면서 똑같이 no2 = air_quality[air_quality['parameter'] == 'no2'] 입력하니까 오류가 아래처럼 나오는데 어떻게 하나요? --------------------------------------------------------------------------- KeyError Traceback (most recent call last) /usr/local/lib/python3.10/dist-packages/pandas/core/indexes/base.py in get_loc(self, key, method, tolerance) 3801 try: -> 3802 return self._engine.get_loc(casted_key) 3803 except KeyError as err: 4 framespandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() KeyError: 'parameter' The above exception was the direct cause of the following exception: KeyError Traceback (most recent call last) /usr/local/lib/python3.10/dist-packages/pandas/core/indexes/base.py in get_loc(self, key, method, tolerance) 3802 return self._engine.get_loc(casted_key) 3803 except KeyError as err: -> 3804 raise KeyError(key) from err 3805 except TypeError: 3806 # If we have a listlike key, _check_indexing_error will raise KeyError: 'parameter'
-
미해결공공데이터로 파이썬 데이터 분석 시작하기
강의
코렙에서 해도 괜찮나요?
-
미해결공공데이터로 파이썬 데이터 분석 시작하기
2023 버전
새로 출시된 버전으로 사용해도 문제 없나요?
-
미해결공공데이터로 파이썬 데이터 분석 시작하기
[17/20] 5:30~ concat 오류
합치기 전 데이터프레임이 강의와 같이 잘 완성되었는데concat에서 오류가 납니다한번 봐주세요!!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test_data로 평가할 때 pred 행 개수와 test 행개수 틀림
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요동영상: 26:30안녕하세요 trainset에서 tr, val 분류한 후 모델 설정 후 testset으로 roc_auc_score 평가를 하려고 함수를 적용했는데요pred의 행의 수와 test_set 행의 수가 다르다는 오류가 떠서요.선생님께서는 roc 평가를 할때 X_test[cols] 데이터와 X_val을 사용한 예측결과인 pred[:1]을 사용하셨는데 저는 그럼 행의 수가 다르다는 오류가 뜨네요ㅠㅠㅠ# XGBoost from xgboost import XGBClassifier xgb = XGBClassifier() xgb_fit = xgb.fit(X_tr[cols],y_tr) xgb_pred = xgb.predict_proba(X_val[cols]) from sklearn.metrics import roc_auc_score roc_auc_score(y_val,xgb_pred[:,1])# 평가 데이터로 예측 및 csv파일 생성 summit = pd.DataFrame({ "id" : X_test['id'], "income" : xgb_pred[:,1] }) summit.to_csv("1111.csv",index=False) ##############위 코드 작성으로 생긱 오류부분################ ValueError: array length 2931 does not match index length 3257
-
미해결제주 하간디 이신 데이터들 Python으로 몬딱 분석해불게
cleaning함수를 작성해서 데이터를 추리는 이유는 무엇인가요?
제주지역에 해당하는 데이터만 뽑는 과정을 def cleaning(location): if location == '제주': return location else: return np.nan로 하셨는데,raw_log[raw_log['지역(시도)']=='제주'].reset_index(drop=True)로 하면 안되나요? 혹시 함수를 작성하는 경우가 메모리 상에서 좀 더 효율적인건가요?
-
해결됨[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]
우도, 사후 확률 예제에 질문 있습니다
안녕하세요. 우도는 P(필기체 0 | 0) 으로 표기하고사후 확률은 P(0 | 필기체 0) 이라고 말씀 하셨는데요. 머신러닝으로 학습한 모델이 추론할 때는, 필기체0(원인)을 보고 이것이 0인지 판단(결과) 하므로,우도: P(0 | 필기체 0)사후 확률: P(필기체 0 | 0)이 되어야 하지 않는지 질문 드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오늘시험 작업형2 f1 score 관련 질문드려요
안녕하세요 강사님 오늘 시험 작업형2를 풀고 f1-score로 확인하려고 하는데 오류가뜨더라구요from sklearn.metrics import f1_score다했거든요 오류 내용이에버리지를 뭘 선택해라 라고 뜨더라구요(macro, None, 등등에서 택해라) 이런식으로 뜨던데 average =“macro” 써줫어야햇나요? 강의들을때는 저문구 안써도 됏던거같아서요csv 제출은 형식에 맞게했는데 검증을 못해서 불안하네요 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
유형2 채점기준 관련
안녕하세요 강사님,오늘 빅분기 6회 실기 시험을 치르고 나왔는데요 (생각보다 어려웠네요 ㅠ) 빅데이터 분석기사 2유형의 0점유형에'예측값 정확도가 평가지표 최저 구간 미만 : 0점' 이라고 적혀있는데,'평가지표 최저 구간'이라는 의미가 어떻게 되는지 알 수 있을까요? 분류 문제가 나와서 처음에는 RandomForestClassifier로 예측했고,요구하는 평가지표(f1-macro)로 돌려봤더니 train 데이터에서 분리(train_test_split)한validation 데이터 0.9이상이 나와서 과적합인 것 같아서강사님께서 얼마전 알려주신 lightgbm으로 바꾼 다음에 하이퍼파라미터 수정해보니0.8정도 나와서 분류 예측 후 제출하였습니다. 그런데 빅데이터 관련 카페 글 보니, 대부분 랜포로 돌린다음에 0.9이상인 상태에서분류 후 제출했다고 하네요 그러면서 빅데이터 카페에 어떤 분이 train 데이터에서 분리한 train 과 validation 데이터모두 평가지표가 높게 나오면 과적합이 아니라는 얘기를 들었습니다...ㅠ 평가지표 최저 구간이라는 의미가 각 모델의 하이퍼파라미터를 건드리지 않고그냥 모델을 예측했을 때의 평가지표 일까요? (예를 들면 LGBMClassifier의 하이퍼파라미터 없는 상태에서 0.9면 기준이 0.9가 되는건지...)이게 맞다면 저는 0점이겠네요..ㅠ, lightgbm도 아무런 하이퍼파라미터 없이는 0.9이상이였거든요.. 무튼, 덕분에 많은 것들 배울 수 있어서 감사했습니다! +글 작성후 추가구글 Bard 한테 물어봤더니... train, validation 데이터 모두 0.9 이상 인 경우 과적합으로 볼 수 있냐는 질문을 했더니 아래와 같이 답변이 나오기는 했네요..<답변>네, train 데이터와 validation 데이터 모두 해당 모델에 대한 평가지표가 0.9인 경우에도 과적합이 발생할 가능성이 있습니다. 과적합은 모델의 복잡성이 너무 높아서 train 데이터에만 적응하는 상태를 말합니다. train 데이터와 validation 데이터 모두 해당 모델에 대한 평가지표가 높다는 것은 모델이 train 데이터에 너무 적응하여 그 외의 데이터에는 제대로 대응하지 못하는 상태일 가능성이 높습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Train 데이터 학습 관련
시험 전에 여쭤봤어야 하는 질문인데 뒤늦게 여쭤보네요 Train test split 사용하여 tr 과 val 로 나누어서 model.fit 하여서 f1 score 확인 하였고그 이후에 test 를 바로 predict 하여 제출 하는게 아니라혹시 Tr 과 val 을 나누기 전의전체 train 데이터로 다시 fit 시켜서그 모델로 Test 데이터 를 predict 해도 되는지 궁금 합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
타임델타 관련
6회 시험 1 유형 1번타임델타 사용 질문입니다_m_s로 분과 초를 추출했는데위쪽에 위치한 프린트문 주석처리 여부에 따라아래쪽에 출력한 저의 답의 결과가 달랐습니다 ㅠ뭐가 문제였을지 궁금합니다 ㅠ참여데드라인 넘기고 공부시작하는바람에캐글 오징어게임 톡방에도 못들어가서 이런 얘기 여쭤볼데가 없네요 ㅠ시험중 1대1문의에 물어보니 첨엔 컴퓨터 오류 아니라구 하다가 재차 물어보니 해당내용 확인중이라고하구 그냥 답을 제출하라그래서 찾은 답을 프린트하는 하드코딩으로 제출했습니다 ㅠㅠㅠ 흑....0점 처리되는거 아닌지 걱정되네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이 에러는 무슨 에러인가요?
무슨 에러인가요?