묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 시 저장/제출 관련하여 궁금합니다!
작업형 1,2,3 문제 풀이 순서는 상관이 없나요? ( 잘 안풀릴 경우 다음 문제로 넘어갔다가 다시 되돌아와서 푸는 것이 가능한가요? ) 작업형 1,2,3 모두 저장해가면서 풀면 되는건가요?데이터자격검정 사이트에서 올려준 시험 관련 사항 파일을 보면 작업형 2에만 저장 관련하여 언급이 되어있어서 헷갈려서요:) 또, 작업형 유형 상관 없이 제출을 이미 눌렀어도 다시 수정하고 제출하면 마지막 제출만 인정되는 것 맞나요?셋 다 모두 비슷한 질문이긴 하지만 시험장에 확실히 알고 가고 싶어서 질문 드립니다:)항상 감사드립니다 !!😊😊
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 질문있어요
세 가지 질문이 있는데요..1) 이 문제 해결에 있어서 train_test_split은 하면 좋지만 굳이 안해도 되는 내용이 맞나요?2) 아래와 같이 x_train, y_train 으로 학습을 하고 x_test에 대해서 예측을 하면 될까요?3) 문제에서 보면 roc_auc_score로 평가한다 했는데, 이건 출제자가 평가하기 때문에 이 문제상에서는 단순 확인 및 학습을 위해 써본거지 답에는 필요 없었던 부분이 맞을까요? model = RandomForestClassifier(random_state=2022) model.fit(X_train, y_train) pred = model.predict_proba(X_test) submit = pd.DataFrame( { 'cust_id':cust_id, 'gender':pred[:,1] } ) from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(random_state=2022) model.fit(X_tr, y_tr) pred = model.predict_proba(X_val) # 검증 데이터 셋으로 평가 from sklearn.metrics import roc_auc_score roc_auc_score(y_val, pred[:,1]) # test 데이터 예측 pred = model.predict_proba(X_test) pred # 데이터 프레임 만들기 submit = pd.DataFrame( { 'cust_id':cust_id, 'gender':pred[:,1] } )
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 기출유형 (작업형2) 강의 코드 질문
# 데이터 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") target = train.pop('price') from sklearn.preprocessing import LabelEncoder cols = train.select_dtypes(include='object').columns le = LabelEncoder() for col in cols : train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor(random_state = 0) rf.fit(train, target) pred = rf.predict(test) submit = pd.DataFrame({'pred': pred}).to_csv('950326.csv', index=False) from sklearn.metrics import mean_squared_error def rmse(y_true, y_pred): return mean_squared_error(y_true, y_pred)**0.5 print(pd.read_csv('950326.csv')) y = pd.read_csv("y.csv") print(rmse(y, pred))안녕하세요, 5회 기출유형 풀면서 코드 질문 드립니다.제가 나름 최소한 이 정도는 작성해서 제출해야겠다 마음먹으면서 작성한 코드입니다.작성해주신 rmse 함수에 넣어보니까1418.5216392812827라는 수치가 나와서 train_test_spilt은 하지 않아도 될 것 같은데, 괜찮을까요?물론 남은기간 공부하면서 익숙해지면 train_test_split도 진행할까 생각중이긴 합니다 ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 기출유형(작업형2)에서 불필요한 컬럼(ID)제거시 오류
안녕하세요~ ㅠㅠ오늘도.. 강의를 복습하며 오류와의 싸움중입니다 ㅠㅠX_train = X_train.drop('ID',axis=1) X_test_id = X_test.pop('ID')다름이 아니고 불필요한 컬럼을 제거하는 과정에서 오류가 자주 발생하는데, 위 작업 진행 후 실행 -> 라벨인코딩 등 다른 코드 입력 후 재실행 할 경우 ID 컬럼이 이미 사라졌는데 또 실행되다보니(?) ID 컬럼은 찾을수 없다 라는 오류로 해석됩니다 ㅠㅠ ----> 4 X_train = X_train.drop('ID',axis=1) 5 X_test_id = X_test.pop('ID') KeyError: "['ID'] not found in axis"1) 위와 같은 오류는 어떻게 해결해야하나요?2) 불필요한 컬럼을 삭제하는 과정은 꼭 필요한건가요? 3) X_train = X_train.drop('ID',axis=1) 의 경우 'X_train'에서 id 컬럼을 드랍한다 라고 이해했는데, X_test_id = X_test.pop('ID') 는 'X_test_id' 라는 새로운 곳에 X_test의 ID 컬럼을 저장한다? 로 이해하면 되는건가요? ㅠㅠ (이 질문을 하는 이유는 이전 예시문제 강의에서는 컬럼 명을 그대로 사용하여 cust_id = X_test.pop('cust_id') 로 사용했으나, 이번 강의에서는 ID = X_test.pop('ID') 가 아닌 'X_test_id'를 이용했기떄문입니다 ㅠㅠID = X_test.pop('ID') 요렇게 하면 안되나요? )
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
1일 확률, 0일 확률 관련
predict_proba의 결과는 무조건 1일 확률로 주는건가요? y_tr 에 0 과 1 로 되어 있는데 pred_proba 변수로 받아지는 확률예측값이 0과1중에 1일확률인줄 어떻게 아는건가요...?만약 y_tr 이 1과2로 되어 있으면 predict_proba는 어떻게 처리하나요...? 항상 감사드립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
제출할때는 random_state 지워야 하는지 궁금합니다
모델링 중에는 random_state 넣은 상태로 피처엔지니어링의 효과를 확인을 하는 점은 이해했는데요, 나중에 csv 만들어서 제출할때에는 random_state값은 지운 모델로 학습시켜서 예측한 결과를 제출해야하나요? random_state값으로 뭘 넣는지에 따라 학습이 많이 달라진다면 영향이 있는건지 해서요 이상할수도 있는 질문들도 잘 대답해주셔서 항상 감사하고 있습니다 !!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
구름 환경 제출 질문
1유형이랑 3유형은 답안 print()이외에 다른 print() 들은 주석처리하고 한번 더 실행시켜서 실행결과에 답만 뜨도록 한 후 제출 클릭하면 되는 걸까요?2유형도 csv파일 만들고 그외에는 다른 print()들은 주석처리하고 한번 더 실행시켜서 제출클릭하면 되는 걸까요?테스트케이스는 언제 쓰는 건가요?구름환경에서 코드를 돌려보면 1줄당 어느정도 돌아가는지 시간이 나오지 않고 전체코드가 몇 초안에 돌아가는지 시간이 나오던데 1줄 당 1분 내인가요? 아니면 전체코드가 1분 내에 돌아가야 하는 건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
object 데이터 인코딩 관련 질문
안녕하세요 선생님공부중인데 질문이 생겨서 글 적습니다.object 타입의 컬럼들을 cols라는 변수에 담고, 각각의 범주의 개수에 따라 라벨인코딩, 원핫을 진행하는 것으로 이해하고 있습니다. 보통 cols로 일괄적으로 처리했습니다. 그런데 범주의 개수가 많거나 적은 경우에 따라 일부는 라벨 인코딩, 일부는 원핫인코딩으로 처리하는 방식이 가능한가요? 아니면 항상 일괄적으로 처리해야 할까요?object 타입을 인코딩 하지 않고 그대로 머신러닝 할 수 없는 것으로 알려 주셨는데(인코딩을 하지 않으면 drop 후 모델 훈련을 시켜야 된다고 하셨던 것으로 기억합니다), 제가 기억하고 있는 바가 맞는지, 맞다면 그 이유가 궁금합니다.작업형3 관련 강의 업로드 일정이 궁금합니다. 강의 다 듣고 캐글가서 연습하려구요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2
안녕하세요 강사님.작업형2 확률 데이터를 구하는 문제에서문제 예시와 직접 출력한 데이터의 소수점 자릿수 차이가 많이 나는데 이대로 제출해도 상관이 없을까요?그리고 소수점 자릿수가 많이 출력 되는 이유는 무엇인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 최종 타겟 데이터 관련 질문
안녕하세요. 질 좋은 강의 덕에 이제 작업형2를 나름 능숙하게 잘 수행하고 있습니다.다만 최종 데이터를 선택하는 방법이 헷갈리네요. 최종 예측결과가 2개의 컬럼으로 표현될 때그냥 하던대로 pred[ : , 1]로 roc_auc_score를 확인하고 있는데요. 첫번째 컬럼으로 제출해야되는 상황이 문제에 따라 생길 것 같은데문제에서 설명해주는 내용이 조금 난해합니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
T1-9 코드
import pandas as pd import numpy as np df = pd.read_csv('../input/bigdatacertificationkr/basic1.csv') mean = df['f5'].mean() std = df['f5'].std() standard = (df['f5'] - mean) / std print(standard.median()) 강사님 위와같이 Z정규화 공식을 직접 만들어 대입했는데 풀이의 정답과는 유사하지만 소수점이 살짝 다르게 나옵니다. 제 공식이 잘못된걸까요?제 풀이의 정답: 0.2593132572746011풀이 정답: 0.260619629559015
-
미해결[리뉴얼] 처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화 전과정 익히기) [데이터분석/과학 Part1]
orders에는 있느나 payments에는 없는 order_id
안녕하세요, 선생님.평균거래액과 관련해 데이터를 확인하던 중 거래 기록과 지불 기록이 일치하지 않는 order_id가 있는 것 같아 아래와 같이 확인해보았습니다.unique order_id 개수 확인: orders와 payments의 'order_id'에서 유니크한 값의 개수를 확인해보니 각각 99,441개와 99,440개로 나왔습니다.print(orders['order_id'].nunique(), payments['order_id'].nunique()) results: 99441 99440가정) orders 기록에는 있으나 payments에서 누락된 데이터가 1개 있다payments 누락 order_id 확인missing_values = ~orders['order_id'].isin(payments['order_id']) missing_values_in_order = orders['order_id'][missing_values] missing_values_in_order results: 30710 bfbd0f9bdef84302105ad712db648a6c확인된 내용) 'bfbd0f9bdef84302105ad712db648a6c'는 oreders에는 있으나 payment에서는 누락된 'order_id'이다order_id가 'bfbd0f9bdef84302105ad712db648a6c' 인 값의 세부사항 확인확인된 내용) 'bfbd0f9bdef84302105ad712db648a6c' 거래는 '2016-09-15'의 order이고, order_item에서도 거래액을 확인할 수 있으나, payments 기록에서는 확인할 수 없다Q1) 상기의 데이터 확인 과정이 적절한지 여쭤보고 싶습니다.Q2) 이런 경우는 아마도 거래 기록은 있고, 거래 금액까지는 있으나 이후에 취소가 되었거나 등으로 payments에서 삭제된 데이터로 추측할 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
dir(), help(), __all__
기존 강의에서 dir(), help(), all 사용법을 알려주셨는데요작업형2에서는 유용히 사용할 수 있을것 같은데작업형1에서는 어떻게 사용 가능할까요? 제가 1-3문제를 푸는도중 to_datetime 함수가 생각나지않아 dir(), help(), all 방식을 사용하여 찾아보려했는데 계속 오류가 떠서요. 혹시 작업형1에서 위와 같은 함수가 생각이 안날때 dir(), help(), all를 쓰는 방법을 알 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
피처엔지니어링 질문드립니다
아직 모든 강의를 다 들은 것은 아니여서, 혹시 뒤에 있는 강의 내용 중에 제 질문에 대한 답이 있을 지는 모르겠지만 우선 질문 드립니다.피처엔지니어링 방법을 바꿔가면서 모델링 평가지표가 좋게 나오는 방향으로 선택해야한다는 것은 이해하였습니다.제가 아직 공부를 많이하지는 않았지만 categorical 에는 (1) 적용안함 (2) 전부drop (3) 라벨인코딩, (4) 원핫인코딩 , numerical 에는 (1) 적용안함 (2) 민맥스 (3) 스탠다드 (4) 로버스트 스케일러가 있는 것으로 알고 있는데요.[질문 1][질문 1-1] 데이터 타입 별로 그냥 한가지 피쳐엔지니어링 방법을 적용한다고 해도, 4 x 4 = 16 가지 조합이 나오는 것 같은데요, 시험 중에 16가지 조합을 전부 시도해보시는지 궁금합니다. 적용안하는 선택지를 제외하면 9가지 인데, 9가지 조합을 다 해봐야할까요? [질문 1-2 ] 아니면 그냥 스케일러 같은 경우는 무조건 로버스트를 쓴다고 생각해버려도 될런지도 궁금합니다. [질문 2]필드 별 다르게 적용해야하는 문제도 나온적이 있나요? 예를 들어 A 컬럼도 numerical 이고 B 컬럼도 numerical 일 때, A 컬럼엔 민맥스 적용 B 컬럼엔 로버스트 적용 하는게 정답인 케이스 같은게 있나 해서요. 잘 몰라서 드리는 질문일수도 있습니다 ㅠ 이렇게까지 해야하는 문제는 안나온다고 생각해도 될까요? [질문 3]describe() 결과를 보고 어느 피쳐엔지니어링을 사용하면 좋겠다는 판단이 올수있을까요? 혹시 몇가지 판단요소나 꿀팁같은게 있는지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 시험장에서 제출할떄
안녕하세요실제 시험장에서 작업형2를 풀때 관련 질문인데요pd.DataFrame({'index': test.index, 'target': pred}).to_csv('003000000.csv', index=False)이와 같이 to_csv 이후에 read_csv도 포함한 코드를 제출해야하나요? 아님 read_csv는 눈으로만 확인해보고 실제 제출할때는 지워서 제출하면될까요? 작업형 2를 풀때 문제에 써져있는 평가지표있잖아요이런거---->> (제출한 모델의 성능은 F1평가지표에 따라 채점)이런식으로 나와있으면 ## 평가from sklearn.metrics import f1_scoref1_score(y_val, pred) 이렇게 꼭 포함시켜야 하나요? 그리고 포함시켜야한다면 이를print(f1_score(y_val, pred))로 출력도 해야하나요? 코랩에서 연습할때는 전부 성능평가까지 코드짜면서 연습해봤는데 실제 시험장에서는 어디까지 코드를 짜야할지가 헷갈려서요!좋은 강의 감사드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2 오타 질문
안녕하세요 선생님,첫번째 질문작업형2 모의문제2를 수강하고 있습니다.regressor = RandomForestRegressor()로 정의했다면,밑에서 fit하는 것도 regressor.fit(X_tr, y_tr)로 정의하는게 맞는지 질문드리려고 합니다.현재 노트에는 model로 정의가 되어 있습니다.두번째 질문수강하다가 보면 선생님께서 강의중에(아마 분류문제) 이정도 정확도?가 나왔으면 추가적으로 피처 엔지니어링이 필요 없이 그냥 제출해도 될 것 같다~ 라고 말씀을 하실 때가 있는데, 이 기준이 궁금합니다. 어느 정도여야 점수를 충분히 받는지,예측에 있어서도 지표로 이런 판단이 가능한지 궁금합니다. 3.세 번째 질문작업형2 모의문제 3을 듣고 있습니다.xgboost 하이퍼파라미터 에 대해서 설명을 듣고 있는데, xgbclassifier의 max_depth의 디폴트는 3이라고 max_depth=3을 설정했을 때와 설정하지 않았을 때 값이 같음을 비교해주셨습니다.그런데 제가 작성했을 때는 max_depth=3을 넣고, 안넣고 했을 떄 값이 다르게 나오는데, 혹시 왜 그런지 아실까요..?(검색했을 때도 xgboost 디폴트 max_depth=3이라고 나와서 말씀해주신게 맞을 것 같은데..) 감사합니다.
-
미해결비트코인 알고리즘 트레이딩 봇 개발
바이낸스 오픈 API 깃허브 링크
안녕하세요! 강의 너무 잘 보고 있습니다.혹시 바이낸스 오픈 API를 제공하는 깃허브링크로 갔는데 삭제된 링크 인것 같습니다. https://github.com/Binance-docs/Binance_Futures_python다른 깃허브 페이지로 옮긴걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 스케일링 등 필수로 해야 하나요?
안녕하세요, 덕분에 큰 도움 받고 있습니다.분류나 회귀를 하다보면 간혹 인코딩/스케일링을 진행하지 않은 경우에서 결과값이 더 좋을 때가 있는데요. 실제 시험(작업형 2유형)에서 이런 경우라면, 인코딩/스케일링을 하지 않는다고 감점요인이 될 수 있을까요?결과값만 좋으면 인코딩/스케일링을 진행하든 하지 않든 큰 문제 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
유형 3 제출 포멧 질문
작업형3은 귀무가설을 기준으로 검정의 결과를 (채택/기각) 합니다.이 말이 귀무가설을 채택하는지, 기각하는지 적어야 하는 건가요? ttest 의 경우 p value가 유의수준 0.05 보다 작게 나와서 대립가설이 채택되는 경우정답은 귀무가설을 기각한다. 라고 해야하는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩 차이점
kaggel T2-1 풀이 중 궁금한 사항이 있어 문의 드립니다. 0 PassengerId 712 non-null int64 1 Pclass 712 non-null int64 2 Name 712 non-null object 3 Sex 712 non-null object 4 Age 575 non-null float64 5 SibSp 712 non-null int64 6 Parch 712 non-null int64 7 Ticket 712 non-null object 8 Fare 712 non-null float64 9 Cabin 170 non-null object 10 Embarked 711 non-null object 작성한 풀이train = pd.get_dummies(X_train, columns=features)test = pd.get_dummies(X_test, columns=features)train.shape, test.shape #((712, 26), (179, 25))해설지 풀이features = ["Pclass", "Sex", "SibSp", "Parch"]X = pd.get_dummies(X_train[features])test = pd.get_dummies(X_test[features])X.shape, test.shape ##((712, 5), (179, 5)) 제 풀이는 원핫인코딩처럼 안된 이유가 무엇일까요..?