묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2번 문제 전처리 부분을 원핫인코딩한다면?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형2번 문제 전처리 부분을 원핫인코딩한다면 어떤 코딩으로 써야하나요? 답변부탁드립니다. 원핫으로만 하려고하는데 다양하게 알려주셔서 더 헷갈려서요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경 체험링크
올라와있는 시험환경 체험링크의 문제 내용이랑 강의내용에 있는 문제 내용이랑 다른데 어떻게 해야 하나요? csv 파일도 다릅니다.그리고 구글 코랩에 올라와있는 링크도 404 에러가 뜨네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제2번 질문있습니다!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요cond1 = df['구분'] = '발생건수' cond2 = df['구분'] = '검거건수' df1 = df[cond1] df2 = df[cond2] df2 이렇게 입력했는데 --------------------------------------------------------------------------- KeyError Traceback (most recent call last) /usr/local/lib/python3.12/dist-packages/pandas/core/indexes/base.py in get_loc(self, key) 3804 try: -> 3805 return self._engine.get_loc(casted_key) 3806 except KeyError as err: index.pyx in pandas._libs.index.IndexEngine.get_loc() index.pyx in pandas._libs.index.IndexEngine.get_loc() pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() KeyError: '발생건수' The above exception was the direct cause of the following exception: KeyError Traceback (most recent call last) 2 frames /usr/local/lib/python3.12/dist-packages/pandas/core/indexes/base.py in get_loc(self, key) 3810 ): 3811 raise InvalidIndexError(key) -> 3812 raise KeyError(key) from err 3813 except TypeError: 3814 # If we have a listlike key, _check_indexing_error will raise KeyError: '발생건수' 왜 발생건수에 대한 오류가 뜨는거죠? 정말 샅샅히 오류를 찾아봤는데 선생님이 하신거랑 똑같이한거같은데 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pvalue값
문제에서 만약 pvalue나 회귀계수에서 가장 작은 변수를 구하라고 하면 절댓값 기준으로 구하는게 맞을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표 사용
선생님 안녕하세요. 여러 모델을 외우기 힘들면 랜덤포레스트 하나로 가도 된다고 말씀해주셨는데,그렇게하면 평가(RMSE, ...)를 하는게 의미가 없다고 생각하는데요.평가자체를 하지 않고 랜덤포레스트 모델로 학습시켜 바로 예측하여 제출해도 문제가 없는걸까요? 그리고, 연습문제 저 혼자 풀어보고 선생님 파일이랑 대략 비교해보고싶은데, 어떻게 비교 또는 확인해볼 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오버피팅? 클라이언트넘버를 지우는이유
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요 해당 영상 11분30초에 클라이언트 넘버를 지우는게 이해가 잘안가는데요. 나중에 타겟인 Attrition_Flag는 지우고 비교하는 이유를 알겠지만 CLIENTNUM 얘는 왜 드랍하나요? 그냥 암기로CLIENTNUM,Attrition_Flag 788544108,0.633 719356008,0.123 712142733,0.355 이런 제출형식에서 타켓이 아닌 그 외에 것은 학습에 도움이 안되니 드랍한다. 라고 외워도 될까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이 컬럼은 왜 삭제하는건가요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 1회문제에서는 오브젝트인 컬럼들만 모아서 드랍하는건 이해가 됐는데 강의에서 그냥 데이터가 많다고 해당 열을 삭제하는건가요? 삭제하는이유가 명확하게 제가 이해를 못해서 알려주시면 감사하겠습니다cols = ['name', 'host_name', 'last_review', 'host_id'] print(train.shape) train = train.drop(cols, axis=1) test = test.drop(cols, axis=1) print(train.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예측및제출할때 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 해당문제에서 ROC-AUC, 정확도(Accuracy), F1, 정밀도(Precision), 재현율(Recall)을 구하시오 라고 나와있는데 선생님 노트북을 보면 결국마지막엔 predict_proba로 roc_auc에 대한 평과결과만 실제 테스트 예측한거 아닌가요? 아직 실기가 어려운 왕초보입니다 ㅠㅠ
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표 결과값이 불안정해요
데이터 분리 단계의 random_state 값을 10, 50, 100, 200, 2022 등등 여러바꾸어보았는데 r2값의 편차가 큽니다.심하면 음수값도 나오고, 높아봐야 0.3정도 수준까지 나와요.(제공해주신 코드 그대로 쓰면 0.3에 근접하게 나오나, random_state값만 바꿔도 전반적으로 떨어집니다) 내가 뭘 잘못했나 하면서.. 혼자서 몇 시간 동안전처리 단계에서 nunique 수가 많은 object 컬럼을 추가적으로 제거해도 마찬가지고인코딩 단계에서 one-hot과 label을 바꾸어가며 써봐도 마찬가지고모델학습 단계에서 하이퍼파라미터값을 조정해봐도 마찬가지입니다... gpt로도 요리조리 돌려봤는데 애초에 데이터의 질 자체가 나쁘면(편차가 큰 경우 등) 코드를 아무리 수정해봐야 평가값 결과가 불안정하게 나온다고 하는데 제가 뭘 잘못하고 있는건지, 해당 문제의 데이터에 문제가 있는건지 궁금해요. 그리고 이런 경우 실전에서도 이대로 풀이를 하고 제출해도 문제가 없을까요? randomstate 값만 바꿔가다가 train 데이터에서 결과 좋은 걸 찾아 끼워 맞춰봤자, test 데이터에서는 또 전혀 다른 결과가 나올 것 같아서요(코드를 제가 잘못짰나 싶어서 공유된 코드 그대로 써도 마찬가지입니다.. random_state값 조금만 바꿔도 평가결과값이 크게 떨어짐)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모의고사(작업형1) 시험환경 체험링크가 안 들어가집니다
회원가입 하고 링크 눌렀는데 "페이지를 찾을 수 없습니다."이렇게 나옵니다 어떻게 해야하나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 질문
안녕하세요작업형 2 모의문제1 강의에서 CLENTNUMBER를 삭제하는게 좋다고 하셨는데, 그럼 이와 유사하게 ID도 항상 삭제하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 기출유형(작업형2) 원핫인코딩 기준 코드 알려주실수있을까요
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요레이블인코딩말고 원핫인코딩으로만 통일해서 하려고 하는데 코드좀 알 수 있을까요 df = pd.concat([X_train, X_test]) df = pd.get_dummies(df) X_train = df.iloc[:len(X_train)] X_test = df.iloc[len(X_train):] print((X_train.shape, X_test.shape)) 이렇게 하면 될까요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 1유형 1번 질문입니다
선생님 가장 많이 수강한 과목을id = df['id_assessment'].value_counts() 까지만 해서 찾아서 (id=12)답을 적어도 된다하여 거기까지만 작성하고 문제를 풀면 최종답은 (1.732)나옵니다.필터링한 코드가 다 들어가야 2.183이 나오구요~다 작성해야하는건가요 ~(1.732 나온 코드입니다)import pandas as pddf = pd.read_csv("student_assessment.csv")print(df.head())#print(df.shape)df= df.dropna()#print(df.shape)id = df["id_assessment"].value_counts()#print(id)from sklearn.preprocessing import StandardScalerscaler = StandardScaler()df["score"]= scaler.fit_transform(df[["score"]])print(round(df["score"].max(),3))
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형1] 연습문제 12번 문제
안녕하세요.[작업형1] 섹션12번 문제에서 두번째 지시문에 결측치가 있는 데이터(행)을 삭제하라고 되어있는데 답안 내의 주석에는 컬럼 자체를 삭제하도록 해설이 되어있습니다. 답에는 차이가 없으나 저의 문제 이해력이 부족한건지 궁금하여 문의드립니다. 문제)해설)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출유형 작업형1 마지막문제
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 마지막 범죄 건수 계산문제 질문드립니다.수업 자료에 있는 코드와 아래 작성된 코드에서 어떤 차이가 있어서 결과가 다르게 나오는 것인지 문의드립니다. df['연도'] = df['날짜'].str[:4] df['월'] = df['날짜'].str[6:8] df['총합'] = df['강력범죄'] + df['절도범죄'] +df['폭력범죄'] +df['지능범죄'] +df['풍속범죄'] +df['교통범죄'] #월평균값이 가장 큰 연도 찾기 result = df.groupby(['연도','월'])['총합'].sum() result.head() #연도별로 총 범죄 건수(범죄유형의 총합)의 월평균 값을 구한 후 그 값이 가장 큰 연도를 찾아, 해당 연도의 총 범죄 건수의 월평균 값을 출력하시오. result2 = result.groupby('연도').mean() result2 = result2.sort_values(ascending = False) result2 #23년도 print(df.groupby('연도')['총합'].mean())
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요train = train.drop('id', axis=1) test_id = test.pop('id') 왜 트레인은 axis를 넣는데 테스트아이디는 저걸 넣지 않을껄까요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가모델을 하나로 통일하면안될까요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 작업형2에서 평가점수를 높이기 위해 선형회기 랜덤포레스트 xgb등을 써보면서 높은 점수를 선택하셨던데, 제가 완전 초보여서 시험장에서 그럴여유가 있을지 모르겠습니ㅏㄷ... 그래서 그냥 랜덤포레스트 하나만 달달 외워서 만능으로 쓰면 안될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4. 일원 분산 분석 에서 귀무가설을 채택하는 이유가 무엇일까요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요p_value가 0.05보다 적으니 귀무가설을 기각하고 대립가설을 채택한다고 생각했는데 귀무가설을 채택한다고 해서 제가 잘못 이해한건지 궁금합니다 stats.f_oneway(df[cond1]['scores'], df[cond2]['scores'], df[cond3]['scores'], df[cond4]['scores']) from statsmodels.formula.api import ols from statsmodels.stats.anova import anova_lm model = ols('scores ~ groups', data = df).fit() print(anova_lm(model))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 연습문제 22번 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요Section 22. 시간 간의 차이 계산(분), 그룹핑앱 종류별로 평균 도착 시간(분)을 계산하시오. -> 아래는 코랩에 올라온 코드인데요 # 실제 도착시간과 주문시간 차이 계산(분) df['diff'] = (df['실제도착시간'] - df['주문시간']).dt.total_seconds()/60 # 앱종류별 도착시간과 주문시간 차이의 평균 계산 df = df.groupby('앱종류')['diff'].mean()앱종류별 평균도착시간을 구하려면 아래처럼 쓰이는게 맞지 않나 싶어 문의드립니다. df= df.groupby('앱종류')['실제도착시간'].mean()
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출9회 작업형 1 1번 3번
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요1번에서는 두 조건이 맞는 그룹화를 다음과 같이 코딩하셨는데요 왜 3번에는 transform함수가 붙나요?? 두 경우 모두 두가지로 그룹화한다는 점에서 같아 보이는것 같아서 이해가 잘 안됩니다..! #1번 df=df.groupby(['지역코드','성별'])['총대출액'].sum().unstack() #3번 gm=df.groupby(['부서', '성과등급'])['근속연수'].transform("mean")