묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 사용법
캐글에 올려주신 연습문제를 풀어보려고 합니다. 시험처럼 통으로 된 부분을 새로 풀어보고 싶은데 가려지지도 않고 코랩으로 데이터를 불러오려고 해도 불러지지 않네요. 방법이 있을까요?? 미리 감사드립니다!
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9회 작업형3 기출문제 질문
9회 작업형 3유형 1번문제에서 train, test로 데이터를 분리시키는 이유가 무엇인가요? 어떤 경우에 나눠서 진행해야 하는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
ID 삭제는 굳이 왜 하는걸까요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요train = train.drop("ID", axis=1) train.head(1)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
a, df
강사님은 a로 작업하셨는데 df로 작업해도 문제가 없는건가요? df로 했을 때 답이 나오긴 했는데 실제 시험장에서도 문제가 없을지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출 작업형 2 질문
4회 기출 작업형2에서 해설처럼# test데이터 ID 복사 test_ID = test.pop('ID') test_IDtest_ID를 따로 분리하지 않고 아래처럼 test['ID'] 이렇게 작성해도 같은 결과값이 나올까요?pred = model.predict(test) result = pd.DataFrame({'ID' : test['ID'] , 'Segmentation' : pred }) result.to_csv('result.csv', index = False) print(pd.read_csv('result.csv'))
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2번 문제 전처리 부분을 원핫인코딩한다면?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형2번 문제 전처리 부분을 원핫인코딩한다면 어떤 코딩으로 써야하나요? 답변부탁드립니다. 원핫으로만 하려고하는데 다양하게 알려주셔서 더 헷갈려서요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경 체험링크
올라와있는 시험환경 체험링크의 문제 내용이랑 강의내용에 있는 문제 내용이랑 다른데 어떻게 해야 하나요? csv 파일도 다릅니다.그리고 구글 코랩에 올라와있는 링크도 404 에러가 뜨네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제2번 질문있습니다!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요cond1 = df['구분'] = '발생건수' cond2 = df['구분'] = '검거건수' df1 = df[cond1] df2 = df[cond2] df2 이렇게 입력했는데 --------------------------------------------------------------------------- KeyError Traceback (most recent call last) /usr/local/lib/python3.12/dist-packages/pandas/core/indexes/base.py in get_loc(self, key) 3804 try: -> 3805 return self._engine.get_loc(casted_key) 3806 except KeyError as err: index.pyx in pandas._libs.index.IndexEngine.get_loc() index.pyx in pandas._libs.index.IndexEngine.get_loc() pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() pandas/_libs/hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() KeyError: '발생건수' The above exception was the direct cause of the following exception: KeyError Traceback (most recent call last) 2 frames /usr/local/lib/python3.12/dist-packages/pandas/core/indexes/base.py in get_loc(self, key) 3810 ): 3811 raise InvalidIndexError(key) -> 3812 raise KeyError(key) from err 3813 except TypeError: 3814 # If we have a listlike key, _check_indexing_error will raise KeyError: '발생건수' 왜 발생건수에 대한 오류가 뜨는거죠? 정말 샅샅히 오류를 찾아봤는데 선생님이 하신거랑 똑같이한거같은데 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pvalue값
문제에서 만약 pvalue나 회귀계수에서 가장 작은 변수를 구하라고 하면 절댓값 기준으로 구하는게 맞을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표 사용
선생님 안녕하세요. 여러 모델을 외우기 힘들면 랜덤포레스트 하나로 가도 된다고 말씀해주셨는데,그렇게하면 평가(RMSE, ...)를 하는게 의미가 없다고 생각하는데요.평가자체를 하지 않고 랜덤포레스트 모델로 학습시켜 바로 예측하여 제출해도 문제가 없는걸까요? 그리고, 연습문제 저 혼자 풀어보고 선생님 파일이랑 대략 비교해보고싶은데, 어떻게 비교 또는 확인해볼 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오버피팅? 클라이언트넘버를 지우는이유
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요 해당 영상 11분30초에 클라이언트 넘버를 지우는게 이해가 잘안가는데요. 나중에 타겟인 Attrition_Flag는 지우고 비교하는 이유를 알겠지만 CLIENTNUM 얘는 왜 드랍하나요? 그냥 암기로CLIENTNUM,Attrition_Flag 788544108,0.633 719356008,0.123 712142733,0.355 이런 제출형식에서 타켓이 아닌 그 외에 것은 학습에 도움이 안되니 드랍한다. 라고 외워도 될까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이 컬럼은 왜 삭제하는건가요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 1회문제에서는 오브젝트인 컬럼들만 모아서 드랍하는건 이해가 됐는데 강의에서 그냥 데이터가 많다고 해당 열을 삭제하는건가요? 삭제하는이유가 명확하게 제가 이해를 못해서 알려주시면 감사하겠습니다cols = ['name', 'host_name', 'last_review', 'host_id'] print(train.shape) train = train.drop(cols, axis=1) test = test.drop(cols, axis=1) print(train.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예측및제출할때 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 해당문제에서 ROC-AUC, 정확도(Accuracy), F1, 정밀도(Precision), 재현율(Recall)을 구하시오 라고 나와있는데 선생님 노트북을 보면 결국마지막엔 predict_proba로 roc_auc에 대한 평과결과만 실제 테스트 예측한거 아닌가요? 아직 실기가 어려운 왕초보입니다 ㅠㅠ
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가지표 결과값이 불안정해요
데이터 분리 단계의 random_state 값을 10, 50, 100, 200, 2022 등등 여러바꾸어보았는데 r2값의 편차가 큽니다.심하면 음수값도 나오고, 높아봐야 0.3정도 수준까지 나와요.(제공해주신 코드 그대로 쓰면 0.3에 근접하게 나오나, random_state값만 바꿔도 전반적으로 떨어집니다) 내가 뭘 잘못했나 하면서.. 혼자서 몇 시간 동안전처리 단계에서 nunique 수가 많은 object 컬럼을 추가적으로 제거해도 마찬가지고인코딩 단계에서 one-hot과 label을 바꾸어가며 써봐도 마찬가지고모델학습 단계에서 하이퍼파라미터값을 조정해봐도 마찬가지입니다... gpt로도 요리조리 돌려봤는데 애초에 데이터의 질 자체가 나쁘면(편차가 큰 경우 등) 코드를 아무리 수정해봐야 평가값 결과가 불안정하게 나온다고 하는데 제가 뭘 잘못하고 있는건지, 해당 문제의 데이터에 문제가 있는건지 궁금해요. 그리고 이런 경우 실전에서도 이대로 풀이를 하고 제출해도 문제가 없을까요? randomstate 값만 바꿔가다가 train 데이터에서 결과 좋은 걸 찾아 끼워 맞춰봤자, test 데이터에서는 또 전혀 다른 결과가 나올 것 같아서요(코드를 제가 잘못짰나 싶어서 공유된 코드 그대로 써도 마찬가지입니다.. random_state값 조금만 바꿔도 평가결과값이 크게 떨어짐)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모의고사(작업형1) 시험환경 체험링크가 안 들어가집니다
회원가입 하고 링크 눌렀는데 "페이지를 찾을 수 없습니다."이렇게 나옵니다 어떻게 해야하나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 질문
안녕하세요작업형 2 모의문제1 강의에서 CLENTNUMBER를 삭제하는게 좋다고 하셨는데, 그럼 이와 유사하게 ID도 항상 삭제하면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 기출유형(작업형2) 원핫인코딩 기준 코드 알려주실수있을까요
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요레이블인코딩말고 원핫인코딩으로만 통일해서 하려고 하는데 코드좀 알 수 있을까요 df = pd.concat([X_train, X_test]) df = pd.get_dummies(df) X_train = df.iloc[:len(X_train)] X_test = df.iloc[len(X_train):] print((X_train.shape, X_test.shape)) 이렇게 하면 될까요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 1유형 1번 질문입니다
선생님 가장 많이 수강한 과목을id = df['id_assessment'].value_counts() 까지만 해서 찾아서 (id=12)답을 적어도 된다하여 거기까지만 작성하고 문제를 풀면 최종답은 (1.732)나옵니다.필터링한 코드가 다 들어가야 2.183이 나오구요~다 작성해야하는건가요 ~(1.732 나온 코드입니다)import pandas as pddf = pd.read_csv("student_assessment.csv")print(df.head())#print(df.shape)df= df.dropna()#print(df.shape)id = df["id_assessment"].value_counts()#print(id)from sklearn.preprocessing import StandardScalerscaler = StandardScaler()df["score"]= scaler.fit_transform(df[["score"]])print(round(df["score"].max(),3))
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형1] 연습문제 12번 문제
안녕하세요.[작업형1] 섹션12번 문제에서 두번째 지시문에 결측치가 있는 데이터(행)을 삭제하라고 되어있는데 답안 내의 주석에는 컬럼 자체를 삭제하도록 해설이 되어있습니다. 답에는 차이가 없으나 저의 문제 이해력이 부족한건지 궁금하여 문의드립니다. 문제)해설)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출유형 작업형1 마지막문제
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 마지막 범죄 건수 계산문제 질문드립니다.수업 자료에 있는 코드와 아래 작성된 코드에서 어떤 차이가 있어서 결과가 다르게 나오는 것인지 문의드립니다. df['연도'] = df['날짜'].str[:4] df['월'] = df['날짜'].str[6:8] df['총합'] = df['강력범죄'] + df['절도범죄'] +df['폭력범죄'] +df['지능범죄'] +df['풍속범죄'] +df['교통범죄'] #월평균값이 가장 큰 연도 찾기 result = df.groupby(['연도','월'])['총합'].sum() result.head() #연도별로 총 범죄 건수(범죄유형의 총합)의 월평균 값을 구한 후 그 값이 가장 큰 연도를 찾아, 해당 연도의 총 범죄 건수의 월평균 값을 출력하시오. result2 = result.groupby('연도').mean() result2 = result2.sort_values(ascending = False) result2 #23년도 print(df.groupby('연도')['총합'].mean())