묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경 오류
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요시험환경 들어가면 페이지를 찾을 수 없다고 나오는데, 어떻게 해야 되나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 한가지 방법으로 풀기 질문
강사님께서 "작업형2 한가지 방법으로 풀기"에서 학습을 RandomForest로 진행하셨는데, "lightGBM 잘 활용하기"에서는 lightGBM 사용 시 인코딩이 필요가 없다고 하셔서, 오히려 한가지 방법으로 간단하게 풀려면 lightGBM이 더 적합해보이는데, lightGBM 하나로 쭉 밀고 나가도 문제가 없을까요?그리고 분류 모델은 LGBMClassifier(random_state=0)인 걸로 영상에서 확인했는데, 회귀 모델은 나와있지 않아서요..! LGBMRegressor(random_state=0)으로 사용하면 될까요?감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기 체험 환경 질문드립니다.
체험 환경에서는 csv 파일을 직접 탭으로 열어서 볼 수 있게 되어 있던데, 실제 시험 환경에서도 동일한가요?작업형 모의문제에선 df.head()로 csv 파일을 대략적으로 살펴보았는데, 만약 시험 환경에서도 csv 파일을 열어볼 수 있다면 이 과정이 필요하지 않을 것 같아 질문드립니다.감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8 회귀 연습문제 6,10번 문제
광고비가 각각 500,000, 300,000이 아니라 500, 300 아닌가요~?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
rmse
선생님 rmse 지금 코랩에서는 sklearn에서 제공하있는데시험장에서는 함수만들어야되나요? 시험장기준으로말씀부탁드립니다!
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델학습시에
분류는 랜덤포레스트클래서파이어 회귀는 랜덤포레스트리그레서로 통일해서 진행해도될까요?다른 모델도 굳이해야되나 현실성있께 말씀해주시면좋겠어요빠르게합격하고싶어요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
rmse sklearn제공
아직도제공안해주나요? 아니면 업데이트되서 제공해주나요 되는것처럼보여서요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 모델
하나는 선형회귀 모델로 예측한것이고 하나는 랜덤포레스트 모델로 예측한 결과값인데 생각보다 차이가 커서 당황스러운데 원래 이정도 차이나는게 맞을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
랜덤스테이트 숫자
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요어떤 강의에서는 0으로 쓰시고 해당 강의에서는 2022로 쓰시는데 어떤 숫자든 아무거나 통일되게만 쓰면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
loc사용법 문의드립니다.
기출6회 작업형 1-1번 풀이중 loc를 아래와 같이 사용했더니 상위 5개만 출력이되는데요사용법이 어떤점이 잘못된건지 왜 저렇게 출력이되는지 궁금합니다 둘의 차이점도 왜 저렇게 되는지 궁금합니다df.loc[:10, 'views'] = min_valuedf.iloc[:10, -1] = min_value#주어진 데이터셋(members.csv)의 'views'컬럼 상위 10개 데이터를 'views' 컬럼 상위 10번째 값으로 대체한 후 #'age'컬럼이 80 이상인 데이터의 'views' 컬럼 평균값을 구하시오.(반올림하여 소수 둘째 자리까지 계산) import pandas as pd df = pd.read_csv('members.csv') # print(df.head()) df.info() df = df.sort_values('views', ascending=False) print(df.head(15)) min_value = df['views'].sort_values(ascending=False).iloc[9] print(min_value) df.loc[:10, 'views']
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형1] 연습문제 섹션9번 문제
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요문제에서 결측치는 제외라고 되어있어서 dropna()를 해주었는데, 결측치는 제거가 되었으나 views 컬럼 값이 1000이하인 행들이 나오지 않습니다.. 뭐가 문제인가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
공부 순서 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 저는 개념강의 끝내고 바로 기출강의 먼저 보려고했는데 해당영상에서 풀이만 굉장히 빠르게 지나가서 자막에 모의문제에서 더 자세하게 설명한다고 나왔는데요. 저같이 왕초보 기준에서 기출, 모의, 예시 문제에서 공부순서가 어떻게 될까요? 남은 시간 얼마없는데 많이 실력이 부족하네요...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
왜 칼럼이 없다고 오류가 나오죠
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 X_train = X_train.drop('ID', axis=1) X_test_id = X_test.pop('ID') X_test.head() 라고 코드를 적었는데 --------------------------------------------------------------------------- KeyError Traceback (most recent call last) /tmp/ipython-input-1436373027.py in <cell line: 0>() 1 # trainID 삭제, testID 값만 옮겨둠 ----> 2 X_train = X_train.drop('ID') 3 X_test_id = X_test.pop('ID') 4 X_test.head() 3 frames /usr/local/lib/python3.12/dist-packages/pandas/core/indexes/base.py in drop(self, labels, errors) 7068 if mask.any(): 7069 if errors != "ignore": -> 7070 raise KeyError(f"{labels[mask].tolist()} not found in axis") 7071 indexer = indexer[~mask] 7072 return self.delete(indexer) KeyError: "['ID'] not found in axis" 다음과 같이 id라는 컬럼이 발견되지 않았다고 오류가 나옵니다. 선생님이 한거랑 똑같이했는데 왜 이렇죠? 위에 라벨인코딩한거보면 분명 id라는 컬럼이 있는데 왜 위같이 오류가 나올까욧
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
저장된 .csv 파일의 보존 방법
학습을 위해 .csv 파일을 주어진 코드 대로 실행하여 저장하면 /content/sample_data 폴더에 저장됩니다.다만, 이 경로 및 폴더는 임시데이터로 런타임 해제 또는 하루 이상의 시간 경과 시 삭제됩니다. 파일 보존을 위하여 다른 폴더를 생성 및 마운트, 작업 디렉토리 변경을 시도했으나Colab에서 Drive 인증 토큰이 제대로 노트북 세션에 전달되지 않았을 때 발생하는 오류. 즉, “마운트 과정에서 인증이 꼬였다” 는 에러가 발생합니다. 어떻게 해야 저장해왔던 .csv 파일들을 보존할 수 있을까요? 런타임을 다시 실행하여from google.colab import drivedrive.mount('/content/drive')와 같이 코드를 실행했으나, 아래와 같이 에러 메시지가 발생합니다.Error: credential propagation was unsuccessful 마운트에 성공하면 아래와 같이 작업 디렉토리를 변경하고자 합니다.import osos.chdir('/content/drive')
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 9회 작업형 3번 문제 1-3
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요 이렇게 풀어도 될까요? # 1) test데이터에서 design값 계산 pred = model.predict(test) # 2) test데이터에 대한 RMSE 계산 from sklearn.metrics import mean_squared_error RMSE = mean_squared_error(test['design'], pred) ** 0.5 print(round(RMSE, 3))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pvalue 가 유의하다 ?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 pvalue 가 유의수준 0.05보다 작으면 귀무가설을 기각하고 대립가설을 채택하는데 이 경우가 pvalue 가 유의하다라고 이해하면 되는건가요? 대부분의 케이스에서?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 과정 질문드립니다.
target = train.pop('총가스사용량') #원핫인코딩 # train = pd.get_dummies(train) # test = pd.get_dummies(test) #라벨인코더 from sklearn.preprocessing import LabelEncoder cols = train.select_dtypes(include = 'object').columns for col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) #데이터 분리 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size = 0.2, random_state = 0) # 랜덤포레스트 from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor(random_state = 0) rf.fit(X_tr,y_tr) pred = rf.predict(X_val) #라이트gbm # import lightgbm as lgb # lg = lgb.LGBMRegressor(random_state=0, verbose=-1) # lg.fit(X_tr,y_tr) # pred = lg.predict(X_val) #평가지표(RMSE) from sklearn.metrics import root_mean_squared_error rmse = root_mean_squared_error(y_val, pred) rmse #라벨인코더 - 랜덤포레스트 > 959.3866443164056 #원핫인코딩 - 랜덤포레스트 > 960.485846380754 #원핫인코딩 - 라이트지비엠 > 1064.8095758723994 #라벨인코더 - 라이트지비엠 > 1069.1629932934077 pred_final = rf.predict(test) submit = pd.DataFrame({'pred':pred_final}) submit.to_csv('result.csv',index=False) pd.read_csv('result.csv')10회 유형2번을 풀어봤는데라벨인코더와 원핫인코딩 두 가지,LightGBM과 랜덤포레스트 두 가지이렇게 써서 4가지 경우의 수로 rmse가 가장 낮은 모델을 사용했습니다.이 정도의 과정만 거쳐서 가장 좋은 모델을 적용해서 제출해도 높은 점수를 받을 수 있을까요? 기출 대부분이 전처리(결측치삭제, 대체 등)과정이 필요없던데 이번에 다가오는 시험에서도 전처리 할것이 없다고 판단되면 굳이 안건드려도 되는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분산분석 질문
안녕하세요 생각보다 할게 많아 복잡해서 몇가지 여쭤보고자 합니다!! 일원 분산 분석을 진행 할때 가장 먼저 정규성 검정을 해서 A,B,C,D라는 그룹이 있다는 가정하에 하나라도 0.05를 넘지 못하면 크루스칼 비모수 검정만 진행하고 끝내면 될까요?이원 분산 분석은 정규성 검정, 등분산 검정은 너무 어려워보여서 학습을 안할까하는데 여태껏 출제된적이 있을까요?일원 분산 분석과 이원분산분석의 사후검정 또한 학습을 하는 편이 좋을까요? (양이 너무 많아서 뺄수있으면 빼고싶은 마음에 여쭤봅니다)일원분산 분석에서 만약 등분산검정을 했는데 피밸류가 0.05를 못넘었다면 equal_var=False 이값을 어디에 넣어주어야하나요? 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 작업형2
import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/8_2/churn_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/8_2/churn_test.csv") df=pd.concat([train,test],axis=0) df=pd.get_dummies(df) train=df.iloc[:len(train)].copy() test=df.iloc[len(train):].copy() target=train.pop('TotalCharges') from sklearn.model_selection import train_test_split X_tr,X_val,y_tr,y_val=train_test_split(train,target,test_size=0.2,random_state=0) from sklearn.ensemble import RandomForestRegressor rf=RandomForestRegressor(random_state=0) rf.fit(X_tr,y_tr) pred=rf.predict(X_val) pred=rf.predict(test)unique수가 달라서 concat으로 실행했는데 오류가 납니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 제출
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형 2번 제출 시 result.to_csv("result.csv", index = False) 까지만 적어서 제출하면 되나요? 아니면 pd.read_csv("result.csv") 까지 작성해서 제출해야 하나요?