묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출9회 작업형 1 1번 3번
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요1번에서는 두 조건이 맞는 그룹화를 다음과 같이 코딩하셨는데요 왜 3번에는 transform함수가 붙나요?? 두 경우 모두 두가지로 그룹화한다는 점에서 같아 보이는것 같아서 이해가 잘 안됩니다..! #1번 df=df.groupby(['지역코드','성별'])['총대출액'].sum().unstack() #3번 gm=df.groupby(['부서', '성과등급'])['근속연수'].transform("mean")
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경 오류
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요시험환경 들어가면 페이지를 찾을 수 없다고 나오는데, 어떻게 해야 되나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 한가지 방법으로 풀기 질문
강사님께서 "작업형2 한가지 방법으로 풀기"에서 학습을 RandomForest로 진행하셨는데, "lightGBM 잘 활용하기"에서는 lightGBM 사용 시 인코딩이 필요가 없다고 하셔서, 오히려 한가지 방법으로 간단하게 풀려면 lightGBM이 더 적합해보이는데, lightGBM 하나로 쭉 밀고 나가도 문제가 없을까요?그리고 분류 모델은 LGBMClassifier(random_state=0)인 걸로 영상에서 확인했는데, 회귀 모델은 나와있지 않아서요..! LGBMRegressor(random_state=0)으로 사용하면 될까요?감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기 체험 환경 질문드립니다.
체험 환경에서는 csv 파일을 직접 탭으로 열어서 볼 수 있게 되어 있던데, 실제 시험 환경에서도 동일한가요?작업형 모의문제에선 df.head()로 csv 파일을 대략적으로 살펴보았는데, 만약 시험 환경에서도 csv 파일을 열어볼 수 있다면 이 과정이 필요하지 않을 것 같아 질문드립니다.감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8 회귀 연습문제 6,10번 문제
광고비가 각각 500,000, 300,000이 아니라 500, 300 아닌가요~?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
rmse
선생님 rmse 지금 코랩에서는 sklearn에서 제공하있는데시험장에서는 함수만들어야되나요? 시험장기준으로말씀부탁드립니다!
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델학습시에
분류는 랜덤포레스트클래서파이어 회귀는 랜덤포레스트리그레서로 통일해서 진행해도될까요?다른 모델도 굳이해야되나 현실성있께 말씀해주시면좋겠어요빠르게합격하고싶어요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
rmse sklearn제공
아직도제공안해주나요? 아니면 업데이트되서 제공해주나요 되는것처럼보여서요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 모델
하나는 선형회귀 모델로 예측한것이고 하나는 랜덤포레스트 모델로 예측한 결과값인데 생각보다 차이가 커서 당황스러운데 원래 이정도 차이나는게 맞을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
랜덤스테이트 숫자
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요어떤 강의에서는 0으로 쓰시고 해당 강의에서는 2022로 쓰시는데 어떤 숫자든 아무거나 통일되게만 쓰면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
loc사용법 문의드립니다.
기출6회 작업형 1-1번 풀이중 loc를 아래와 같이 사용했더니 상위 5개만 출력이되는데요사용법이 어떤점이 잘못된건지 왜 저렇게 출력이되는지 궁금합니다 둘의 차이점도 왜 저렇게 되는지 궁금합니다df.loc[:10, 'views'] = min_valuedf.iloc[:10, -1] = min_value#주어진 데이터셋(members.csv)의 'views'컬럼 상위 10개 데이터를 'views' 컬럼 상위 10번째 값으로 대체한 후 #'age'컬럼이 80 이상인 데이터의 'views' 컬럼 평균값을 구하시오.(반올림하여 소수 둘째 자리까지 계산) import pandas as pd df = pd.read_csv('members.csv') # print(df.head()) df.info() df = df.sort_values('views', ascending=False) print(df.head(15)) min_value = df['views'].sort_values(ascending=False).iloc[9] print(min_value) df.loc[:10, 'views']
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형1] 연습문제 섹션9번 문제
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요문제에서 결측치는 제외라고 되어있어서 dropna()를 해주었는데, 결측치는 제거가 되었으나 views 컬럼 값이 1000이하인 행들이 나오지 않습니다.. 뭐가 문제인가요??
-
해결됨[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
10회 작업형1번문제2번 문제 풀이 틀림
0회 작업형1번 문제 2강의에서 작업1번문젱니데2번쨰로 높은매출액을 출력하라고했는데실수하신것같습니다 연월별매출.sort_values(ascending=False)까진 맞는데 이걸 변수에 안담으시고 바로result = 연월별매출[1]하셔서 내림차순정렬이 안되었꼬 그상태에석 그냥 두번째행만 출력되어서 저랑정답이다른것같습니다 정답은 =35859867 이거같으네 조속히 확인후 답변부탁드리겠습니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
공부 순서 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 저는 개념강의 끝내고 바로 기출강의 먼저 보려고했는데 해당영상에서 풀이만 굉장히 빠르게 지나가서 자막에 모의문제에서 더 자세하게 설명한다고 나왔는데요. 저같이 왕초보 기준에서 기출, 모의, 예시 문제에서 공부순서가 어떻게 될까요? 남은 시간 얼마없는데 많이 실력이 부족하네요...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
왜 칼럼이 없다고 오류가 나오죠
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 X_train = X_train.drop('ID', axis=1) X_test_id = X_test.pop('ID') X_test.head() 라고 코드를 적었는데 --------------------------------------------------------------------------- KeyError Traceback (most recent call last) /tmp/ipython-input-1436373027.py in <cell line: 0>() 1 # trainID 삭제, testID 값만 옮겨둠 ----> 2 X_train = X_train.drop('ID') 3 X_test_id = X_test.pop('ID') 4 X_test.head() 3 frames /usr/local/lib/python3.12/dist-packages/pandas/core/indexes/base.py in drop(self, labels, errors) 7068 if mask.any(): 7069 if errors != "ignore": -> 7070 raise KeyError(f"{labels[mask].tolist()} not found in axis") 7071 indexer = indexer[~mask] 7072 return self.delete(indexer) KeyError: "['ID'] not found in axis" 다음과 같이 id라는 컬럼이 발견되지 않았다고 오류가 나옵니다. 선생님이 한거랑 똑같이했는데 왜 이렇죠? 위에 라벨인코딩한거보면 분명 id라는 컬럼이 있는데 왜 위같이 오류가 나올까욧
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
저장된 .csv 파일의 보존 방법
학습을 위해 .csv 파일을 주어진 코드 대로 실행하여 저장하면 /content/sample_data 폴더에 저장됩니다.다만, 이 경로 및 폴더는 임시데이터로 런타임 해제 또는 하루 이상의 시간 경과 시 삭제됩니다. 파일 보존을 위하여 다른 폴더를 생성 및 마운트, 작업 디렉토리 변경을 시도했으나Colab에서 Drive 인증 토큰이 제대로 노트북 세션에 전달되지 않았을 때 발생하는 오류. 즉, “마운트 과정에서 인증이 꼬였다” 는 에러가 발생합니다. 어떻게 해야 저장해왔던 .csv 파일들을 보존할 수 있을까요? 런타임을 다시 실행하여from google.colab import drivedrive.mount('/content/drive')와 같이 코드를 실행했으나, 아래와 같이 에러 메시지가 발생합니다.Error: credential propagation was unsuccessful 마운트에 성공하면 아래와 같이 작업 디렉토리를 변경하고자 합니다.import osos.chdir('/content/drive')
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 9회 작업형 3번 문제 1-3
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요 이렇게 풀어도 될까요? # 1) test데이터에서 design값 계산 pred = model.predict(test) # 2) test데이터에 대한 RMSE 계산 from sklearn.metrics import mean_squared_error RMSE = mean_squared_error(test['design'], pred) ** 0.5 print(round(RMSE, 3))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pvalue 가 유의하다 ?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 pvalue 가 유의수준 0.05보다 작으면 귀무가설을 기각하고 대립가설을 채택하는데 이 경우가 pvalue 가 유의하다라고 이해하면 되는건가요? 대부분의 케이스에서?
-
해결됨[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
8회 1유형 1번 문제
코딩 대한민국님의 정답과 저의 정답이 달라 왜 그럴까 살펴보았습니다.데이터가 무작위 생성이라 그럴 수 밖에 없다는 것을 깨닳았지만,남는 의문점이 있어 질문올립니다.우선, 코딩 대한민국님의 정답입니다.import pandas as pd df1 = df.groupby('region')['coffee_servings'].mean() df2 = df1.sort_values(ascending=False) df3 = df.loc[ df['region'] == 'Central', :] df3.nlargest(3, 'coffee_servings') 데이터 생성 코드입니다.# 데이터 생성 regions = ['North', 'South', 'East', 'West', 'Central'] cities = ['City_' + str(i) for i in range(1, 51)] data = { 'city': random.choices(cities, k=100), 'region': random.choices(regions, k=100), 'coffee_servings': [random.randint(1, 500) for _ in range(100)] }regions = 100개의 observation이 North, South, East, West, Central 중 무작위 1개 값을 가짐cities = 100개의 observation이 1~51번 중 무작위 1개 값을 가짐낮은 확률이지만, 이렇게 생성된 observation 중중복되어 나타나는(예: "city#40 + Central") 데이터가 존재 할 수 있다고 생각합니다. import pandas as pd df1 = df.groupby('region')['coffee_servings'].mean() df2 = df1.sort_values(ascending=False) df3 = df.loc[ df['region'] == 'Central', :] df4 = df3.sort_values('city', ascending=False) df5 = df4.groupby('city')['coffee_servings'].sum() df6 = df5.sort_values(ascending = False) result = df6.iloc[2] result따라서 이렇게 groupby로 한번 더 정리하여 풀었습니다.이것도 정답일 수 있는 것일까요?혹은 오답일까요?추가) 8회 1유형 2번 문제'전자 생산 비율'이 세 번째로 높은 국가의 '전자' 생산량을 x라고 정의하세요.'농업' 생산량이 세 번째로 높은 국가의 '농업' 생산량을 y라고 정의하세요.인데, 강의를 보니 코딩 대한민국님께서는 '전자 생산 비율'을 x라고 정의하신것 같습니다.확인 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 과정 질문드립니다.
target = train.pop('총가스사용량') #원핫인코딩 # train = pd.get_dummies(train) # test = pd.get_dummies(test) #라벨인코더 from sklearn.preprocessing import LabelEncoder cols = train.select_dtypes(include = 'object').columns for col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) #데이터 분리 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size = 0.2, random_state = 0) # 랜덤포레스트 from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor(random_state = 0) rf.fit(X_tr,y_tr) pred = rf.predict(X_val) #라이트gbm # import lightgbm as lgb # lg = lgb.LGBMRegressor(random_state=0, verbose=-1) # lg.fit(X_tr,y_tr) # pred = lg.predict(X_val) #평가지표(RMSE) from sklearn.metrics import root_mean_squared_error rmse = root_mean_squared_error(y_val, pred) rmse #라벨인코더 - 랜덤포레스트 > 959.3866443164056 #원핫인코딩 - 랜덤포레스트 > 960.485846380754 #원핫인코딩 - 라이트지비엠 > 1064.8095758723994 #라벨인코더 - 라이트지비엠 > 1069.1629932934077 pred_final = rf.predict(test) submit = pd.DataFrame({'pred':pred_final}) submit.to_csv('result.csv',index=False) pd.read_csv('result.csv')10회 유형2번을 풀어봤는데라벨인코더와 원핫인코딩 두 가지,LightGBM과 랜덤포레스트 두 가지이렇게 써서 4가지 경우의 수로 rmse가 가장 낮은 모델을 사용했습니다.이 정도의 과정만 거쳐서 가장 좋은 모델을 적용해서 제출해도 높은 점수를 받을 수 있을까요? 기출 대부분이 전처리(결측치삭제, 대체 등)과정이 필요없던데 이번에 다가오는 시험에서도 전처리 할것이 없다고 판단되면 굳이 안건드려도 되는건가요?