묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
랜덤스테이트 숫자
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요어떤 강의에서는 0으로 쓰시고 해당 강의에서는 2022로 쓰시는데 어떤 숫자든 아무거나 통일되게만 쓰면 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
loc사용법 문의드립니다.
기출6회 작업형 1-1번 풀이중 loc를 아래와 같이 사용했더니 상위 5개만 출력이되는데요사용법이 어떤점이 잘못된건지 왜 저렇게 출력이되는지 궁금합니다 둘의 차이점도 왜 저렇게 되는지 궁금합니다df.loc[:10, 'views'] = min_valuedf.iloc[:10, -1] = min_value#주어진 데이터셋(members.csv)의 'views'컬럼 상위 10개 데이터를 'views' 컬럼 상위 10번째 값으로 대체한 후 #'age'컬럼이 80 이상인 데이터의 'views' 컬럼 평균값을 구하시오.(반올림하여 소수 둘째 자리까지 계산) import pandas as pd df = pd.read_csv('members.csv') # print(df.head()) df.info() df = df.sort_values('views', ascending=False) print(df.head(15)) min_value = df['views'].sort_values(ascending=False).iloc[9] print(min_value) df.loc[:10, 'views']
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형1] 연습문제 섹션9번 문제
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요문제에서 결측치는 제외라고 되어있어서 dropna()를 해주었는데, 결측치는 제거가 되었으나 views 컬럼 값이 1000이하인 행들이 나오지 않습니다.. 뭐가 문제인가요??
-
해결됨[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
10회 작업형1번문제2번 문제 풀이 틀림
0회 작업형1번 문제 2강의에서 작업1번문젱니데2번쨰로 높은매출액을 출력하라고했는데실수하신것같습니다 연월별매출.sort_values(ascending=False)까진 맞는데 이걸 변수에 안담으시고 바로result = 연월별매출[1]하셔서 내림차순정렬이 안되었꼬 그상태에석 그냥 두번째행만 출력되어서 저랑정답이다른것같습니다 정답은 =35859867 이거같으네 조속히 확인후 답변부탁드리겠습니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
공부 순서 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 저는 개념강의 끝내고 바로 기출강의 먼저 보려고했는데 해당영상에서 풀이만 굉장히 빠르게 지나가서 자막에 모의문제에서 더 자세하게 설명한다고 나왔는데요. 저같이 왕초보 기준에서 기출, 모의, 예시 문제에서 공부순서가 어떻게 될까요? 남은 시간 얼마없는데 많이 실력이 부족하네요...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
왜 칼럼이 없다고 오류가 나오죠
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 X_train = X_train.drop('ID', axis=1) X_test_id = X_test.pop('ID') X_test.head() 라고 코드를 적었는데 --------------------------------------------------------------------------- KeyError Traceback (most recent call last) /tmp/ipython-input-1436373027.py in <cell line: 0>() 1 # trainID 삭제, testID 값만 옮겨둠 ----> 2 X_train = X_train.drop('ID') 3 X_test_id = X_test.pop('ID') 4 X_test.head() 3 frames /usr/local/lib/python3.12/dist-packages/pandas/core/indexes/base.py in drop(self, labels, errors) 7068 if mask.any(): 7069 if errors != "ignore": -> 7070 raise KeyError(f"{labels[mask].tolist()} not found in axis") 7071 indexer = indexer[~mask] 7072 return self.delete(indexer) KeyError: "['ID'] not found in axis" 다음과 같이 id라는 컬럼이 발견되지 않았다고 오류가 나옵니다. 선생님이 한거랑 똑같이했는데 왜 이렇죠? 위에 라벨인코딩한거보면 분명 id라는 컬럼이 있는데 왜 위같이 오류가 나올까욧
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
저장된 .csv 파일의 보존 방법
학습을 위해 .csv 파일을 주어진 코드 대로 실행하여 저장하면 /content/sample_data 폴더에 저장됩니다.다만, 이 경로 및 폴더는 임시데이터로 런타임 해제 또는 하루 이상의 시간 경과 시 삭제됩니다. 파일 보존을 위하여 다른 폴더를 생성 및 마운트, 작업 디렉토리 변경을 시도했으나Colab에서 Drive 인증 토큰이 제대로 노트북 세션에 전달되지 않았을 때 발생하는 오류. 즉, “마운트 과정에서 인증이 꼬였다” 는 에러가 발생합니다. 어떻게 해야 저장해왔던 .csv 파일들을 보존할 수 있을까요? 런타임을 다시 실행하여from google.colab import drivedrive.mount('/content/drive')와 같이 코드를 실행했으나, 아래와 같이 에러 메시지가 발생합니다.Error: credential propagation was unsuccessful 마운트에 성공하면 아래와 같이 작업 디렉토리를 변경하고자 합니다.import osos.chdir('/content/drive')
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 9회 작업형 3번 문제 1-3
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요 이렇게 풀어도 될까요? # 1) test데이터에서 design값 계산 pred = model.predict(test) # 2) test데이터에 대한 RMSE 계산 from sklearn.metrics import mean_squared_error RMSE = mean_squared_error(test['design'], pred) ** 0.5 print(round(RMSE, 3))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pvalue 가 유의하다 ?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 pvalue 가 유의수준 0.05보다 작으면 귀무가설을 기각하고 대립가설을 채택하는데 이 경우가 pvalue 가 유의하다라고 이해하면 되는건가요? 대부분의 케이스에서?
-
해결됨[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
8회 1유형 1번 문제
코딩 대한민국님의 정답과 저의 정답이 달라 왜 그럴까 살펴보았습니다.데이터가 무작위 생성이라 그럴 수 밖에 없다는 것을 깨닳았지만,남는 의문점이 있어 질문올립니다.우선, 코딩 대한민국님의 정답입니다.import pandas as pd df1 = df.groupby('region')['coffee_servings'].mean() df2 = df1.sort_values(ascending=False) df3 = df.loc[ df['region'] == 'Central', :] df3.nlargest(3, 'coffee_servings') 데이터 생성 코드입니다.# 데이터 생성 regions = ['North', 'South', 'East', 'West', 'Central'] cities = ['City_' + str(i) for i in range(1, 51)] data = { 'city': random.choices(cities, k=100), 'region': random.choices(regions, k=100), 'coffee_servings': [random.randint(1, 500) for _ in range(100)] }regions = 100개의 observation이 North, South, East, West, Central 중 무작위 1개 값을 가짐cities = 100개의 observation이 1~51번 중 무작위 1개 값을 가짐낮은 확률이지만, 이렇게 생성된 observation 중중복되어 나타나는(예: "city#40 + Central") 데이터가 존재 할 수 있다고 생각합니다. import pandas as pd df1 = df.groupby('region')['coffee_servings'].mean() df2 = df1.sort_values(ascending=False) df3 = df.loc[ df['region'] == 'Central', :] df4 = df3.sort_values('city', ascending=False) df5 = df4.groupby('city')['coffee_servings'].sum() df6 = df5.sort_values(ascending = False) result = df6.iloc[2] result따라서 이렇게 groupby로 한번 더 정리하여 풀었습니다.이것도 정답일 수 있는 것일까요?혹은 오답일까요?추가) 8회 1유형 2번 문제'전자 생산 비율'이 세 번째로 높은 국가의 '전자' 생산량을 x라고 정의하세요.'농업' 생산량이 세 번째로 높은 국가의 '농업' 생산량을 y라고 정의하세요.인데, 강의를 보니 코딩 대한민국님께서는 '전자 생산 비율'을 x라고 정의하신것 같습니다.확인 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 과정 질문드립니다.
target = train.pop('총가스사용량') #원핫인코딩 # train = pd.get_dummies(train) # test = pd.get_dummies(test) #라벨인코더 from sklearn.preprocessing import LabelEncoder cols = train.select_dtypes(include = 'object').columns for col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) #데이터 분리 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size = 0.2, random_state = 0) # 랜덤포레스트 from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor(random_state = 0) rf.fit(X_tr,y_tr) pred = rf.predict(X_val) #라이트gbm # import lightgbm as lgb # lg = lgb.LGBMRegressor(random_state=0, verbose=-1) # lg.fit(X_tr,y_tr) # pred = lg.predict(X_val) #평가지표(RMSE) from sklearn.metrics import root_mean_squared_error rmse = root_mean_squared_error(y_val, pred) rmse #라벨인코더 - 랜덤포레스트 > 959.3866443164056 #원핫인코딩 - 랜덤포레스트 > 960.485846380754 #원핫인코딩 - 라이트지비엠 > 1064.8095758723994 #라벨인코더 - 라이트지비엠 > 1069.1629932934077 pred_final = rf.predict(test) submit = pd.DataFrame({'pred':pred_final}) submit.to_csv('result.csv',index=False) pd.read_csv('result.csv')10회 유형2번을 풀어봤는데라벨인코더와 원핫인코딩 두 가지,LightGBM과 랜덤포레스트 두 가지이렇게 써서 4가지 경우의 수로 rmse가 가장 낮은 모델을 사용했습니다.이 정도의 과정만 거쳐서 가장 좋은 모델을 적용해서 제출해도 높은 점수를 받을 수 있을까요? 기출 대부분이 전처리(결측치삭제, 대체 등)과정이 필요없던데 이번에 다가오는 시험에서도 전처리 할것이 없다고 판단되면 굳이 안건드려도 되는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분산분석 질문
안녕하세요 생각보다 할게 많아 복잡해서 몇가지 여쭤보고자 합니다!! 일원 분산 분석을 진행 할때 가장 먼저 정규성 검정을 해서 A,B,C,D라는 그룹이 있다는 가정하에 하나라도 0.05를 넘지 못하면 크루스칼 비모수 검정만 진행하고 끝내면 될까요?이원 분산 분석은 정규성 검정, 등분산 검정은 너무 어려워보여서 학습을 안할까하는데 여태껏 출제된적이 있을까요?일원 분산 분석과 이원분산분석의 사후검정 또한 학습을 하는 편이 좋을까요? (양이 너무 많아서 뺄수있으면 빼고싶은 마음에 여쭤봅니다)일원분산 분석에서 만약 등분산검정을 했는데 피밸류가 0.05를 못넘었다면 equal_var=False 이값을 어디에 넣어주어야하나요? 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 작업형2
import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/8_2/churn_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/8_2/churn_test.csv") df=pd.concat([train,test],axis=0) df=pd.get_dummies(df) train=df.iloc[:len(train)].copy() test=df.iloc[len(train):].copy() target=train.pop('TotalCharges') from sklearn.model_selection import train_test_split X_tr,X_val,y_tr,y_val=train_test_split(train,target,test_size=0.2,random_state=0) from sklearn.ensemble import RandomForestRegressor rf=RandomForestRegressor(random_state=0) rf.fit(X_tr,y_tr) pred=rf.predict(X_val) pred=rf.predict(test)unique수가 달라서 concat으로 실행했는데 오류가 납니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 제출
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형 2번 제출 시 result.to_csv("result.csv", index = False) 까지만 적어서 제출하면 되나요? 아니면 pd.read_csv("result.csv") 까지 작성해서 제출해야 하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 할때
원핫인코딩 시 train, test 데이터를 pd.concat 로 병합하고 다시 분리하는 단계는 생략해도 되나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
melt함수질문
import pandas as pd를 불러온 상태라면pd.melt(df) 와 df.melt() 둘중에 골라서 써도 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이트타임
자료엔 오류가 안났긴했는데 17 Feb 2024 이런 데이터가to_datetime 함수를 썼는데 만일 오류가 난다면이때 format에 어떻게 작성해야할까요? Feb << 이걸 어떻게 써야할지모르겠습니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
레이블 인코딩 질문 있습니다
처음에 set()함수 결과가 '주구매상품'에서만 고유값이 다르다고 결과가 나왔는데 라벨 인코딩에서는 왜 주구매 지점까지 같이 인코딩하나요?주구매상품만 인코딩하면 안되는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
공부의 방향성에 대해 문의합니다.
안녕하세요. 다음주 빅데이터실기 준비중인 직장인입니다. (5*대)[현재상태]온라인강의는 1~114번까지 1회 정독 및 가능한 같이 코딩해봄( 모르는것이 있으면 풀이과정을 보며 방향성을 잡고 풀어봄, 60~70%정도는 풀이과정의 도움을 받음 )작업형2~3형은 대충 시험의 방향성을 잡히는것 같고, 작업형1형은 더 많이 풀어 보는수 밖에 없는것 같음[오늘 이후 공부의 방향성에 대한 질의]오늘 이후 8~8일 정도 어떤 계획을 가지고 공부를 진행해야 하는지요?시험시간 3시간에 대한 감이 없는데, 어떻게 풀어야 하는지는 생각이 나는데 함수 및 명령어 등이 생각이 않나는 경우 dir 및 help 기능을 참조하면 풀수 있는 시간인지요 3시간이?꼭 암기해야하는 부분은 무엇인지요?5*대이니 해도해도 자꾸만 단어등이 깜박깜박하네요.강사님의 좋은 조언 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모의고사 오류
어제까지 모의고사를 잘 풀고 있었으나,오늘 새벽부터 갑자기 이러한 오류가 발생하고 있습니다. 원인과 해결법을 알 수 있을까요?