묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 코드 암기
안녕하세요 강의 열심히 보고 있습니다. 먼저 정말 감사드립니다.다음주 시험 준비중인데, 작업형2를 방금 시작해서요. 혹시 빅이시에 올라온 기초1,2,3만 외워도 작업형2 부분 만점 받을 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제 2번 질문이 있습니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요처음에 문제를 풀 때는 원핫 인코딩 방식을 쭉 쓰는 것을 선호했기 때문에 결측치가 존재하는 행만 제외하는 방식(train.dropna(axis=0) 함수 이용)으로 train과 test의 결측치 처리를 하고, 사진에 보이는 코드를 이용해서 원핫 인코딩을 진행하였습니다.하지만 이렇게 인코딩을 하니 이후 train_test_split을 진행하고, 랜덤포레스트로 학습을 진행하려고 하니 런타임이 1분 이상으로 지나치게 오래걸리는 문제가 나타났습니다. 문제를 해결하지 못해 강의에서 설명한 방식대로 train.nunique의 수와 결측값이 많은 컬럼들을 drop하고 labelencording을 하는 방식으로 수정하여 끝까지 풀 수는 있었습니다. 시험에서 겪었다면 너무 당황했을 것 같은데 연습때 겪어서 천만다행이라 생각합니다. 혹시 이런 경우처럼 nunique의 개수가 많거나 데이터 자체의 shape가 거대할 경우는 원핫보다는 label 인코딩을 진행하는 것이 더 원할하게 진행하는 것이 옳은 방식인가요? 아니면 사진에 나온 인코딩 방식에 에러가 있었는지 질문드리고자 합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 코드 작성중 질문이 있어요
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 google colab으로 LabelEncoder를 타이핑 하면 Lab.. 쯤에서 자동 완성하기가 뜨는데시험에서는 자동완성 없이 대문자와 풀 스펠링을 정확하게 외워가야 하는 것이죠?LabelEncoder
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
잔차이탈도
# 방법1from statsmodels.formula.api import logit# 1) 로지스틱 회귀 모델 생성 및 학습model = logit("gender ~ age + length + diameter + height + weight", data=train).fit()print(model.summary())# 2) 잔차 이탈도 계산print(round(-2 * model.llf,2))# 방법2from statsmodels.formula.api import glmimport statsmodels.api as sm# 1) glm 모델 적합 (로지스틱 회귀를 위해 이항 분포 사용)formula = "gender ~ age + length + diameter + height + weight"model = glm(formula, data=train, family=sm.families.Binomial()).fit()# 2) 잔차이탈도 계산print(model.summary())print(round(model.deviance,2))중에서 방법1을 써도 괜찮나요?차이점이 궁금합니다 방법1 에서 -2 * model.llf,2 이건 무슨 뜻이죠?llf가 어떤 것인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
sklearn rmse 제공하는데 강의는 없다고하는게 옛날거라 그런건가요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요sklearn 에서 rmse 도 제공하는걸로 보이는데, 계속 없다고 말씀하시는게 생기기 전에 촬영하셔서 그런걸까요???
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회기출문제(문1과 연습문제 4번)
views_min = df['views'][:10].min() 여기부분이 2회기출 설명은 뷰가 앞이고 연습문제 4번에서는 iloc가 앞이에요 views_min = df.iloc[:10]['views'].min()views와 iloc 순서 바뀌어도 상관없는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
index=False 로 제출하고 이후 print 로 확인해봤는데 인덱스나오는건 상관없는건가요?
print(pd.read_csv('result.csv')) pred 0 Low 1 High 2 High 3 Low 4 Low .. ... 226 Very Low 227 Medium 228 Very Low 229 Low 230 Very High [231 rows x 1 columns]# test 예측 pred = rf.predict(test) submit = pd.DataFrame({ 'pred':pred }) submit.to_csv('result.csv', index=False)아래 index=False 하고 제출 후 해당 파일 확인하니까 인덱스가 보이는데요. 이건 그냥 상관없는건가요? 제출 자체는 인덱스없이 된건데 제가 프린트 할때 index=False 를 안해서 그냥 뜨는건가요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 pop 함수 사용 환경
안녕하세요. 공부하던 중에 궁금한 게 있어서 글 남깁니다! 작업형2 모의 문제를 풀 때랑 기출 10회 풀 때 사용하는 pop함수가 헷갈리는 게 있어 여쭤봅니다.모의 문제에서는, 예를 들어 5-2에서는 csv 파일 생성 예시가 다음과 같아서 id는 train에서 삭제, test에서는 pop으로 저장해두고 타겟인 price는 검증 데이터 분리 과정에서 삭제하는 것으로 알고 있습니다.id,price 34323697,238 29927138,183 120362,234그런데 기출 10회 풀이를 보면 타겟인 pred(=총가스사용량)에 대하여 pop 함수를 사용하는 것으로 나오는데요. 타겟 값을 pop에 넣는 경우도 있고 안 넣는 경우도 있는 거 같아서 해야만 하는 과정인지 궁금합니다. 혹시 pop을 쓰면 랜덤포레스트 식에서 drop을 안 해줘도 되고, 안 쓰면 drop을 해줘야 하는 거랑 관련된 걸까요?target = train.pop('총가스사용량')
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
중간에 rmse, f1_score 등 평가지표 구하는거 어떻게 채점하는걸까요~?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요실제로 제출은 csv 파일로 하는데, 그 중간에 rmse 등 평가지표 구하잖아요이거 뭐 답안 제출하는 곳이 있는건가요? 아니면 코딩한걸 전부 다 보고 확인하는걸까요??아니면 그냥 평가지표 점수로 단순히 모델 선택할떄 쓰는 기준인건가요? 어리석은 질문같지만.. 평가지표를 계속 구하고있는데 실제로는 csv 로 제출하는데 왜 구하는걸까하는..
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
명령어 암기 정리된내용이 있을까요?
안녕하세요, 다른 강의와 빅이시 준비 보고 있는데,아무래도 명령어를 외우는 부분에 대해서 부담이 많이 되더라고요각 과목에서 암기해야 한다고 알려주신 명령어들에 대해서 정리한 자료가 있으면 좋다고 생각하는데혹시 그런 강의자료가 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 질문
1. aixs=1 이 헷갈립니다 열방향 계산일때 axis=1을 넣는다고 하셨는데,학교명 별로 1학년2학년3학년 4학년5학년6학년 쭉 다 더하는건 ---->가로 방향이면 각 행을 더하는 것 아닌가요?2. 가장 많은 전체/교사로 내림차순 정렬했을때 그 표만 읽고 바로 교사수 19로 답 적어도되나요?아니면 print뭐를 사용해서 19인걸 코드로 나타내야하나요? 감사합니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형1] 연습문제 25번 문제 dt.days
안녕하세요. 연습문제 25번 문제에서 dt 연산자 활용하여 일 단위를 계산하려고 할 때, 원래 dt.day 아닌가요? dt.day로 코딩하려니 오류가 납니다.구글에 아무리 서치해봐도 dt.day 밖에 검색이 되지 않는데, 버전이 업데이트가 되어 바뀐걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 concat 사용 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형2 예시문제는 train과 test의 상품의 종류가 달라 원핫인코딩 시 컬럼의 수가 달라 머신러닝에서 에러가 발생하게 된다고 해서 train.pop을 하고 합쳐서 인코딩 후 다시 분리 해서 진행해야 한다고 하셨는데기본형만(하나의템플릿만)외워가려는데 문제없는 자료에서도 concat을 쓰고 진행해도 문제가 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제1번 질문입니다
import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p1/members.csv") df.sort_values('views',ascending=False).head(10) df.iloc[:10,-1]=9690.0 cond = df['age']>=80 print(df[cond]['views'].mean())이렇게 코딩을 하면 답이 다른 이유가 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
RMSE관련 질문
시나공 책 작업형2 모의고사에는 from sklearn.metrics import mean_squared_error result = mean_squared_error(y_val, pred,squared = False) print("RMSE :" , result)으로 나오고 선생님 기출 강의를 보면 from sklearn.metrics import mean_squared_error def rmse(y_true, y_pred): return mean_squared_error(y_true, y_pred)**0.5으로 하라고 설명해주시는데 어떤것이 정답인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
target 질문
강의자료에y_train = train.pop("price") 이렇게 되어있던데 target = train.pop("price") 해도 같은걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 후
1. <class 'pandas.core.frame.DataFrame'>RangeIndex: 6665 entries, 0 to 6664Data columns (total 30 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 ID 6665 non-null int64 1 Age 6665 non-null int64 2 Work_Experience 6665 non-null float64 3 Family_Size 6665 non-null float64 4 Segmentation 6665 non-null int64 5 Gender_Female 6665 non-null bool 6 Gender_Male 6665 non-null bool 7 Ever_Married_No 6665 non-null bool 8 Ever_Married_Yes 6665 non-null bool 9 Graduated_No 6665 non-null bool 10 Graduated_Yes 6665 non-null bool 11 Profession_Artist 6665 non-null bool 12 Profession_Doctor 6665 non-null bool 13 Profession_Engineer 6665 non-null bool 14 Profession_Entertainment 6665 non-null bool 15 Profession_Executive 6665 non-null bool 16 Profession_Healthcare 6665 non-null bool 17 Profession_Homemaker 6665 non-null bool 18 Profession_Lawyer 6665 non-null bool 19 Profession_Marketing 6665 non-null bool 20 Spending_Score_Average 6665 non-null bool 21 Spending_Score_High 6665 non-null bool 22 Spending_Score_Low 6665 non-null bool 23 Var_1_Cat_1 6665 non-null bool 24 Var_1_Cat_2 6665 non-null bool 25 Var_1_Cat_3 6665 non-null bool 26 Var_1_Cat_4 6665 non-null bool 27 Var_1_Cat_5 6665 non-null bool 28 Var_1_Cat_6 6665 non-null bool 29 Var_1_Cat_7 6665 non-null bool dtypes: bool(25), float64(2), int64(3)원핫인코딩을 실행했는데저는 왜 bool값으로 나오죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
전처리
전처리할때target=train.pop('Segmemtation')은train에만 있으니까 빼준다?라는건 알겠는데tartget 값만 트레인에있느거 빼주는 것 같은데 test_ID=test.pop['ID']이건 꼭 해줘야하나요? 다른 문제들 경우 그냥 트레인에 있는 타겟값만 pop처리 이거 하나만 하는 것 같아서요.. 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출문제 작업형1
1-3. date_added가 2018년 1월 이면서 country가 United Kingdom 단독 제작인 데이터의 갯수에서제가 df['date_added']=pd.to_datetime(df['date_added']) cond1 = df['date_added'].dt.year ==2018 cond2 = df['date_added'].dt.month ==1 cond3 = df['country']=='United Kindom' print(len(df[cond1&cond2&cond3])) 했는데 저는 0이 나옵니다ㅠ 답은 6이 나와야하는 것 같은데 뭐가 잘못된 것일까요 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
print
print 관련 질문드려요보통제일 처음에 df로 해서 데이터 볼때print(df) 안하고 그냥 df만 해도 똑같은건가요?df.info() 이런것들도 이것만해도되는건지print(df.info())를 해야하는건지 궁금합니다.