묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 질문
1. df.groupby(['지역코드','성별'])['총대출액'].sum()그룹화할떄 지역코드, 성별 둘다 할때 보통 groupby('컬럼명') 인데 이때는 ( ) 안에 [ ] 이걸 해야하는건가요?두개이상으로 그룹화할때 (['지역코드'], ['성별'] ) 이 아니라 (['지역코드', '성별'])인 이유가 있을까요2. 1) "발생건수"와 "검거건수"를 따로 분리cond1 = df['구분'] == "발생건수"cond2 = df['구분'] == "검거건수"df1 = df[cond1].iloc[:, 2:]df2 = df[cond2].iloc[:, 2:]검거율을 바로 계산하지 않고, 따로 분리하는 이유가? 이해가 잘 안갑니다3. df.groupby(['부서', '성과등급'])['근속연수'].mean() 이것과df.groupby(['부서', '성과등급'])['근속연수'].transform("mean")이것은 다른가요?transform("mean")으로 써야하는건가요?df.groupby('기준컬럼')['값컬럼'].mean()이랑df.groupby('기준컬럼')['값컬럼'].transform('mean')이랑 차이점을 잘 모르겠습니다그럼 그룹별로 합계? 이런거 할떄도 df.groupby('기준컬럼')['값컬럼'].transform('sum') 이렇게 해야하나요? 뒤에 transform('')괄호 부분에 max,min 등등을 넣는건가요? 4. 각 직원의 '연봉 / 근속연수' 값을 계산하여, 그 값이 세 번째로 큰 직원의 근속연수 구할때sort_values로 데이터 본 다음에 눈으로 본 값으로 알아서 1을 (loc 이런걸로 구하지 않고)a=1 이렇게 코딩해도 괜찮나요? 감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델 질문
2회차 모의고사의 인강에서는 labelencoding을 사용후에 여러개의 모델을 사용하였는데, 꿀팁? 인강에서는 LGBM을 사용하면 obj 타입을 category로 변경만 해주면 된다고 하셨습니다.어떤 방식이 더 낫고 맞는걸까요?현재 상황은 라벨인코딩 사용 가능하며, 시험 때 랜덤포레스트와 LGBM을 사용하려 계획중입니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
정답 적을 때 질문
1. 유의하지 않은 독립변수 개수 구할때 summary보고 바로 8이라고 적어도되나요?print(sum(model.pvalues[1:] >0.05)) 이 코딩도 해야하는지 궁금합니다2. 2-1, 2-2(결정계수) 구하는것도 그냥 summary 보고 바로 적어도되나요?3. 반올림이나 정수 구하는것도 그냥 기본 수치 보고 코딩 안하고 바로 적어도되는지 궁금합니다. 점수엔 영향을 미치지 않나요?감사합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회기출 작업형 1 질문
1에 2번문제.. 이렇게 코딩하면 정답이 안나오는 건가요..?import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/7_1/stock_market.csv") df.head(3) df2 = df.corr() df2 = df2.iloc[:77] df2 = df2.sort_values('close', ascending = False) df2 print(df['DE19'].mean())
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 질문
1. import pandas as pddf = pd.read_csv이거 적는것은 (데이터 불러오는 것은) 시험에서 제공하고 있다고 했는데(그럼 시험장에선 따로 안 적어도 되는것이죠?)이 사이에 from sk.learn.preprocessing import MinMaxScaler 이건 매번 직접 적는건가요2. train = train.drop('customerID', axis=1)test = test.drop(['customerID'], axis=1)target = train.pop('TotalCharges')ID를 drop안하고 그냥 타겟=만해도 되나요?보통 그냥 tartget=~만 하는 것 같아서요 단순한(?) 질문만 하는것 같네요ㅠ일단 쭉 빨리 들으면서,, 다시 복습하고자 합니다(조금씩 뭔가 알거는 같은데, 시간이 촉박하다 보니 빈틈이 생기는 것 같지만.ㅠ)끝까지 열심히 하겠습니다항상 좋은 강의 감사드립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
범주형 변수 처리
안녕하세요. 언제나 수고가 많으십니다 :)ols나 logit 모델을 만들 때, 문제에서 '해당 변수가 범주형이라고 명시되어 있는 경우'에만 변수에 C()를 감싸주라고 하셨는데요!제가 궁금한 부분은 '<<명시>>가 정확히 무엇인지' 입니다. 예를 들어 시험 환경의 문제를 보면 아래와 같이 표현되어 있는데요.Pclass: 좌석 클래스 (1: 1등석, 2: 2등석, 3: 3등석) 위의 표현은 Pclass가 범주형이라고 명시되어 있는 것이라고 이해하고, Pclass 사용 시 C()로 감싸주면 될까요?아니면 말그대로 문자로 "이 변수는 숫자이지만 범주형입니다."라고 적힌 것만 명시로 받아들어야 하나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제1-3 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요앞서 ols을 만들때 data=train 즉 트래인에 있는 데이터로 학습을 한건데 테스트를 예측할때 data=test가 아닌 원래 train데이터로 학습된 모델을 그대로 사용하는이유가 뭘까요? 문제에서 1-2에서 적합한 회귀모형을 이용하라는 단서때문인가요? 아니면 원래 train 데이터로 학습된 모델을 사용해야해서 그런간가요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
타겟 인코딩
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요분류 문제일때 타켓값을 인코딩 안해도 되는 건 항상 그런 건가요? 범주형 칼럼 인코딩은 필수인데 범주형 타겟값 인코딩은 왜 안하는지 궁금합니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 코드 암기
안녕하세요 강의 열심히 보고 있습니다. 먼저 정말 감사드립니다.다음주 시험 준비중인데, 작업형2를 방금 시작해서요. 혹시 빅이시에 올라온 기초1,2,3만 외워도 작업형2 부분 만점 받을 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제 2번 질문이 있습니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요처음에 문제를 풀 때는 원핫 인코딩 방식을 쭉 쓰는 것을 선호했기 때문에 결측치가 존재하는 행만 제외하는 방식(train.dropna(axis=0) 함수 이용)으로 train과 test의 결측치 처리를 하고, 사진에 보이는 코드를 이용해서 원핫 인코딩을 진행하였습니다.하지만 이렇게 인코딩을 하니 이후 train_test_split을 진행하고, 랜덤포레스트로 학습을 진행하려고 하니 런타임이 1분 이상으로 지나치게 오래걸리는 문제가 나타났습니다. 문제를 해결하지 못해 강의에서 설명한 방식대로 train.nunique의 수와 결측값이 많은 컬럼들을 drop하고 labelencording을 하는 방식으로 수정하여 끝까지 풀 수는 있었습니다. 시험에서 겪었다면 너무 당황했을 것 같은데 연습때 겪어서 천만다행이라 생각합니다. 혹시 이런 경우처럼 nunique의 개수가 많거나 데이터 자체의 shape가 거대할 경우는 원핫보다는 label 인코딩을 진행하는 것이 더 원할하게 진행하는 것이 옳은 방식인가요? 아니면 사진에 나온 인코딩 방식에 에러가 있었는지 질문드리고자 합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험 코드 작성중 질문이 있어요
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 google colab으로 LabelEncoder를 타이핑 하면 Lab.. 쯤에서 자동 완성하기가 뜨는데시험에서는 자동완성 없이 대문자와 풀 스펠링을 정확하게 외워가야 하는 것이죠?LabelEncoder
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
잔차이탈도
# 방법1from statsmodels.formula.api import logit# 1) 로지스틱 회귀 모델 생성 및 학습model = logit("gender ~ age + length + diameter + height + weight", data=train).fit()print(model.summary())# 2) 잔차 이탈도 계산print(round(-2 * model.llf,2))# 방법2from statsmodels.formula.api import glmimport statsmodels.api as sm# 1) glm 모델 적합 (로지스틱 회귀를 위해 이항 분포 사용)formula = "gender ~ age + length + diameter + height + weight"model = glm(formula, data=train, family=sm.families.Binomial()).fit()# 2) 잔차이탈도 계산print(model.summary())print(round(model.deviance,2))중에서 방법1을 써도 괜찮나요?차이점이 궁금합니다 방법1 에서 -2 * model.llf,2 이건 무슨 뜻이죠?llf가 어떤 것인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
sklearn rmse 제공하는데 강의는 없다고하는게 옛날거라 그런건가요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요sklearn 에서 rmse 도 제공하는걸로 보이는데, 계속 없다고 말씀하시는게 생기기 전에 촬영하셔서 그런걸까요???
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회기출문제(문1과 연습문제 4번)
views_min = df['views'][:10].min() 여기부분이 2회기출 설명은 뷰가 앞이고 연습문제 4번에서는 iloc가 앞이에요 views_min = df.iloc[:10]['views'].min()views와 iloc 순서 바뀌어도 상관없는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
index=False 로 제출하고 이후 print 로 확인해봤는데 인덱스나오는건 상관없는건가요?
print(pd.read_csv('result.csv')) pred 0 Low 1 High 2 High 3 Low 4 Low .. ... 226 Very Low 227 Medium 228 Very Low 229 Low 230 Very High [231 rows x 1 columns]# test 예측 pred = rf.predict(test) submit = pd.DataFrame({ 'pred':pred }) submit.to_csv('result.csv', index=False)아래 index=False 하고 제출 후 해당 파일 확인하니까 인덱스가 보이는데요. 이건 그냥 상관없는건가요? 제출 자체는 인덱스없이 된건데 제가 프린트 할때 index=False 를 안해서 그냥 뜨는건가요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 pop 함수 사용 환경
안녕하세요. 공부하던 중에 궁금한 게 있어서 글 남깁니다! 작업형2 모의 문제를 풀 때랑 기출 10회 풀 때 사용하는 pop함수가 헷갈리는 게 있어 여쭤봅니다.모의 문제에서는, 예를 들어 5-2에서는 csv 파일 생성 예시가 다음과 같아서 id는 train에서 삭제, test에서는 pop으로 저장해두고 타겟인 price는 검증 데이터 분리 과정에서 삭제하는 것으로 알고 있습니다.id,price 34323697,238 29927138,183 120362,234그런데 기출 10회 풀이를 보면 타겟인 pred(=총가스사용량)에 대하여 pop 함수를 사용하는 것으로 나오는데요. 타겟 값을 pop에 넣는 경우도 있고 안 넣는 경우도 있는 거 같아서 해야만 하는 과정인지 궁금합니다. 혹시 pop을 쓰면 랜덤포레스트 식에서 drop을 안 해줘도 되고, 안 쓰면 drop을 해줘야 하는 거랑 관련된 걸까요?target = train.pop('총가스사용량')
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
중간에 rmse, f1_score 등 평가지표 구하는거 어떻게 채점하는걸까요~?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요실제로 제출은 csv 파일로 하는데, 그 중간에 rmse 등 평가지표 구하잖아요이거 뭐 답안 제출하는 곳이 있는건가요? 아니면 코딩한걸 전부 다 보고 확인하는걸까요??아니면 그냥 평가지표 점수로 단순히 모델 선택할떄 쓰는 기준인건가요? 어리석은 질문같지만.. 평가지표를 계속 구하고있는데 실제로는 csv 로 제출하는데 왜 구하는걸까하는..
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
명령어 암기 정리된내용이 있을까요?
안녕하세요, 다른 강의와 빅이시 준비 보고 있는데,아무래도 명령어를 외우는 부분에 대해서 부담이 많이 되더라고요각 과목에서 암기해야 한다고 알려주신 명령어들에 대해서 정리한 자료가 있으면 좋다고 생각하는데혹시 그런 강의자료가 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 질문
1. aixs=1 이 헷갈립니다 열방향 계산일때 axis=1을 넣는다고 하셨는데,학교명 별로 1학년2학년3학년 4학년5학년6학년 쭉 다 더하는건 ---->가로 방향이면 각 행을 더하는 것 아닌가요?2. 가장 많은 전체/교사로 내림차순 정렬했을때 그 표만 읽고 바로 교사수 19로 답 적어도되나요?아니면 print뭐를 사용해서 19인걸 코드로 나타내야하나요? 감사합니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형1] 연습문제 25번 문제 dt.days
안녕하세요. 연습문제 25번 문제에서 dt 연산자 활용하여 일 단위를 계산하려고 할 때, 원래 dt.day 아닌가요? dt.day로 코딩하려니 오류가 납니다.구글에 아무리 서치해봐도 dt.day 밖에 검색이 되지 않는데, 버전이 업데이트가 되어 바뀐걸까요?