묻고 답해요
156만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제 5번 IQR 관련 문제
import pandas as pd df=pd.read_csv('members.csv') q3 = df['views'].quantile(0.75) q1= df['views'].quantile(0.25) IQR=q3-q1 cond = (df['views']<q1-1.5*IQR)|(df['views']>q3+1.5*IQR) print(sum(cond)) 스스로 풀었을 때 이렇게 적었는데, or로 엮어서 합계를 구해도 각 조건 마다 카운트 해서 값을 정확히 내는 게 맞을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
컬럼 생략 ..?
id나 subscribed 컬럼은 어떻게해서 생략이 됐나요 ??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
object type 문제 다른 풀이 확인
#모의문제 2 - 내가 푼 것 import pandas as pd df=pd.read_csv('members.csv') #print(df.info()) cond=df.dtypes=='object' #print(df.shape) df=df.drop(df.columns[cond],axis=1) df=df.fillna(0) #print(df.shape) #print(df.info()) cond2=df.sum(axis=1)>3000 print(len(df[cond2])) 이렇게 해도 정답 73으로 동일한데, 이렇게 풀어도 되는지 여쭙고싶습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
age 결측치 및 이상치 처리 순서
age 컬럼의 결측치를 채운 후 이상치를 처리하는 순서로 진행이 되는 코드로 이해했습니다.그런데, age 컬럼의 이상치가 음수, 소수, 0 등으로 이상치 처리 전 결측치를 채우기 위해 평균(mean)값을 먼저 구한다면, 이상치가 평균값에 영향을 끼쳐 결측치 채움(대입)에 문제가 있지 않을까 생각이 되는데, 결측치 및 이상치의 전처리 순서를 바꾸어 이상치 처리를 먼저 하는 것은 어떨까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오류가 나는데 왜그런걸까요 ? 똑같이 타이핑했거든요 ㅠ
#중급단계 #목표 : 범주형 카테고리 데이터 활용하기 import pandas as pd train=pd.read_csv("train.csv") test=pd.read_csv("test.csv") #원핫?레이블인코딩? #EDA train.shape #범주형데이터를 원핫인코딩해보기 train.describe(include="O") test.describe(include="O") train=pd.get_dummies(train) test=pd.get_dummies(test) target=train.pop('Segmentation') test_ID = test.pop("ID") from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(max_depth=9, random_state=2022) model.fit(train,target) pred = model.predict(test) pred
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
베이직과 중급단계 분석까지 왜 데이터분할검증은 하지 않는것일까요?
바로 모델학습 예측을 하시는데 데이터분할검증 과정은 왜 안하셨는지 이유가 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제 1의 문제2번 질문
문제 2번에서 isnull()로 결측치를 계산해 보니 f1 컬럼이 결측치가 30% 이상이었습니다. 이때 결측치가 30% 이상인 컬럼을 df.columns[...]로 변수에 저장해서 사용하는 것보다, 컬럼 이름 f1을 직접 코드에 넣는 방식이 더 적절한 건가요? 실무에서는 어떤 방식이 더 많이 쓰이는지도 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train과 test object 유형 또는 갯수가 다르게 되면 어떤 처리가 필요한가요?
안녕하세요. train과 test object 유형 또는 갯수가 다르게 되면 어떤 처리가 필요한가요? train.describe(include=object), test.describe(include=object) 프린트해서 보면 개수가 같은지 보고 있는데요. 1.다른 경우는 어떻게 해야하는지, 2.아니면 범주 자체가 다른데 갯수만 똑같으면 상관없는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
검증데이터 분리
위에가 영상 속 코드고 밑에가 제가 작성한 코드 인데 영상 속 코드 처럼 안하고 제가 작성한 대로 해도 괜찮은가요?target = train.pop('price') from sklearn.model_selection import train_test_split X_tr,X_val,y_tr,y_val = train_test_split(train,target,test_size=0.2, random_state=0)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
name, host_name,last review,host_id 삭제
컬럼을 삭제할 때 그냥 아무거나 삭제해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이제 sklearn에서 rmse를 지원하는걸로 아는데
지원하더라도 그냥 rmse말고 mse를 이용해서 구해도 전혀 상관없는건가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
함수 매개변수 질문
안녕하세요 질문 있습니다!함수 정의시 예를들어 def maxmin(data): 라고 정의를 할 떄,소괄호안 data 에는 아무 값이나 들어가도 되는건가요? maxmin() 일때는 함수 실행이 안되고maxmin(x) 또는 maxmin(y) 등을 쓰면 실행은 되던데... 소괄호 안에 들어 갈 수 있는 변수의 범위가 궁금합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제풀이 질문있습니다~
몇가지 학습에 있어 궁금함이 생겨 질문드립니다. 1) 작업형 제1유형에서 사진과 같이 짤리는데 방법이 없을까요? 시험 환경도 동일 하더 라구요2) 작업형 1유형에서 문제3을 푸는데선생님이 푼거랑 다르게 풀어서 문제 답 내도 상관없나요?3) 작업형 2유형에서 만약 MAE를 안돌리고 답안제출한다면 y_val은 필요가 없는건지 궁금합니다^^
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이진분류 f1 (target 문자)
안녕하십니까 from sklearn.metrics import f1_score f1 = f1_score(y_true_str, y_pred_str, pos_label='A') 문자일때, pos_label = "A" (A:양성값 1)로 입력이 필요하다고 하셨는데, 여기 양성값(1)에는 어떤 값을 넣어야 하는걸까요?target을 넣으면 될까요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 강의 업데이트 관련
섹션5에 작업형2 강의 내용이 새로 업데이트되었던데, 얼마전에 업데이트 되기전 강의를 다 보았어서요, 업데이트 전과 후가 많이 달라졌나요?? 다시 강의를 듣는게 좋을까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
검증데이터 분할
검증데이터 분할을 할 때 왜 gender를 drop하나요?from sklearn.model_selection import train_test_splitX_train,X_val,y_train,y_val =train_test_split(train.drop('gender',axis=1),train['gender'],test_size=0.2,random_state=0)print(X_train.shape,X_val.shape,y_train.shape,y_val.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
pos_label 사용 여부
pred 컬럼 명이 0또는1이 아니라 문자일 때 컬럼을 선택해주기 위해서 pos_label을 사용해준다고 하셨는데 모든 평가지표에서 pos_label을 사용해야 하는지와 pos_label을 써서 컬럼을 선택해줬는데, 실제 값을 예측할 때 {'pred':pred[:,1]}을 해주는게 맞는지 궁금합니다 이미 한 컬럼이 선택됐는데 범위를 지정할 경우 이상이 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
target 지정하는 방법
pop 이용하지않고 제가 쓴 것처럼 저런 코드로 target 지정하면 추후에 어디에 문제가 발생할까요?import pandas as pd train=pd.read_csv("train.csv") test=pd.read_csv("test.csv") #분류문제이고 랜덤으로 할것이다. #전처리 필요없음 (결측치없음) #basic 수치형데이터만 활용 train.info() target=train['Segmentation'] train=train[['Age','Work_Experience','Family_Size']] test=test[['Age','Work_Experience','Family_Size']] from sklearn.ensemble import RandomForestClassifier model=RandomForestClassifier() model.fit(train,target) pred=model.predict(test) pred
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
8회 기출유형 작업형3 문제 1-1 "0.05 이상" 문의
8회 기출유형 작업형3 문제 1-1 "0.05 이상"이면은 >=로 찾아야 하는게 아닌가요? 영상에서는 >로 작성하셔서 문의드립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출4 작업형1 1번째문제에서 결측값을 마음대로 제거하고 구하면 안되는거죠?
3사분위수와 1사분위수의 차를 구하는 문제에서결측값이 있는 컬럼들의 결측값을 제거한 후에 즉 전처리를 한후에 답을 구하면 안되는거죠?