묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
yolov3 , yolov5를 DenseNet 으로 변경할 수 있나요? 한다면 어떻게 해야 하나요?
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
첨부자료 관련
안녕하세요첨부파일 압축 풀면 들어있는 MACOSX 는 무엇일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출유형(작업형2)_ csv 파일 생성 오류 등
안녕하세요.강의 잘 듣고 있습니다. 항상 어의없을 질문에도 친절하게 답해주셔서 정말 감사드립니다.3회 기출유형(작업형 2)에서 관련해서 문의드립니다.1. 문제를 보고 회귀인지 분류인지 구분이 잘 안될 땐 모델링을 회귀도 해보고 분류도 해봐서 가장 성능이 좋은 걸 사용하면 되겠죠?2. 확률을 예측할 때분류모델이면 proba를 써야하는데predict=model.predict_proba(x_val)회귀모델일 경우에는 proba를 사용 안 해도 되나요?predict=model.predict(x_val) 3. Unnamed: 0 변수를 의미없는 값이라고 생각하여 데이터 전처리 과정 중에train, test 데이터에서 모두 drop을 했습니다.근데.... 왜 csv 파일 생성할 때, 다시 나타난 걸까요...ㅠㅠ<출력된 csv 파일..> <코드># 라이브러리 및 데이터 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") # EDA pd.set_option('display.max_columns',None) print(train.head()) # target: TravelInsurance 포함되어 있음 print(test.head()) print(train.shape, test.shape) print(train.info()) print(train.describe()) print(train.describe(include= 'object')) # Employment Type GraduateOrNot FrequentFlyer EverTravelledAbroad print(train.isnull().sum()) print(train.value_counts('TravelInsurance')) # 0 965, 1 525 # 데이터 전처리(결측치: 없음, 의미 없는 칼럼 삭제, ID 처리: 없음) # Unnamed: 0 삭제 train = train.drop('Unnamed: 0', axis = 1) test =test.drop('Unnamed: 0', axis = 1) print(train.shape, test.shape) print(train.head()) print(test.head()) # 피처엔지니어링(범주형) from sklearn.preprocessing import LabelEncoder cols = ['Employment Type', 'GraduateOrNot', 'FrequentFlyer', 'EverTravelledAbroad'] for col in cols: la = LabelEncoder() train[col] = la.fit_transform(train[col]) test[col] = la.transform(test[col]) # 데이터 분할 from sklearn.model_selection import train_test_split x_tr, x_val, y_tr, y_val = train_test_split(train.drop('TravelInsurance', axis =1), train['TravelInsurance'], test_size = 0.2, random_state = 2023) print(x_tr.shape, x_val.shape, y_tr.shape, y_val.shape) # (1192, 8) (298, 8) (1192,) (298,) # 모델링(회귀) # import sklearn # print(sklearn.__all__) # print(sklearn.linear_model.__all__) from sklearn.linear_model import LinearRegression model = LinearRegression() model.fit(x_tr, y_tr) predict=model.predict(x_val) print(predict) # 성능평가(roc_auc_score) from sklearn.metrics import roc_auc_score r = roc_auc_score(y_val, predict) print(r) #베이스: 0.7544863861386139 # 예측 predict=model.predict(test) # 데이터 내보내기 submit = pd.DataFrame( { 'y_pred' : predict } ).reset_index().to_csv("1111.csv") df1 = pd.read_csv("1111.csv") print(df1.head())
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅데이터 분석기사(3회): 기출유형-작업형1 문제1
안녕하세요!df = pd.read_csv("members.csv") import pandas as pd df = df.dropna() length = int(len(df) * 0.7) df = df.head(length) df['f1'].quantile(0.25)저는 처음에 위와 같이 풀었는데 값은 동일하게 57.0이 나오는데요!문제를 풀때 iloc를 안쓰고 해당 방법처럼 head(length)해서 df값에 넣어도 iloc랑 문제없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제3 문제8
df.groupby(['city', 'f2']).sum()안녕하세요, 문제를 풀다가 궁금한 점이 있어서 문의드립니다.위와 같이 코드를 작성하면<ipython-input-20-0b895b525272>:8: FutureWarning: The default value of numeric_only in DataFrameGroupBy.sum is deprecated. In a future version, numeric_only will default to False. Either specify numeric_only or select only columns which should be valid for the function. df.groupby(['city', 'f2']).sum()이런 오류가 발생하는데요. groupby에서의 sum함수가 deprecated되었다고 하는데요, 이는 다른 함수로 대체되거나 아예 사라지는 것으로 알고있습니다. 시험보는 버전 내에서는 문제없이 사용해도 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Warning 대처방법 문의드립니다.
작업형1 모의문제3의 문제8번 중 일부 코드를 실행한 결과 FutureWarning이 발생하였습니다.(다른 코드 실행시에도 종종 보입니다.)왜 발생하는지, 해결방법은 무엇인지 조언 부탁드립니다. 작성코드df=pd.read_csv("members.csv")df=df.fillna(method='bfill')df=df.groupby(['city','f2']).sum().reset_index() 실행결과<ipython-input-136-bfe31d68ed6e>:5: FutureWarning: The default value of numeric_only in DataFrameGroupBy.sum is deprecated. In a future version, numeric_only will default to False. Either specify numeric_only or select only columns which should be valid for the function. df=df.groupby(['city','f2']).sum().reset_index()
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출문제 작업형2
안녕하세요! 강의 듣던 중 질문이 생겨 글남깁니다. 2회 기출문제 작업형2 강의와는 다르게 왜 데이터 전처리 과정에서 수치형데이터와 범주형데이터를 분리하나요? 왜 2회 기출문제 과정에서는 필요가없는걸까요? ㅠㅠ # 수치형 데이터와 범주형 데이터 분리n_train = train.select_dtypes(exclude='object').copy()c_train = train.select_dtypes(include='object').copy()n_test = test.select_dtypes(exclude='object').copy()c_test = test.select_dtypes(include='object').copy() (↑이 과정에 대한 질문입니다!) 어쩔때 robustscaler를 쓰고, minmaxscaler를 쓰고.. 스케일 방법이 다양한데 어떻게 선택하는건가요? 검증데이터 분리할떄 test_size 설정기준은 무엇인가요? 0.1로할떄도 있고 0.2로 할떄도 있으신데 어떻게 선정하시는건가요? 위와 마찬가지로 검증데이터 분리과정에서 random_state = 1204 를 설정하는 이유가 이해가 잘 안갑니다 ㅠ 저것의 의미가 무엇이고 숫자는 왜 1204인건가요?? (3,4번 질문은 이 코드에서의 질문입니다! from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train.drop('TravelInsurance', axis=1),train['TravelInsurance'],test_size=0.1,random_state=1204)X_tr.shape, X_val.shape, y_tr.shape, y_val.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅분기 실기 제2문형에 관한 질문
✨빅분기 실기 너무 준비할께 많네요. TT실기 2유형에 같은 경우 모델을 정하고 데이터모형 평가 성능을 높이기 위한 하이퍼 파라미터 튜닝 절차를 반드시 거쳐야 하는지 여쭤봅니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
"모의고사2" 질문
선생님!!궁금한 점을 질문드리면 항상 빠른 답변 드리시는 점에 감사드립니다."모의고사2" 관련하여 궁금한점을 질문드립니다.평가지표가 f1 인데, f1도 점수가 높은 경우 성능이 좋은건가요? 만약 하이퍼파라미터 투닝을 할 경우 f1 점수가 높게 나오는 것으로 test 데이터를 에측해서 csv 화일을 작성해야 하는 건지요?'모의고사2'를 시험환경에서 연습하는데, 랜덤포레스트는 큰 문제 없이 진행되었는데, xgboost 모델로 할 경우 진행이 안되고 에러가 발생합니다.이유가 무엇이고 어떻게 수정해야 하는지요?
-
미해결딥러닝 CNN 완벽 가이드 - TFKeras 버전
Code 에러 도와 주십시오.
안녕하세요 선생님첫 예제인 Gradient_Descent_Pra...을 시험 해보려고 Kaggle에 입력 하였는데 위 그럼 같은 에러가 나옵니다.제가 보기에는 버전이 안 맞은것 같은데요, 확인 부탁 드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분류 모델 평가 관련
안녕하세요 빠른 답변 주셔서 공부에 많은 도움이 되고 있어 감사드립니다.roc_auc_score 평가 시에만 accuracy, precision, recall, f1 과 다르게 predict_proba를 사용하는 이유 궁금합니다
-
미해결캐글 Advanced 머신러닝 실전 박치기
깃허브 주소 문의드립니다.
안녕하세요! 선생님 강의 열심히 듣고 있는 학생입니다 "Anaconda와 Jupyter notebook 셋업하기"를 보면 선생님 깃허브에 들어가서 DLCV 파일을 다운받으라고 하셨는데, 깃허브 주소가 어떻게 되시나요? 아무리 찾아도 나오지 않아 문의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[시험환경에 적응하기:작업형2] 'DataConversionWarning'이유 알려주세요
작업형2를 아래와 같이 했는데 DataConversionWarning 나왔습니다검색해보니 y_train 변경때문이며 ravel()을 사용하라고하는데 이유 설명 부탁 드립니다[error명]DataConversionWarning: A column-vector y was passed when a 1d array was expected. Please change the shape of y to (n_samples,), for example using ravel().[작성내용]import pandas as pdX_test = pd.read_csv("data/X_test.csv")X_train = pd.read_csv("data/X_train.csv")y_train = pd.read_csv("data/y_train.csv")pd.set_option('display.max_columns',None)# 사용자 코딩#print(X_train.shape,X_test.shape,y_train.shape)#print(y_train.isnull().sum())#print(X_train['환불금액'].describe())X_train['환불금액']=X_train['환불금액'].fillna(X_train['환불금액'].mean())X_test['환불금액']=X_test['환불금액'].fillna(X_train['환불금액'].mean())#print(X_train.isnull().sum())X_train=X_train.drop('cust_id',axis=1)X_test_id=X_test.pop('cust_id')y_train=y_train.drop('cust_id',axis=1)#print(X_test.head(2))#print(X_train.select_dtypes(exclude='object').columns)# '주구매상품', '주구매지점'# '총구매액', '최대구매액', '환불금액', '내점일수', '내점당구매건수', '주말방문비율', '구매주기'from sklearn.preprocessing import LabelEncodercols=['주구매상품', '주구매지점']for col in cols: le=LabelEncoder() X_train[col]=le.fit_transform(X_train[col]) X_test[col]=le.transform(X_test[col])#print(X_train.head()) from sklearn.preprocessing import MinMaxScalercols2=['총구매액', '최대구매액', '환불금액', '내점일수', '내점당구매건수', '주말방문비율', '구매주기']scaler=MinMaxScaler()X_train[cols2]=scaler.fit_transform(X_train[cols2])X_test[cols2]=scaler.transform(X_test[cols2])#print(X_train.head(2))from sklearn.model_selection import train_test_splitX_tr,X_val,y_tr,y_val=train_test_split(X_train,y_train, test_size=0.3, random_state=2023)#print(X_tr.shape,X_val.shape,y_tr.shape,y_val.shape)#(2450, 9) (1050, 9) (2450, 1) (1050, 1)from sklearn.metrics import roc_auc_scorefrom sklearn.ensemble import RandomForestClassifierrf=RandomForestClassifier(random_state=2023)rf.fit(X_tr,y_tr)pred=rf.predict_proba(X_val)print(roc_auc_score(y_val,pred[:,1]))#0.654227735236709
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅데이터 분석기사 (2회): 기출유형-작업형2 질문
안녕하세요 강사님 해당 강의를 듣던 도중 질문이 있어서 글 남깁니다. 라벨 인코딩 부분에서 cols = X_train.select_dtypes(include='object').columns으로 표현하였는데시험장에서는 그냥 info()를 통해 데이터타입 확인이후 object에 해당하는 컬럼들만 직접 수기로 입력해도 되나요?ex) cols = ['Warehouse_block', 'Mode_of_Shipment', 'Product_importance', 'Gender'] 라벨인코딩을 해야될때와 원핫인코딩을 해야될때 상황판단을 어떻게 하는지 궁금합니다. 그냥 매번 라벨인코딩만해도 무방할까요? 검증 데이터 분리시 test_size를 때에따라 0.1이나 0.2나 매번 바뀌는데 시험장에서는 성능이 더 좋은 test_size를 판단하기 위해 숫자를 바꿔가며 시도해봐야하나요? 그게 아니라면 그냥 test_size와 random_state는 0.1과 2023으로 해도 무방할지요 해당 강의와 마찬가지로 모델값들은 전부 같은 값이 나오는데 (0.7084055061812334, 0.6321275746145835, 0.7279225281811363, 0.7370938759652275)이를 이용해 예측 및 제출에서 pred를 형성하면 array안의 확률값이 다르게 나옵니다. 이유가 있을까요? 강의에서 score가 0.7정도면 괜찮은 성능이라고 하셨는데요. 시험장에서 채점기준에서 만점과 부분점수를 맞는 기준이 성능차이인가요? 만약 성능을 내지 못하고 전처리까지만 하고 csv파일을 만들지 않았다면 이는 부분점수도 못받는걸까요?? 한 질문에 여러가지 질문을 해서 죄송하게 생각합니다! 좋은 강의 감사드립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제2 강의에서 문제4
문제 4번 마지막에 데이터수를 구하기위해 sum을 할때 이런 오류가 뜹니다 ㅠㅠ 정수형이랑 수치형은 연산이 불가하다는(?) 오류인거같은데 수치형으로 바꿔보고자 int(df) int(df.sum()) 등 다양한 시도를 해봤는데 이런 식은 통하지않더라구요 ㅠㅠ 질문1) 풀이 과정에서 뭔가 잘못건드렸을까요? 왜 이런 오류가뜰까요 ㅠㅠ 질문2) 이런 오류가 떴을때 df를 수치형으로 바꾸는방법? # your codeimport pandas as pddf = pd.read_csv('members.csv')cols = df.select_dtypes('object').columnscolsdf = df[cols]df.head()df = df.fillna(0)df = df.Tdf.head()print(sum(df.sum() > 3000)) <--------이 과정에서 발생되는 오류입니다 <오류메세지> /usr/local/lib/python3.10/dist-packages/pandas/_libs/ops.pyx in pandas._libs.ops.scalar_compare() TypeError: '>' not supported between instances of 'str' and 'int'
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 기출유형(작업형1) 에서 문제3
강의 듣고 혼자서 다시 풀어보는 도중에.. 질문이생겨 글남깁니다 ㅠㅠ 이상치를 벗어나는 값 찾기 cond1 = df['age'] < lowercond2 = df['age'] > upper여기까지는 이해가 가는데 여기서 이상치의 합을 구할떄 sum(cond1 + cond2) 를 하면 왜 안되는걸까요?'age'컬럼에서 lower 보다 작은것, upper보다 큰것을 더한다는 의미에서 될것같기도한데..sum(cond1 + cond2) 와 df[(cond1)|(cond2)]['age'].sum() 의 차이가 궁금합니다 ㅠㅠ 비전공자인지라 아직 개념이 부족하여 쓸데없는 질문을 많이드리는것같지만 ㅠㅠ 정확하게 공부하고싶어서 질문드립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요! 강사님매번 강의 감사드립니다~~~다름이 아니라, 자꾸 여기서 에러가 발생하는데transform 부분에 무슨 에러가 있는 지 도저히 모르겠어서요....ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제3 강의중 문제7번
index '2001' 데이터(행)의 평균보다 큰 값의 수 를 구할때 df.T 실행 후 행과 열을 바꾸어서 df['2001'].mean() 으로 평균을 구하면 왜 안되는걸까요? ㅠㅠ 이런식으로 오류가 뜹니다 .오류 : KeyError: '2001'
-
미해결혼자 공부하는 머신러닝+딥러닝
03-2 160쪽 릿지 회귀
지금 train_scaled, train_target을 그대로 쓰는데 train_scaled=ss.transform(train_poly)더라고요, 근데 앞에 코드 보면 poly=PolynomialFeatures(degree=5, include_bias=False) 이렇게 쓰이던데 릿지는 계수를 제곱한 항을 기준으로 한다했는데 지금 5제곱 항을 쓰는걸로 이해가 되거든요.... 개념이 어디서 헷갈린 건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제2 강의에서 문제4
문제 4번 마지막에 데이터수를 구하기위해 sum을 할때 이런 오류가 뜹니다 ㅠㅠ정수형이랑 수치형은 연산이 불가하다는(?) 오류인거같은데 수치형으로 바꿔보고자 int(df) int(df.sum()) 등 다양한 시도를 해봤는데 이런 식은 통하지않더라구요 ㅠㅠ 질문1) 풀이 과정에서 뭔가 잘못건드렸을까요? 왜 이런 오류가뜰까요 ㅠㅠ질문2) 이런 오류가 떴을때 df를 수치형으로 바꾸는방법? <작성한 코드># your code import pandas as pd df = pd.read_csv('members.csv') cols = df.select_dtypes('object').columns cols df = df[cols] df.head() df = df.fillna(0) df = df.T df.head() print(sum(df.sum() > 3000)) <--------이 과정에서 발생되는 오류입니다 <오류메세지>/usr/local/lib/python3.10/dist-packages/pandas/_libs/ops.pyx in pandas._libs.ops.scalar_compare() TypeError: '>' not supported between instances of 'str' and 'int'