묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train데이터가 두개 주어졌을때(추가질문)
안녕하세요! concat에 대한 질문글을 달았다가, 대댓글은 알림이 가지 않는거 같아서 추가질문 드립니다 :) 질문: 어차피 train,test 두개 줘도 train에서 타겟값 분리하고 train, test 컬럼수 일치시키고 진행하니까 굳이 합칠 필요는 없을거 같은데 이해한게 맞을까용? 주로 concat을 이용할때는 train-test 컬럼을 다르게 가지고 있을때 전처리를 위해 이용하겠네요..!답변: 넵 분리되어 있다는 것을 인지하고 있다면 하지 않아도 됩니다.다만 y_train에는 타겟값 뿐만 아니라 ID를 포함하고 있어 이 부분은 주의하셔야 해요! SalePrice 컬럼을 선택해야 해서 기존과 코드가 약간씩 달라질 수 있어요! >> y_train에 id/price(타겟) 컬럼이 있다고 치면, 원래 타겟값만 별도로 저장하고 x_train/test만 사용했는데용...x_train id값과 y_train id값을 일치시켜서 합쳐야된다는 말씀이실까요?아니면 분리할때 id값도 같이 저장안되게끔 주의하라는 말씀이실까요?!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 시험 적용 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요. 빅데이터분석기사를 준비하고 있습니다.시간이 얼마 남지 않아 2유형을 할 때 머신러닝 학습 및 평가 부분을 제외하고 바로 머신러닝 학습 후 test 데이터에 적용해서 예측 결과를 제출해도 크게 상관 없을까요?2유형을 랜덤 포레스트 방식 하나만 외워서 시험을 응시할까 하는데 괜찮을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제3번 equal_var
예시문제가 제 예상보다 너무 어렵게 나온거같아서 지금 혼란스럽습니다. 학습하지 않은 내용이 나왔네요3번에서 equal_var=True는 생략해도 가능하죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 범주형변수 처리시
작업형 3에서 범주형변수 처리시 어떤경우에는 C()처리하고 어떤경우에는 하지말고...헷갈려요강의들을때 독립변수는 그냥 다 C()처리해서 하는것도 좋다고 하셨던거같은데 정리 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
가설검정의 독립표본검정
안녕하세요카이제곱의 독립성검정과 가설검정의 독립표본검정이 문제로만 봐서는 헷갈리는데 시험에서는 지문에 어떤 검정방법을 쓰라고알려주나요? 작업형3은 문제 지문을 보고 어떤 검정방법을 써야하는지 너무 헷갈리네요ㅠ
-
미해결Airflow 마스터 클래스
Airflow 3.* 버전 수강생 Chapter 18 수강
안녕하세요, 좋은 강의 잘 수강하고 있습니다.다름이 아니라 현재 시점으로 airflow 3.* 버전으로 수강 중에 있는데 Chapter 18을 건너뛰고 Chapter 19를 들으면 되는건지 궁금해서 질문 남깁니다. 답변 미리 감사드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅분기 실기 1유형 3유형 풀이과정
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요빅분기 실기 1유형 3유형 풀이과정이 중요한가요?풀이 중에서 정답 출력이 반드시 필요하지 않다고는 말해주셨는데실제로 그런 것인지 ... 몇 문제는 눈으로 풀 수 있는건 그냥 풀어도 될까 해서 질문드립니다 ㅎㅎ(6회 3유형처럼 데이터 수가 많지 않은 문제는 혹시 기억이 안 날 때, 그냥 데이터 프레임 만들어서 비교해도 되나 해서 질문드립니다) import pandas as pd df = pd.DataFrame({ "항암약":[4,4,3,4,1,4,1,4,1,4,4,2,1,4,2,3,2,4,4,4] }) # 1: '아픔', 2: '조금 아픔', 3: '속쓰림', 4: '무증상'
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리 방법
Object를 제거하면 검증 결과가 더 좋다고 하였는데요. object를 제거하는 방법이 drop 명령어로 삭제도있지만.cols = train.select_dtypes(exclud='ojbect').columnstrain = train[cols]위의 코드해도 결과는 같겠죠?
-
해결됨Azure Native로 나만의 GPT 만들기
API 배포시 No HTTP triggers found. 이슈 발생
10:07:43 PM bh-mygpt-api-function: Zip package size: 5.59 kB 10:07:44 PM bh-mygpt-api-function: Fetching changes. 10:07:45 PM bh-mygpt-api-function: Cleaning up temp folders from previous zip deployments and extracting pushed zip file /tmp/zipdeploy/f322c28d-ce96-4124-9cb3-252f7c3879e2.zip (0.01 MB) to /tmp/zipdeploy/extracted 10:07:47 PM bh-mygpt-api-function: Updating submodules. 10:07:48 PM bh-mygpt-api-function: Preparing deployment for commit id '46352960-d'. 10:07:48 PM bh-mygpt-api-function: PreDeployment: context.CleanOutputPath False 10:07:48 PM bh-mygpt-api-function: PreDeployment: context.OutputPath /home/site/wwwroot 10:07:48 PM bh-mygpt-api-function: Repository path is /tmp/zipdeploy/extracted 10:07:48 PM bh-mygpt-api-function: Running oryx build... 10:07:48 PM bh-mygpt-api-function: Command: oryx build /tmp/zipdeploy/extracted -o /home/site/wwwroot --platform python --platform-version 3.11 -p packagedir=.python_packages/lib/site-packages 10:07:49 PM bh-mygpt-api-function: Operation performed by Microsoft Oryx, https://github.com/Microsoft/Oryx 10:07:49 PM bh-mygpt-api-function: You can report issues at https://github.com/Microsoft/Oryx/issues 10:07:49 PM bh-mygpt-api-function: Oryx Version: 0.2.20230210.1, Commit: a49c8f6b8abbe95b4356552c4c884dea7fd0d86e, ReleaseTagName: 20230210.1 10:07:49 PM bh-mygpt-api-function: Build Operation ID: 379fd46c502b6733 10:07:49 PM bh-mygpt-api-function: Repository Commit : 46352960-d49c-4dd9-8718-f017c28fb0aa 10:07:49 PM bh-mygpt-api-function: OS Type : bullseye 10:07:49 PM bh-mygpt-api-function: Image Type : githubactions 10:07:49 PM bh-mygpt-api-function: Detecting platforms... 10:08:00 PM bh-mygpt-api-function: Syncing triggers... 10:08:02 PM bh-mygpt-api-function: Querying triggers... 10:08:03 PM bh-mygpt-api-function: No HTTP triggers found. VS Code에서 API 배포시 No HTTP triggers found 가 뜨면서 배포가 제대로 안되는 것 같습니다.저도 애져 포탈에서 함수 앱을 만들 때 스토리지 부분이 없었는데 다른 분들의 질문답변 내용을 참고해서 AzureWebJobsStorage 을 액세스 키로 채워줘도 해결되진 않았습니다어디 부분이 문제일까요??그리고 코드 틀린 부분이 있는지 확인하고 다시 테스트를 해보려면 강의를 처음부터 다시 봐야하는데 완성된 코드 예제는 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강사님 안녕하세요!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요지난번에 고민있어요에 올렸다가 질문 카테고리에 올리라고 하셔서고민이지만 질문에 적어봅니다! 현재 강사님 책을 2025년 버전으로 가지고 있고, 인강은 1회 완강을 하고,1유형, 3유형은 기출로, 2유형은 기출 + 캐글 competition에서 learner단계..? beginner단계..? 쉬운거 참여 하면서 처음 보는 데이터에 익숙해지려고 그냥 무한 반복 코딩 하고 있습니다. 근데 인강만 1회 완강했지, 책에 있는 개념이나 문제는 보지 않은 상태인데요,시험 12일 남은 지금 시점에서 책을 한번이라도 봐야하는지, 혹은 기출 무한반복하면서 2유형은 competition 계속 새로운거 도전하는게 더 합격 확률을 높이는건지 궁금합니다!책이 있으면서 안본게 계속 마음에 걸려서요 ㅠ_ㅠ 그나저나 진짜 예시문제 2유형 오류 아니면 어쩌지 하면서 엄청 스트레스 받고, 진짜 허탈하고 의욕 사라졌었는데 오류인거 알아주시고 업데이트되었다고 칼소식 알려주셔서 너무 감사해요ㅠㅠ이번이 1트이자 마지막 시험으로 강사님 믿고 합격길 달려보려고 합니다!!빅분기 공부하는 매 순간 감사드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1모의문제1
여기서 선생님의 코드와 똑같이 작성했는데 오류가 발생합니다. 그래서 아래의 코드와 같이 작성하면 선생님의 답안과는 다른 결과값이 나와서 문의 드립니다df.quantile(.75,numeric_only=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3과목 질문
A하고 B 둘중에 한개만 정규성 만족하면 ttest를 해도되나요? 아니면 한개만 만족할때는 맨휘트니유 써야하나요?
-
해결됨Azure Native로 나만의 GPT 만들기
학습 대상자 질문입니다
안녕하세요~ 먼저 좋은 강의를 무료로 공개해주셔서 감사드립니다다름이 아니라 제 현재 수준이 기초CS나 백엔드 등의 지식이 전무하다보니 강의를 보면서 따라해보고는 있지만 무슨 내용인지 모른 상태로 따라쳐보고만 있고 이슈가 발생하면 막히면서 진행하는데 차질이 큰데 일단 몰라도 쭉 따라가는게 괜찮을까요?? 공부 방법을 어떻게 하면 좋을지 궁금하여 문의드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출7 작업형1 3번문제
1. 코드 import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/7_1/air_quality.csv") # Q1,Q3,IQR 구하기 Q1 = df['CO2'].quantile(0.25) Q3 = df['CO2'].quantile(0.75) # print(df.describe()) # print(Q1,Q3) IQR = Q3 - Q1 # 상하한선 구하기 up = Q3 + 1.5 * IQR down = Q1 - 1.5 * IQR # 이상치 수 찾기 cond = (df['CO2'] > up) | (df['CO2']<down) cond.isnull().sum() 2. 결과값 np.int64(0) 3. 질문 제가 마지막에 cond.isnull().sum()로 썻더니 결과가 0이 나오고, df[cond]로 쓰면 선생님 영상처럼 답이 잘 처리됩니다. 제가 최초에 한 코드가 왜 답이 0이 나오는지 모르겟습니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
drop 함수 사용시 재실행 오류
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요 기출 8회차 작업형 2문제인데요, 시험환경과 같이 한 곳에다가 코드를 입력하려고 연습을 하는 중이지만, drop 함수를 사용하고 재실행하면 오류가 발생하여 코드를 나눠서 작성하게 됩니다. 처음 데이터를 재실행하는 것 외에 해결방법이 없을까요? 시험환경에서는 코드를 한곳에 모두 작성해야되어서 걱정이 됩니다..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
어떻게 data가 listbox의 값을 불러오는 건가요?
19:25 여기서 listbox라는 이름에 값을 넣었는데, 함수 정의할 때 data라는 이름으로 정의된 것이 없는데도 어떻게 data가 listbox의 값을 불러오는 건가요? 이렇게 함수를 정의해도 되는거 아닌가요?def min_max(listbox): mi = min(listbox) ma = max(listbox) return mi, ma
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2_모의문제2
#1. 문제탐색 # 회귀모델 csv id,price # target : price # R-Squared, MAE, MSE, RMSE, RMSLE, MAPE # 2. 데이터불러오기 import pandas as pd import numpy as np train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/ab_nyc/train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/ab_nyc/test.csv") # train = pd.read_csv("train.csv") # test = pd.read_csv("test.csv") #3 데이터 탐색 #print(train.shape, test.shape) #print(train.head(3), test.head(3)) #print(train.isnull().sum(), test.isnull().sum()) #print(train.info(), test.info()) #4. 데이터 전처리 #print(train.shape, test.shape) cols = ['name', 'host_name', 'host_id'] train = train.drop(cols, axis =1 ) test = test.drop(cols, axis =1 ) #print(train.shape, test.shape) train['last_review'] = train['last_review'].mode(0) test['last_review'] = test['last_review'].mode(0) train['reviews_per_month'] = train['reviews_per_month'].fillna(0) test['reviews_per_month'] = test['reviews_per_month'].fillna(0) #변수부여 target = train.pop('price') train = train.drop('id', axis=1) id = test.pop('id') cols = train.select_dtypes(include = 'object').columns #print(train.shape, test.shape) #레이블인코딩 from sklearn.preprocessing import LabelEncoder for col in cols : le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size = 0.2, random_state = 2) #6.모델 학습 및 평가 from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor(random_state = 2) rf.fit(X_tr, y_tr) pred = rf.predict(X_val) from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error, mean_absolute_percentage_error mae = mean_absolute_error(y_val, pred) mse = mean_squared_error(y_val, pred) mape = mean_absolute_percentage_error(y_val, pred) rmse = np.sqrt(mean_squared_error(y_val, pred)) print(f"mae: {mean_absolute_error(y_val, pred)}") print(f"mse: {mean_squared_error(y_val, pred)}") print(f"mape: {mean_absolute_percentage_error(y_val, pred)}") pred = rf.predict(test) submit = pd.DataFrame({'id' : id, 'price' : pred}) submit.to_csv("0516.csv", index = False) pd.read_csv("0516.csv") 안녕하세요 모의문제 2-2번 레이블 인코딩으로 작성했는데 피드백주실 사항 있으실까요?이 문제도 원핫인코딩으로 진행해야할까요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형_2모의문제1번_피드백
#1. 문제파악 # 분류모델 / ROC-AUC, 정확도(Accuracy), F1, 정밀도(Precision), 재현율(Recall) #TARGET : Attrition_Flag # CSV("CLIENTNUM,Attrition_Flag) , 수험번호.CSV #2. 데이터불러오기 import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/ceredit%20card/train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/ceredit%20card/test.csv") # train = pd.read_csv("train.csv") # test = pd.read_csv("test.csv") #없을 경우 -> 원핫인코딩 / 있으면 레이블인코딩 #3. EDA #print(train.shape, test.shape) #print(train.info(), test.info()) #print(train.isnull().sum(), test.isnull().sum()) #print("test에만 있는 컬럼:", test_cols - train_cols) #train_cols = set(train.columns) #test_cols = set(test.columns) #4. 데이터 전처리 #공통 print(train.shape, test.shape) target = train.pop('Attrition_Flag') train =train.drop('CLIENTNUM', axis=1) id = test.pop('CLIENTNUM') print(train.shape, test.shape) #레이블 인코딩 cols = train.select_dtypes(include = 'object').columns from sklearn.preprocessing import LabelEncoder for col in cols : le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col]= le.transform(test[col]) #5. 데이터 분할 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=2) #6. 모델 학습 및 평가 from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=2) rf.fit(X_tr,y_tr) pred = rf.predict(X_val) pred1 = rf.predict_proba(X_val) from sklearn.metrics import roc_auc_score, f1_score, recall_score, accuracy_score, precision_score roc = roc_auc_score(y_val, pred1[:,1]) f1 = f1_score(y_val, pred) recall = recall_score(y_val, pred) acc = accuracy_score(y_val, pred) pre = precision_score(y_val, pred) #7 평가 pred_test = rf.predict(test) pred1 = rf.predict_proba(test) #print(pred1) submit = pd.DataFrame({'CLIENTNUM' : id, 'Attrition_Flag' : pred1[:,1]}) submit.to_csv("0000.csv", index = False) pd.read_csv("0000.csv") 안녕하세요~이번엔 레이블인코딩으로 데이터전처리해서 풀어봤습니다 혹시 피드백해주실 부분이 있으실까요~?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 - 모의 3 문제 8번
안녕하세요. 문제 8번 원본 데이터가 변경된 것 같습니다.불러오는 주소가 잘못 되었거나.. 데이터가 바뀐 것 같습니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2문제에서 컬럼을 삭제하는 기준?
작업형 2 문제를 풀때 컬럼을 삭제하는 기준에서ID와 같은것은 무조건 삭제하는것이 좋을까요? 아래와 같은 예시에서는 비행편 컬럼을 삭제하고 시작하셨는데...카테고리수가 다르다고 함부로 삭제하는건 또 아닐거같은데 기준을 어떻게 정하면 좋을까요?저는 비행편 컬럼을 삭제하지 않고 회귀모델을 만들었는데 rmse가 더 적게 나오긴했고요..=print("\n ===== 카테고리 비교 =====") cols = train.select_dtypes(include='object').columns for col in cols: set_train = set(train[col]) set_test= set(test[col]) same = (set_train == set_test) if same: print(col, "\t카테고리 동일함") else: print(col, "\t카테고리 동일하지 않음") train = train.drop('flight', axis=1) test = test.drop(