묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
loc[2000]
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요아래처럼 코드 짜도 되는지?m = df.loc[2000] > df.loc[2000].mean() print(sum(m))
-
미해결파이썬을 활용한 데이터분석과 IT보안
강의자료 확보가 어렵네요....
따라하기로 강의를 수강중에 있습니다.강의 환경을 구성하려고 하는데, ova 등 관련링크가 모두 옛날자료라서 유효하지가 않아 다운로드가 불가능합니다.보유하고 있는 파일 공유 또는 다운로드 사이트를 업데이트 하면 좋을것 같습니다.강의 내용 구성이 좋아서 끝까지 수강해야 하는데, 중간에 관련자료 확보 불가로 따라하기가 어려워수강에 어려움을 겪고 있습니다. 이점 충분히 검토 바랍니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 문제 질문
안녕하세요이번 t1-38.pivot-py 문제에서 C303지점 50대 2번 성별이 NaN 값으로 나오는데이거 0으로 처리해서 차이가 가장 큰 값은 50대가 될 여지가 있어보이는데실제 시험이라면 어떻게 해야될까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기환경에서 오류 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 실기체험하는대서 아래처럼 쓰고 실행했더니import pandas as pd df = pd.DataFrame({ '키': [150, 160, 170, 175, 165, 155, 172, 168, 174, 158, 162, 173, 156, 159, 167, 163, 171, 169, 176, 161], '몸무게': [74, 50, 70, 64, 56, 48, 68, 60, 65, 52, 54, 67, 49, 51, 58, 55, 69, 61, 66, 53]}) from statsmodels.formula.api import ols model = ols('키 ~ 몸무게', data=df).fit() print(model.summary())아래처럼 나오는데, 왜 그런건가요?Notes:[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 선택 질문
LabelEncoder는 텍스트값을 정수로 바꿔주는 것만하고 서열관계는 모르기 떄문에 트리기반구조인 RF, LGBM에서는 괜찮지만 선형모델에서는 원핫인코딩이 더 적절하다는데 시험환경에서이것까지 신경써야할정도로 유의한 차이인가요? 아니면 선형모델에서도 라벨써도 크게 지장없나요?
-
미해결Airflow 마스터 클래스
connection type 추가하기중 docker image 생성 오류
강사님, 버전문제로 설치가 안되는것 같은데,어디서 upgrade를 해야 하나요? [+] Building 10.9s (6/7) docker:default => [internal] load build definition from Dockerfile 0.0s => => transferring dockerfile: 483B 0.0s => [internal] load metadata for docker.io/apache/airflow:2.10.5 0.0s => [internal] load .dockerignore 0.0s => => transferring context: 2B 0.0s => [1/4] FROM docker.io/apache/airflow:2.10.5 0.0s => CACHED [2/4] RUN apt-get update && apt-get install -y --no-install-recommends gcc heimdal-dev g++ libsasl2-dev && apt-get 0.0s => ERROR [3/4] RUN pip install pip install apache-airflow-providers-apache-hdfs pip install apache-airflow-providers-apache-hive 10.6s------ > [3/4] RUN pip install pip install apache-airflow-providers-apache-hdfs pip install apache-airflow-providers-apache-hive:8.415 Requirement already satisfied: pip in /home/airflow/.local/lib/python3.12/site-packages (25.0)9.209 ERROR: Could not find a version that satisfies the requirement install (from versions: none)10.1410.14 [notice] A new release of pip is available: 25.0 -> 25.1.110.14 [notice] To update, run: pip install --upgrade pip10.14 ERROR: No matching distribution found for install------Dockerfile:13-------------------- 12 | USER airflow 13 | >>> RUN pip install \ 14 | >>> pip install apache-airflow-providers-apache-hdfs \ 15 | >>> pip install apache-airflow-providers-apache-hive 16 | RUN pip uninstall -y argparse--------------------ERROR: failed to solve: process "/bin/bash -o pipefail -o errexit -o nounset -o nolog -c pip install pip install apache-airflow-providers-apache-hdfs pip install apache-airflow-providers-apache-hive" did not complete successfully: exit code: 1
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가(분류) 시험장 제공여부 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요아래 예시로 적혀있는 코드들도 시험 때 주어지는지 아니면 암기해야하는지 문의드립니다.from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score # 정확도 print(accuracy_score(y_test, pred)) # 정밀도 print(precision_score(y_test, pred)) # 재현율 (민감도) print(recall_score(y_test, pred)) # F1 print(f1_score(y_test , pred)) # roc-auc print(roc_auc_score(y_test, pred_proba))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
submit 코드 2개 차이점 설명 부탁드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요2개 차이점 설명 부탁드립니다.
-
해결됨(2025) 일주일만에 합격하는 정보처리기사 실기
강의마다 자료 다운받기 어려운데 한번에 다운받을 수 있나요?
질문은 동영상 강의에 들어가서 오른쪽에 커뮤니티 버튼을 통해 해주세요. 그래야어떤 강좌에서 질문하셨는지 알 수 있습니다.영상에서 몇 분 몇 초 대를 알려주셔야 제가 한 번에 질문 내용 확인이 가능합니다.이미 다른 누군가가 질문을 한 이력이 있을 수 있습니다. 질문 게시판을 한 번 확인 부탁드립니다.학교의 과제나 타 강사의 코드 등 외부 수업 자료에 대해서는 답변하지 않습니다.제가 다루는 커리큘럼 외의 이론이나, 너무 디테일한 컴퓨터 이론에 대해서는 답변 드리지 않습니다.시험에 안 나오는 경우가 많고, 나와 봤자 1문제 나오는데 외워야 할 부분이 많은 것 등 (예시: 서브넷 마스크 계산)질문을 올릴 때 이 글은 모두 지우고 내용을 입력해주세요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 시험에서
csv파일 제출 시data.to_csv('result.csv', index=False)이렇게 csv파일로 만들고 제출버튼 누르면 정상적으로 제출 완료되는게 맞죠..??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 관련 질의 (pop, train_test_split)
train_target=train.pop('TotalCharges') # 3. 분할 from sklearn.model_selection import train_test_split tr_x, val_x, tr_y, val_y =train_test_split(train,train_target, test_size=0.2, random_state=0)# 3. 분할 from sklearn.model_selection import train_test_split tr_x, val_x, tr_y, val_y =train_test_split(train,train['TotalCharges'], test_size=0.2, random_state=0) tr_x.head(), tr_y.head(), val_x.head(), val_y.head()위 두가지 경우로 모델링 하여 MAE값을 산출했습니다.아래꺼는 Linear Regression : 0.0000000000012394228 RandomForest Regressor : 1.9100924757282742306 XGB Regressor : 10.5623083675717790442 위에꺼는 Linear Regression : 914.6725879047844500747 RandomForest Regressor : 941.4584990860494144727 XGB Regressor : 1033.3863728784358499979 왜 이렇게 다른 결론이 나올까요?해당 내용만 변경하고, 나머지 코드는 모두 동일한 상태에서 구동했습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제 2-2 오즈비 계산
# 1) 오즈비 계산 import numpy as np 1. np.exp(-0.3558) : 0.7006127287696858 2. np.exp(model.params['HasPhoneService']) : 0.7005907598948918 영상에서는 2처럼 풀이하셨는데 1로 풀어도 괜찮을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코드 오류
import pandas as pd # train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/ab_nyc/train.csv") # test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p2/ab_nyc/test.csv") train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") # print(train.shape, test.shape) # (39116, 16) (9779, 15) # 1. 문제 정의 # 회귀 문제, target = price # 평가: R-Squared, MAE, MSE, RMSE, RMSLE, MAPE # 2. 데이터 불러오기 # 3. 탐색적 데이터 분석 # train.info() # dtypes: float64(3), int64(7), object(6) # test.info() # dtypes: float64(3), int64(6), object(6) # train.describe(include='O') # unique: 38447 # test.describe(include='O') # unique: 9718 # train.nunique() # test.nunique() # train.isnull().sum() # last_review, reviews_per_month 결측치 # test.isnull().sum() # name, host_name, last_review, reviews_per_month # 4. 데이터 전처리(인코딩) # 4-1. 결측치 처리(결측치 컬럼 삭제) cols = ['name', 'id', 'host_name', 'last_review', 'reviews_per_month'] train = train.drop(cols, axis= 1) test = test.drop(cols, axis = 1) # 4-2. 인코딩(원핫인코딩 사용) train = pd.get_dummies(train) test = pd.get_dummies(test) # 5. 검증 데이터 나누기 from sklearn.model_selection import train_test_split target = train.pop('price') X_tr, X_val, y_tr, y_val = train_test_split( train, target, test_size=0.15, random_state=0 ) # 6. 모델 학습 및 평가 # from sklearn.ensemble import RandomForestRegressor # rf = RandomForestRegressor(random_state=0) # rf.fit(X_tr, y_tr) # pred = rf.predict(X_val) from sklearn.linear_model import LinearRegression lr = LinearRegression lr.fit(X_tr, y_tr) # 평가: R-Squared, MAE, MSE, RMSE, RMSLE, MAPE from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error r2_score = r2_score(y_val, pred) mae = mean_absolute_error(y_val, pred) mse = mean_squared_error(y_val, pred) rmse = rmse(y_val, pred) rmsle = rmsle(y_val, pred) mape = mape(y_val, pred) # 7. 제출 pred = rf.predict(test) pd.DataFrame({'id':test_id, 'price': pred}).to_csv('00000.csv',index=False)안녕하세요혼자 풀이를 해보다가 모델 학습 단계에서 계속 오류가 나고 1분이 넘어가서 이유를 모르겠습니다..오류가 나는 이유와 전체적인 코드(저렇게 제출을 해도 시험에 문제가 없는지 ..) 한 번 봐주시면 감사하겠습니다...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실제 시험장 summary
실제 시험장 summary를 쓸수없나요??실제 시험환경에서 summary()를 하니까 데이터가 안나와서 여쭤봅니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
csv 개수 차이
안녕하세요.강의에서 csv 2, 3개 차이가 있다고 하셨는데, 어떤 차이와 코드를 작성하는데 어떤 차이가 있는지 문의드립니다. 감사합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
평가하지 않고 한 가지 방법 질문 있습니다.
안녕하세요 저번에 평가하지 않고 랜덤포레스트 한개로만 제출한다고 했을 때에 그러면은 인코딩까지 동일하게 하고rf.fit(X_tr, y_tr)을rf.fit(train, target)으로 바꾸고pred = rf.predict(X_val)을pred = rf.predict(test)로 바꿔서target = train.pop('농약검출여부')train = pd.get_dummies(train)test = pd.get_dummies(test)train, test = train.align(test, axis=1, join='left', fill_value=0)from sklearn.ensemble import RandomForestClassifier-------------------------------------rf = RandomForestClassifier(random_state=0)rf.fit(train, target)pred = rf.predict(test)result = pd.DataFrame({'pred':pred})result.to_csv('result.csv',index=False)랜덤포레스트 기준 요런식으로 작성하면 되는지 궁금합니다.글구 쌤께서 target = train.pop할때 항상 인코딩하기 전에 하는데 이유가 있는지 궁금합니다!항상 이해 잘되게 가르쳐 주셔서 감사드립니다. 선생님
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코드 작성 질문
앞쪽 강의에서는from scipy import statsstats.shapiro(~~) 라고 설명해주셨는데이원 분산 분석 강의에서는from scipy.stats import shapiro로 라이브러리를 불러오네요 두 코딩에 차이가 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀랜덤포레스트 max_depth
# 데이터 불러오기 import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/7_2/mart_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/7_2/mart_test.csv") # EDA # total이 target컬럼 # train.shape, test.shape (700,10) // (300,9) # print(train.head(3)) target = train.pop('total') # print(train.shape) # print(train.info()) rating 제외 모두 object # print(train.describe(include="O")) # print(test.describe(include='O')) # unique 수 일치, 레이블 인코딩 활용 # print(train.isnull().sum().sum()) # print(test.isnull().sum().sum()) # 결측치 0개 # 전처리 from sklearn.preprocessing import LabelEncoder le = LabelEncoder() cols = train.select_dtypes('object').columns for col in cols : train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) # print(test.head(3)) # 레이블인코딩 완료 # 데이터 분할 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.142, random_state=0) X_tr.shape, X_val.shape, y_tr.shape, y_val.shape # 평가 및 검증 (회귀) 랜덤포레스트 from sklearn.metrics import root_mean_squared_error from sklearn.metrics import r2_score from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor(random_state=0, max_depth=1) model = rf.fit(X_tr, y_tr) pred = model.predict(X_val) print(root_mean_squared_error(y_val,pred)) # basic : 403187.3131420301 # max_depth=8 : 389483.9937048198 # max_depth=1 : 355335.1208784505 # print(r2_score(y_val,pred))위는 제가 작성한 코드인데, 베이직에서 약 40만의 rmse가 나왔습니다.후에 max_depth=8부터 튜닝을 시도했는데 depth를 올리는게 아닌 최솟값인 1까지 내렸을 때 최적의 rmse가 나오더라구요.이런 모델을 만들어본적이 없어서.. 혹시 제가 코딩한 모델이 잘못된건가 의문이 들어 질문드립니다! 정상적인 걸까요...?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
다중선형회귀 질문입니다.
만약 적합된 회귀모델의 회귀계수 중 가장 큰 값을 물었을때, Intercept를 포함하는지, 음수는 작은 값이 맞는지 (상관계수 처럼 절댓값으로 고려하지 않아도 되는지) 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출7 작업형1 문제2 질문
corr을 사용할때는 꼭 절댓값을 같이 사용해주어야하나요?(abs)현재 제 풀이처럼 상관관계를 close기준으로 내림차순 정렬한 후에 시리즈를 눈으로 확인해서, DE중에 가장 높이 있는 컬럼을 평균내어 풀이하는 방식은 너무 야매인가요..??ㅋㅋㅋ...