묻고 답해요
164만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2유형 기출 5회 풀이 확인 부탁드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요시험이 코앞이나 아직 다른 방법을 시도해보기에는 에러가 너무 많이 떠서 아래와 같이 코드 작성하였는데 이렇게만 작성하면 너무 위험한 판단일지 조언 부탁드립니다. (문제에서 제시하고 있는 평가지표를 안사용하고 이런식으로 제출해도 될지 해서요,,!이방법말고는 아직 숙달된 방법이 없어 문의드립니다)y=train.pop('price')train=pd.get_dummies(train)test=pd.get_dummies(test)from sklearn.ensemble import RandomForestRegressorrf =RandomForestRegressor(random_state=0)rf.fit(train,y)pred=rf.predict(test)submit = pd.DataFrame({'pred':pred})submit.to_csv('result.csv', index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 회귀 평가 기준
평가지표가 이렇게 나왔는데 제출해도 괜찮은 정도일까요?아니면 수정해서 더 좋게 보완하는 게 좋을까요?평가지표들의 기준이 궁금합니다.그리고 회귀모델은 시험에서 몇 개 정도 돌려보는게 좋고, 해볼만한 모델이 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요, 작업형 2번 답안 제출할때 평가지료(RMSE) 모델 작성 후 Print(result) 도 작성하고 답안 제출해도괜찮을까요? ,, 원래 print(result)도 출력하고 제출하는게 맞을까요?? (rmse 뿐만 아니라 모든평가지표도 동일한지 궁금합니다) ex( print(mse) print(f1) 등등) <코드>#학습 및 예측from sklearn.ensemble import RandomForestRegressorrf = RandomForestRegressor(random_state=0)rf.fit(X_tr,y_tr)pred = rf.predict(X_val)from sklearn.metrics import mean_squared_errordef rmse(y_val,pred): mse = mean_squared_error(y_val,pred) return mse ** 0.5result = rmse(y_val,pred)print(result)#제출 pred = rf.predict(test)submit = pd.DataFrame({'pred':pred})submit.to_csv('result.csv',index = False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 8회 작업형 2
# 라이브러리 및 데이터 불러오기 import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/8_2/churn_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/8_2/churn_test.csv") #EDA print(train.shape, test.shape) #(4116, 19) (1764, 18) # print(train.info()) # print(test.info()) #결측치 x # print(train.isnull().sum()) # print(test.isnull().sum()) #,수치형,오브젝트 체크 # train.describe(include='O') # train.describe() #Id는 버리기 # train['TotalCharges'].value_counts() #타겟이 많으면 회귀 #데이터 전처리 train = train.drop('customerID',axis=1) test= test.drop('customerID',axis =1) print(train.shape, test.shape) #타겟 분리 target = train.pop('TotalCharges') #스케일링 #컬럼다르면 합치고 인코딩후 분리 df = pd.concat([train,test],axis=0) train1 = df.iloc[:len(train)].copy() test1 = df.iloc[len(train):].copy() print(train.shape, test.shape) from sklearn.preprocessing import RobustScaler cols = train1.describe(exclude='object').columns scaler = RobustScaler() train1[cols] = scaler.fit_transform(train1[cols]) test1[cols] = scaler.transform(test1[cols]) #인코딩 from sklearn.preprocessing import LabelEncoder cols = train1.describe(include='object').columns le = LabelEncoder() for col in cols: train1[col] = le.fit_transform(train1[col]) test1[col] = le.transform(test1[col]) print(train.shape, test.shape) #검증데이터 분리 from sklearn.model_selection import train_test_split x_tr,x_val,y_tr,y_val = train_test_split(train1, target, test_size=0.2, random_state=0) print(x_tr.shape,x_val.shape,y_tr.shape,y_val.shape) #모델 학습(랜덤) from sklearn.ensemble import RandomForestRegressor from sklearn.metrics import mean_absolute_error rf = RandomForestRegressor(random_state=0) rf.fit(x_tr,y_tr) pred = rf.predict(x_val) print(mean_absolute_error(y_val,pred)) #lightGBM import lightgbm as lgb lgbmr = lgb.LGBMRegressor(random_state=0, verbose=0) lgbmr.fit(x_tr,y_tr) pred = lgbmr.predict(x_val) print(mean_absolute_error(y_val,pred)) #xgboost from xgboost import XGBRegressor xgbr = XGBRegressor(random_state=0) xgbr.fit(x_val,y_val) pred = xgbr.predict(x_val) print(mean_absolute_error(y_val,pred)) #951.033800718042 랜덤 #952.79254077987 lightgbm #41.89787395866172 xgboost맨마지막에 xgboost로 돌렸는데 41이라는 결과 나옵니다 이건 과적합인가요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
실루엣 스코어..
안녕하세요 선생님! 질문이 있습니다. 저는 Graph attention Network (Layer 3개)를 통과할 때마다 얻어지는 attention map을 저장해놓고, (npy)이를 clustering하고 있는데요,attention map을 flatten한 뒤 KMeans를 활용하고 있습니다. 이때실루엣 스코어가 k를 늘려나감에 따라서 계속 올라간다면, 이상한 현상이라고 봐야할까요??이때 저는 cluster label은 가지고 있지 않아요. Davis bouldin이나 Calinski harabasz도 같이 보고 있는데, 그리고 elbow method로도요,, 그런데 이상하게 실루엣 스코어 결과 k를 50에 가깝게 내놓게 되고 실제로 plot을 그려보면 saturation을 하지 않고 계속 k가 늘어남에 따라서 실루엣 스코어가 늘어난다면 이상한 현상이라고 봐야할까요?? 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
max_depth 문의
lightgbm에서 max_depth에 변화를 주는 튜닝을 했는데, 해도 평가지표가 아예 변화가 없는데 이런 경우도 있을 수 있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
행별 합
이전에는 행별 합을 구할 때df.T를 사용했던 거 같은데sum(axis=1)을 사용해도 되는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3혼란
선생님 각각의 설명을 들으면 이해가 되고 알겠는데 그걸 어느문제에 어떤 순서로 적용을 시켜야 하는지를 잘 모르겠습니다이건 문제를 보면서 익혀야하는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
구름예시 3번문제
구름예시문제 작업형3에서 마지막 독립표본t검정 하라고해서 모수적검정 해도 되는지 확인 차 로그리지스틴 샤피로검정 했는데 1집단 샤피로검정 p값이 0.035네요 이런 경우 만휘트니검정을 해야하나요? 아니면 문제에서 제시한 대로 그냥 모수적검정인 독립표본t검정을 해야하는지비모수적검정인 만휘트니유 검정을 해야하는지 궁금합니다
-
해결됨(2026) 일주일만에 합격하는 정보처리기사 실기
시험에서 답안지 작성시 풀이과정을 꼭 써야 하나요?
이번에 시험보고 탈락을 한 수험자입니다.답안 작성시 풀이과정과 답을 함께 작성해야 한다고 해서 적잖게 당황하여 시간이 모자랐었는데 결국 떨어졌네요. 제 질문은 풀이과정을 반드시 써야하나요?'답' 칸을 제외한 나머지 공간에 동그라미와 밑줄을 치며 낙서를 해도 되나요?풀이과정을 쓸 수 있는 공간 자체 부족해 보였는데 답답합니다. 속시원히 누가 얘기좀 해주면 좋겠습니다.
-
미해결
개발 강의 추천 부탁드립니다.
[3줄 요약]비전공자로 10년 전 JSP, PHP 기반 개발 경험이 있으며, 현재는 헤드헌터로 활동 중입니다.React + Java(Spring) + MongoDB 기반으로 헤드헌터 업무에 활용할 수 있는 웹/모바일 플랫폼을 직접 개발하고자 합니다.기술 공백과 최신 스택(Git 등) 부족으로 학습 방향 및 인프런/부트캠프 강의 추천이 필요합니다. [본문]안녕하세요.현재 40세, 비전공자(경영학과)이며, 현재는 헤드헌터로 활동 중입니다.12년 전 독학과 오프라인 Java 강의(6개월) 수강 후 JSP 기반 웹 개발을 약 6개월,또한 웹호스팅 업체에서 리눅스/윈도우 서버 운영과 PHP 유지보수를 약 1년간 경험했습니다.퇴사 후 HTML5, CSS3, PHP, MySQL 기반으로 1인 창업 프로젝트(플랫폼)를 개발 경험도 있으나,프론트엔드 실무 한계로 인해 학원과 인강으로 보완했지만 실무 수준에 도달하기는 어려웠습니다.이후 창업을 접고 현재는 헤드헌터 일을 8년째 하고 있습니다. 최근 AI 도구(GPT, CURSOR 등)로 인해 1인 개발의 장벽이 많이 낮아졌다고 느꼈고,사이드프로젝트로 다시 한번 플랫폼을 만들어보자는 생각에 도전하고 있습니다. 우선 서버는 아마존이나 네이버 등 1년 동안 무료로 제공하는 클라우드를 생각하고 있습니다. [프로젝트 방향]목표: 헤드헌터 업무에 활용 가능한 게시판 중심의 웹 & 모바일 플랫폼프론트엔드: React백엔드: Java(Spring), 일부 Python (데이터 분석용)DB: MongoDB (NoSQL 기반)기능: 기능: 엑셀 데이터 업로드/필터링, 검색, 태그, 동료와 공유 및 협업플랫폼: PC 웹 + Android 우선 대응 [현재 느끼는 기술적 한계]10년 이상의 개발 공백 → 신규 기술 감각이 거의 없음Git, 협업 툴, 배포 등 실무적인 스택을 제대로 써본 적 없음과거 창업 경험 덕에 HTML/CSS/JS 기본 흐름은 이해주당 약 20시간 정도 학습 및 개발 시간 확보 가능 [현재 계획 중인 학습 우선순위]모든 강의를 다 듣기엔 시간 제약이 있으므로, 아래와 같은 것부터 선택적으로 수강하려고 합니다.React 중심 프론트엔드 학습 – 프로젝트 기반으로 실습 위주Spring 백엔드 학습 – REST API + MongoDB 연동 포함Git, 배포, 협업 도구 등 실무 환경 익히기Python 기초 + 데이터 분석 활용 (선택적)(Node.js나 웹 자동화는 현재는 후순위입니다) 시간상 모든 강의를 다 들을 수는 없어, 섹션별로 필요한 내용만 골라 수강할 수 있는 방식이 있는지 궁금합니다.또한 혼자서 진행하는 프로젝트이기에, 코드 리뷰나 피드백 커뮤니티가 병행되는 부트캠프가 있다면 병행하고 싶습니다.비슷한 경험을 하신 분이나, 인프런/코드잇 등에서 유익했던 강의나 커뮤니티가 있다면 조언 부탁드립니다 감사합니다. #사이드프로젝트 #React #JavaSpring #MongoDB #프론트엔드 #백엔드 #풀스택도전#개발공백극복 #IT학습로드맵 #인프런강의추천 #코드잇추천
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제 3번 map을 이용한 풀이에서도 import numpy 필요하지 않나요??
문제 3번 map을 이용한 풀이에서도 import numpy 필요하지 않나요?? 검색해보세요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train_test_split random_state 질문입니다.
데이터 분리에서 random_state 2025와 random_state 0를 사용할 때 각각 학습 검증값이 다른데 이것도 모델처럼 하이퍼파라미터(max_depth, n_estimators)를 수정해가며 검증값을 측정하는게 맞나요 ?체험형 문제에서 X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size = 0.2, random_state = 2025)로 작성하니 rmse 값이 923이 나왔고, random_state를 0으로 바꾸니 800대가 나오네요.
-
미해결[신규 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)
네이버쇼핑 크롤링 예제 관련
네이버 쇼핑 크롤링예제 부분에서 그냥 requests로 한번 접속해보고 그 다음에 셀레니움으로 접속해봤는데 둘다 접속 제한 페이지만 나옵니다.ㅜㅜ. 여러번 시도 한것도 아닌데 지금 시점 네이버쇼핑이 원래 빡시게 막아 놓은건가가요? 방법이 없나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회기출 작업형2 이렇게 푸는게 맞나요..?
# 라이브러리 불러오기 import pandas as pd # 데이터 불러오기 train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/4_2/train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p4/4_2/test.csv") #preprocessing print('변경전:',train.shape, test.shape) train = train.drop('ID', axis =1 ) target = train.pop("Segmentation") test_id = test.pop('ID') print('변경후:',train.shape, test.shape) data = pd.concat([train, test], axis = 0) cols = data.select_dtypes(include = "object").columns #encoding from sklearn.preprocessing import LabelEncoder for col in cols: la = LabelEncoder() data[col] = la.fit_transform(data[col]) train = data[:len(train)].copy() test = data[len(train):].copy() print(train.shape, test.shape) print(train.head(3)) #분할 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size = 0.2, random_state = 0) print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape) #랜포 from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state = 1006 , max_depth=7, n_estimators = 1000) rf.fit(X_tr, y_tr) pred = rf.predict(X_val) len(pred) from sklearn.metrics import accuracy_score, f1_score #점수측정 f1 = f1_score(y_val, pred, average='macro') acccuracy = accuracy_score(y_val, pred) print('f1:',f1) print('acccuracy:', acccuracy) #rf 기본 0.4946975843769027 # rf : max_depth=7, n_estimators = 1000 # f1: 0.5406747794301512 # acccuracy: 0.5566391597899475 # lgb # f1: 0.5227625161214081 # acccuracy: 0.536384096024006 pred = rf.predict(test)#실제예측 pd.DataFrame({'ID':test_id,'Segmentation':pred}).to_csv("00000.csv", index = False) pd.read_csv("00000.csv")하이퍼파라미터 여러가지 넣으면서 f1스코어 테스트하면서 해봤는데 적절히 풀었는지 궁금합니다
-
해결됨(2026) 일주일만에 합격하는 정보처리기사 실기
2024년 3회 기출문제 강의 재생 안 됨
안녕하세요 선생님.항상 잘 듣고 있습니다.다름이 아니고2024년 3회 기출문제 강의가 재생이 안 됩니다.15일, 16일 다 시도해봤는데 15일은 기출문제 설명 들어가면서 재생이 안 되고 16일은 아예 재생 자체가 안 됩니다. ㅜㅜ확인 한 번만 부탁드리겠습니다.감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 train, test의 범주가 다를때
안녕하세요.시나공 빅분기 p.338 노트북 가격 예측에 대한 문제를 풀다가 궁금한 점이 있어서 질문드립니다.train, test의 범주가 다를때 concat으로 데이터를 합쳐서 get_dummies를 적용하여 원핫 인코딩을 하게 되는데,혹시 concat으로 데이터를 합쳐서 LabelEncoder를 적용한 후 동일하게 나누면 안 되나요?합친 데이터에 fit()을 적용시키고 결과를 도출했을 시 값이 더 좋게 나오는 것처럼 보여지는데 책에 기술되어있지 않은 이유는 문제가 있기 때문인건가요? 사용한 코드cols = train.select_dtypes(include='O').columns total = pd.concat([train,test]) from sklearn.preprocessing import LabelEncoder le = LabelEncoder() for col in cols: total[col] = le.fit_transform(total[col]) train = total[:train_n] test = total[train_n:]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 잔차이탈도 계산
#잔차이탈도 계산 print(-2 * model.llf) print(-2 * -143.47) #286.94 print(round(286.93267518507366,2)) #286.93작업형 3에 이렇게 소수점 문제에서 llf나 params 이런함수들을 몰라서 이문제 같은경우 summary 표에서 log-likelihood값인 -143.47을 임의로 곱했을때 값이 286.94이고 선생님이 하신거는 286.93인데 이러면 틀린건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 test 예측 오류
X_val로 예측 후 roc-auc 결과로 LGBM 모델을 선택했습니다.그리고 test를 넣어 최종 예측을 했는데 pred 값이 이렇게 나오네요,,,어떤게 문제일까요 ㅠㅠ 참고로 test 데이터셋은 이렇게 되어있습니다...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
함수를 변수명으로 덮어씌운다면?
안녕하세요. 연습을 하던 중 오타나 실수로 인해 함수를 변수명으로 사용하거나 = 이 들어가서 덮어씌워지는 경우가 있었습니다.계속 실수를 발견하지 못하다가 오류가 나는 상황에서 이것이 원인인걸 뒤늦게 알게 되는 경우가 많았습니다.colab에서는 초기화를 시켜서 함수를 되돌리고는 했는데, 시험 환경에서 해당 실수가 일어났을 경우 되돌리는 방법이 있는지 궁금합니다.