묻고 답해요
169만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 원핫인코딩 오류
시험환경 프로그램에서 2유형 인코딩을 하는데 오류가 뜹니다. 보니까 인코딩 전에는 train, test 컬럼 수가 같았는데 인코딩 후에는 train 컬럼 수가 하나 더 많습니다. train = pd.get_dummies(train)test = pd.get_dummies(test)를 사용했습니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험장에서 주석 단축키 안될 때 많나요?
안녕하세요. ctrl + / (주석처리 단축키)를 굉장히 유용하게 쓰고 있는데 시험장에서 해당 단축키 활용이 불가능한 경우가 많은지 여쭤보고싶습니다. 또한 실기시험 응시 pdf에 나와 있는 내용을 시험 당일 감독관분께 문의드려도 알려주시는지 궁금합니다. 현재 단축키 안될 때 해결방법을 제가 시험볼 때 까먹었을 수도 있을 것 같아서 문의드립니다.. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라벨인코딩 방식
에어비엔비 가격 문제 풀이 영상라벨인코딩 할때 언제 concat하고 언제는 안해도 되는지 잘 모르겠어요set(train['neighbourhood']) == set(test['neighbourhood']) 이 코드에서 False가 나와서 범주형이 서로 다르기때문에 concat을 해야한다고 이해했는데, 이 문제에서는 그냥 바로 train, test에 인코딩하네요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test 재학습 관련
안녕하세요 강사님 강의에서는 전부 1번 방식으로 바로 제출하는것으로 방법이 나와있는데틀린부분을 생성형AI와 같이 학습해본 결과 지속적으로 2번 방식처럼 train, target으로 한번 더 학습하고 테스트 파일을 예측하는게 더 낫다고 나오더라구요2번으로 하는 경우에는 더 유의미한 차이가 있는걸까요? 아님 그냥 원래 방식대로 1번처럼 진행하는게 나을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
target 빈도 확인
print("===== target 빈도 =====") print(train['Credit_Score'].value_counts())target 빈도를 확인해서 뭘하고자했는지 기억이 안나 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 연습문제 섹션 6
결측치를 처리하지 않고 그냥 랜덤포레스트를 돌리니깐 0.8933이 나오더라구요처리하지 않아도 되는걸까요? import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p2/laptop_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p2/laptop_test.csv") target= train.pop('Price') df=pd.concat([train,test]) df=pd.get_dummies(df) train=df.iloc[:len(train)] test=df.iloc[len(train):] from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.1, random_state=0) from sklearn.ensemble import RandomForestRegressor rf=RandomForestRegressor(random_state=0) rf.fit(X_tr,y_tr) pred1=rf.predict(X_val) from sklearn.metrics import r2_score print(r2_score(y_val, pred1)) pred=rf.predict(test) result=pd.DataFrame({ 'pred':pred }) result.to_csv('result.csv',index=False) pd.read_csv('result.csv')
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
F1-score
import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p2/drug_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p2/drug_test.csv") target=train.pop('Drug') df=pd.concat([train,test]) df=pd.get_dummies(df) train=df.iloc[:len(train)] test=df.iloc[len(train):] from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=2022) from sklearn.ensemble import RandomForestClassifier rf=RandomForestClassifier(random_state=2022) rf.fit(X_tr, y_tr) pred1=rf.predict(X_val) import lightgbm as lgb lg=lgb.LGBMClassifier(random_state=2022,verbose=-1) lg.fit(X_tr, y_tr) pred2=lg.predict(X_val) from sklearn.metrics import f1_score print(f1_score(y_val, pred1, average='macro')) print(f1_score(y_val, pred2, average='macro'))lightgbm으로 진행해서 random_state=0으로 진행하면 0.9415가 나오고 42나 2022나 로 바꾸면 1.0이 나오는데random_state를 0으로 해야할까요 42나 2022로 해야할까요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 섹션 3
랜덤포레스트로 돌리다보니 test_size=0.05로 했을 때 가장 에러가 작더라구요..근데 이렇게 test_size를 작게 둬도 되는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 인코딩, 결측치, 모델 선택 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요# 레이블 인코딩, 랜덤포레스트: 807.8000397227841# 원핫 인코딩, 랜덤포레스트: 819.45688399024339# 레이블 인코딩, lgb: 779.846084731424# 원핫 인코딩, lgb: 786.6443289033147# 모델은 lgb로 선택# 모델 선택 후 튜닝, 결측치 처리 유무, 인코딩 유무 확인하며 성능 비교하기# 튜닝 X -> 더 높아짐# 결측치 0으로 처리, 카테고리로 인코딩: 772.4958384891883# 결측치 처리 X, 카테고리 인코딩: 768.6458172187305# 결측치 처리 X, 레이블 인코딩: 782.66052200386# 결측치 0으로 처리, 레이블 인코딩: 779.8460847311424위의 과정을 거쳐 lgb모델, 결측치 처리 X, 카테고리 인코딩으로 선택하여 진행하였는데, 이렇게 하는 것이 맞는지 확인차 질문드립니다 !!!그리고, 다 선택 후, train, target 전체 데이터로 재학습 후 test 예측하는 것이 더 좋을지 질문드립니다 !
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 방식 문의
안녕하세요,train 데이터에는 없지만 test 데이터에는 있는 범주형 데이터를 인코딩하기 위해서 train test를 다 합친 후에 인코딩을 수행하는 것으로 알고 있는데요, (라벨인코딩, 원핫인코딩) 만약 train test 두 데이터를 합친 데이터를 fit 하고 train, test 별로 transform 하면 이것도 결국엔 Data Leakage가 되는 것이 아닌지 여쭙고 싶습니다. 만약 시험 환경에서 저런 상황이 나타난다면 Data Leakage는 감수하고 인코딩을 수행해야 하는 것인지 궁금합니다. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
9회 3유형 ==> 7회 3유형 질문드려요
# 1) 학습, test데이터를 사용해 예측 (0.5 미만: 0, 0.5 이상 1) model = logit("gender ~ weight", data=train).fit() target = test.pop("gender") pred = model.predict(test) > 0.5 7회에서 젠더를 타겟으로 빼 놓았는데요# 1) test데이터에서 design값 계산 test['pred_design'] = model.predict(test) # 2) test데이터에 대한 RMSE 계산 from sklearn.metrics import root_mean_squared_error rmse = root_mean_squared_error(test['design'], test['pred_design']) round(rmse, 3)9회 디자인은 타겟으로 빼놓는게 아닌가요? 타겟을 했더니 에러가 나서 ㅠㅠ 잘 모르겠습니다 알려주세요
-
미해결RAG 마스터: 기초부터 고급기법까지 (feat. LangChain)
예제를 좀 다양하게 해주세요. 너무 간단한 예제만 있어서 ... 좀 그렇습니다.
학습 관련 질문이 있으시면, 상세하게 남겨주세요.문제가 발생한 부분의 코드를 함께 올려주세요.수업 영상 몇 분/초 구간인지 알려주세요.
-
미해결Pytorch 를 활용한 딥러닝 Part 1 기본 알고리즘 A to Z 마스터
17강 강의 마지막 부분에서 헷갈리는 부분이 있습니다.
먼저 강의는 정말 잘 듣고 있습니다. 강의 내용을 주로 들으면서 따로 궁금한 점들을 인터넷에 나와있는 다른 정보를 찾아가면서 해결해 나아가니 습득이 잘 되는 것 같습니다. 문의 사항은 다음과 같습니다.17강 강의 마지막 부분 (강의 동영상 16:00 부분) 에서 feature 에 대한 y 값이 0 0 0 0 1 1 1 1 1 이 되는 그래프를 직접 그리신 다음 선형회귀 직선을 그리셨는데, 기울기가 음이 되도록 좌상향 직선을 그리셨습니다. 이부분이 많이 헷갈리는데, 지금까지 선형회귀를 학습한 내용을 생각하면 오차가 최소화되어야 하기 때문에 기울기가 양이 되는 우상향 직선이 되어야 하는 것이 아닌가 생각합니다.이에 대한 답변 부탁드립니다. 강의 막바지 내용이고 다음 강의에서 다룰 내용이라 그냥 그러려니 하고 넘어갈 수도 있는데 (아직 18강 강의를 듣기 전입니다.) 혹시나 해서 문의드립니다. 감사합니다.
-
해결됨프로그래밍 시작하기 : 파이썬 입문 (Inflearn Original)
보라색 예약어
저는 print 도 보라색이고 import 도 보라색인데요. 강사님의 화면에서는 print 는 파란색이고 import 는 보라색이네요.모두 보라색으로 나와도 되는 건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2관련 질문입니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요2유형을 푸는 과정에서 eda에 관한 코드는 삭제하고 실행해야하는지 궁금합니다 !
-
해결됨프로그래밍 시작하기 : 파이썬 입문 (Inflearn Original)
#을 붙이는 이유
4분 33초 강의에서 1 # Chapter02-1 2 # 파이썬 완전 기초 3 # Print 사용법으로 쓰셨는데, #은 왜 붙이는 거죠? 이유가 있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 카테고리
작업형 2를 풀때 회귀문제에서 카테고리가 다른 경우는 기출에서는 나오지 않았고 연습문제에서만 나왔는데 지금까지 카테고리가 같은 것만 공부해서 카테고리가 다른 경우는 공부하지 않았습니다 카테고리가 다른 경우가 나올 확률이 높아서 공부하는게 좋을지 시험3일 전에 여쭤봅니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
110강 회귀_8번 문의
mse구할때 model.mse_resid와 값이 다른데 뭐가 맞나요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
XGBRegressor 학습 시 warning 출력
안녕하세요, XGBRegressor 학습 시 나타나는 warning으로 실제 오류와 자주 헷갈려서, import warningswarnings.filterwarnings('ignore') 실행 후 코드를 계속 실행해도 괜찮을 지 여쭤보고자 문의 드립니다. 좋은 강의 감사합니다.
-
해결됨베개투자법 완성: 아침이 설레는 AI 주식 완전 자동매매 Claude 바이브코딩
LLM판단에 문제가 있는 것 같습니다
강의를 수강하시다가 막히는 부분이 있는 경우는 "자주 묻는 질문"을 먼저 참고 부탁드립니다.막히는 부분에 대해서 질문을 주실 때에는 꼭 강의 제목과 타임라인도 같이 작성 부탁드립니다 오늘 판단을 분석해봤는데요데드크로스를 들어갔는데, 골든크로스가 견고하다고 잘못 판단하는 것 같습니다.