묻고 답해요
169만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
34강 평가지표
안녕하세요 강사님평가지표 강의중에 문득 궁금한게 생겨서요앞선 강의에서는 문자는 모두 인코딩을 통해 숫자형으로 변환했는데,갑가지 강의에서 실제값, 예측값에 문자가 있을 경우를 설명해주시니 조금 혼란스럽네요...그리고 이번 강의는 너무 빠르게 훑고 넘어가서 이해가 잘 안되는거 같습니다아래 average 부분도 언제 이걸 쓰는지 알아야 할 거 같은데... 설명없이 슥 넘어가버려서...average= micro, macro, weighted
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
103강 작업2형 전처리(레이블인코딩 부분) 오류
import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p2/hr_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p2/hr_test.csv") # 4. 데이터 전처리 target = train.pop('target') train = train.fillna('X') test = test.fillna('X') com = pd.concat([train, test]) from sklearn.preprocessing import LabelEncoder le = LabelEncoder() cols = train.select_dtypes(include='object').columns for col in cols: # com[col] = le.fit.transform(com[col]) # n_train = len(train) # train = com[:n_train] # test = com[n_train:] # # 5. 검증 데이터 나누기 # from sklearn.model_selection import train_test_split # X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0) # print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape) # # 6. 학습 및 평가 # from sklearn.ensemble import RandomForestClassifier # rf = RandomForestClassifier(random_state=0) # rf.fit(X_tr, y_tr) # pred = rf.predict_proba(X_val) # from sklearn.metrics import roc_auc_score # ras = roc_auc_score(y_val, pred[:,1]) # print("랜덤ras:", ras) # import lightgbm as lgb # lg = lgb.LGBMClassifier(random_state=0, verbose=-1) # lg.fit(X_tr, y_tr) # pred = lg.predict_proba(X_val) # from sklearn.metrics import roc_auc_score # ras = roc_auc_score(y_val, pred[:,1]) # print("엘지비ras:", ras) # # 7. 제출파일 생성 # pred = rf.predict_proba(test) # result = pd.DataFrame({"pred":pred[:,1]}) # result.to_csv("result.csv", index=False) **레이블인코딩 부분이 오류가 계속 나는데 어디가 잘못 됐는지 찾지를 못합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1_section14 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형1_section14 에서 fillna(0)을 적용한 뒤 map() 함수를 사용하면 최종 결과 값은 동일하나 df 조회 시 다시 결측값이 발생됩니다.이 경우 map() 대신 replace()를 사용하는 것이 맞는지 궁금합니다.# 값 대체 df['f3'] = df['f3'].fillna(0) dict_list = {'silver':1, 'gold':2, 'vip':3} df['f3'] = df['f3'].map(dict_list)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1_연습문제 7번 관련입니다.
20번 강의 > 7번 문제를 풀던 중, 모든 나이에 1을 더하고, cond1 cond2를 설정한 뒤 각 조건의 절댓값 차이를 result 변수에 넣고 값을 확인했습니다. 값이 783.37이 나왔습니다. 선생님께서는 정답을 263.13으로 말씀 주셨습니다. 코드가 같은데, 값이 다른 이유가 궁금합니다. 제가 쓴 코드는 아래에 첨부하였습니다. df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p1/type1_data1.csv") df['age'] = df['age'] +1 cond1 = (df['age']>=20) & (df['age']<30) cond2 = (df['age']>=30) & (df['age']<40) result = abs(df[cond1]['views'].mean() - df[cond2]['views'].mean()) print(result) print(round(result, 2))
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 프레임 슬라이싱 혹은 데이터 선택하기가 어렵습니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요기출 9회 작업형 1에서 보면,grouped[1] 을 사용해서 지역코드와 성별로 그룹된 데이터프레임에서 1에 해당하는 컬럼명과 데이터를 선택합니다.그런데 저는 이제까지 연습할 때 데이터프레임에서 열을 선택하기 위해 df[숫자]를 쓰면 행이 선택이 되었고, df[: , 숫자]를 입력하면 에러가 났었습니다. 그래서 df에서는 loc나 iloc를 사용해서 슬라이싱 혹은 인덱싱을 하고 있었습니다. 그런데 본 데이터에서는 오히려 loc와 iloc를 사용하면 에러가 납니다. 차이가 무엇인가요?해당 데이터에서는 왜 컬럼 선택으로 출력이 되는 건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
크로스 밸리데이션 질문
cross_val_score와 metrics의 f1_score 점수를 비교해보는데 근소한 차이긴 하지만 크로스 밸리데이션이 더 낮게 나오는거 시험에는 별로 상관없을까요?metrics는 0.845, cross는 0.785 이렇게 나옵니다!
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로지스틱 회귀분석 질문
작업형3 로지스틱 회귀분석 이론 강의에서는 로지스틱 함수로 모델 생성 후 test 데이터로 예측할 때 target를 빼지 않고 바로 예측을 진행했는데,제7회 기출문제에서 예측할 때는 pop으로 target을 빼고 예측을 수행했습니다.어떤 경우에 pop을 사용 후, 예측을 수행해야 하는지 차이점을 알고 싶어 질문드립니다.# 데이터셋 분할 train = df.iloc[:210] test = df.iloc[210:] # 1) 학습, test데이터를 사용해 예측 (0.5 미만: 0, 0.5 이상 1) model = logit("gender ~ weight", data=train).fit() target = test.pop("gender") pred = model.predict(test) > 0.5
-
해결됨베개투자법 완성: 아침이 설레는 AI 완전 자동매매 Claude 바이브코딩
자동으로 계속 돌게하려면
자동으로 계속 운영되게 하려면 제 맥 컴퓨터를 계속 켜놔야하는거죠? 컴퓨터를 꺼도 되게 하는 방법도 있을까요?
-
해결됨베개투자법 완성: 아침이 설레는 AI 완전 자동매매 Claude 바이브코딩
새로운 종목 후보군 추가시 확인해야할 사항들
강의를 들어보니 현재 시스템은 빅테크에 핏된 것으로 보입니다.만약 제가 생각하는 유망한 종목들을 후보군에 넣으려고 한다면 수정해야할 사항이 적진 않아보입니다.기존 nasdaq_top_100외에도 다른 종목들을 추가할 수 있는지, 가능하다면 어떤 식으로 변경이 이뤄져야하는지가 궁금합니다.매수 후보 루프에 사용되는 ML모델(predict.py)가격데이터 수집 후보군(stock.py nasdaq_top_100 대신 다른 필드 추가?)주가 관련 컬럼 목록 정의 수정(stock_columns) 등등..
-
해결됨베개투자법 완성: 아침이 설레는 AI 완전 자동매매 Claude 바이브코딩
run.py시 42501 에러
Exception: 경제 데이터 업데이트 중 오류: {'message': 'new row violates row-level security policy for table "economic_and_stock_data"', 'code': '42501', 'hint': None, 'details': None}service_role key가 없어서 그렇다는데, 강의대로 supabase_key에다가 anon_key를 붙여넣었는데 이런에러가 뜨네요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수치형 데이터만 선택하여 푸는 경우에 오답확률이 높아질까요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요예시문제 작업형2(2025v)에서저는 아래와 같이 문자는 제외하고, rmse (max_depth, n_estimators 최적화도 진행함)를 구했는데요! 레이블인코딩하지 않은 경우라면, 채점시에 점수가 낮아질 확률이 높아지나요?? 합불에 크게 영향을 주는 지 궁금합니다.train=train.select_dtypes(exclude='O')test=test.select_dtypes(exclude='O') 추가로 제가 작성한 코드를붙입니다! train=train.dropna(axis=1)test=test.dropna(axis=1)train=train.select_dtypes(exclude='O')test=test.select_dtypes(exclude='O')# print(train.shape, test.shape)# print(train.isnull().sum().sum())# print(test.isnull().sum().sum())from sklearn.model_selection import train_test_splitX_tr,X_val,y_tr,y_val = train_test_split(train.drop('총구매액', axis=1),train.pop('총구매액'), test_size=0.2, random_state=0)# print(X_tr.shape,X_val.shape,y_tr.shape,y_val.shape)from sklearn.ensemble import RandomForestRegressorrf=RandomForestRegressor(random_state=0,max_depth=7, n_estimators=200)rf.fit(X_tr,y_tr)pred=rf.predict(X_val)from sklearn.metrics import root_mean_squared_errorprint(root_mean_squared_error(y_val,pred))#base 820.5860282970249#3,100 875.2260812472606#3,200 873.5386940171521#3,400 874.1382881938769#5,400 824.3641497143064#5,200 818.239922754944#7,100 804.8452832752822#7,200 804.418493364831 //#10,300 814.7390378036772# 10,100 820.1853548789979pred=rf.predict(test)pd.DataFrame({'pred':pred}).to_csv('result.csv',index=False)print(pd.read_csv('result.csv'))
-
해결됨베개투자법 완성: 아침이 설레는 AI 완전 자동매매 Claude 바이브코딩
기존 pro 요금제 구독 필요
기존 pro요금제 구독을 끊고, api key 방식으로 갈아타려고 했으나, Purchasing prepaid credits is not allowed before upgrading your plan. 라는 문구가 뜨면서 거래가 거절되네요.찾아보니, pro plan을 먼저 구독 하고 나서 api key 방식을 사용할 수 있는 것처럼 보이는데요
-
해결됨베개투자법 완성: 아침이 설레는 AI 완전 자동매매 Claude 바이브코딩
24강 전체 파이프라인
24강 전체 파이프라인 호출하는 것 까지 들었는데요. 깃 클론으로 내려받은 코드에는 강사님이 24강까지 강의한 내용의 코드가 이미 구현이 되어있는 것 같은데요.저는 22강부터 24강까지 따라서 구현을 하면 이미 있는 강사님이 구현한 파일에 제가 새롭게 덮어쓰는게 되는 거죠?제가 이해하고 있는게 맞나요?
-
해결됨베개투자법 완성: 아침이 설레는 AI 완전 자동매매 Claude 바이브코딩
claude는 반드시 api형식이어야 하나요?
claude api 방식이라고 되어있는데, 기존 구독 요금제 형식으로는 구현이 어려울까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 object 컬럼 인코딩 관련 질문
인코딩시 concat을 사용하는 상황에 대해 질문이 있습니다.1.train과 test의 unique한 값을 비교해서(set에 넣어서)1) 만약 종류가 완전히 같을 경우one-hot 인코딩 : train, test 각각 get_dummieslabel 인코딩 : for문 내부에서 train은 fit_transform, test는 transform2) 갯수는 다르지만 train의 종류가 test의 종류를 모두 포함 할 경우one-hot 인코딩 : concat한 후 get_dummies 한 후 분리label 인코딩 : for문 내부에서 train은 fit_transform, test는 transform3) 각자 서로에게 없는 종류를 가진 경우one-hot 인코딩 : concat한 후 get_dummies 한 후 분리label 인코딩 : concat한 후 fit_transform 한 후 분리이렇게 구분하면 되는건가요? 2.또한 궁금한게, 굳이 저렇게 상황별로 외우지 말고 그냥 무조건 concat해서 인코딩 후 분리하는 전략은 어떤지 의견이 궁금합니다.
-
해결됨베개투자법 완성: 아침이 설레는 AI 완전 자동매매 Claude 바이브코딩
Colab 실행시
Colab에서 머신러닝을 하루던 일주일이던 주기적으로 실행해주라고 하셨는데, 매번 실행할때마다 새노트를 만들어서 하면 될까요? 아니면 기존에 실행했던거 들어가서 다시 실행하면 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
하이퍼파라미터 변수
작업형 2을 여러 데이터를 구해서 해보고 있는데 하이퍼 파라미터 변수를 조정해서 평가결과를 보면 학습률이 높거나 트리가 깊어야 점수가 좋게 나오는 경우가 있는 것 같습니다 예를 들면 대중적으로는 아래처럼 쓰는데n_estimators=500, learning_rate=0.05, max_depth=6이렇게 넣어야 score가 높게 나오는 경우입니다n_estimators=400, learning_rate=0.13, max_depth=10 시험에서도 대중적인 파라미터 대신 평가 점수만 보고 파라미터를 조정해도 괜찮을지 궁금합니다!
-
해결됨베개투자법 완성: 아침이 설레는 AI 완전 자동매매 Claude 바이브코딩
알파밴티지 뉴스 기사
강의를 듣다가 알파밴티지 뉴스를 현재느 3일치만 가져온다고 해서 클로드코드랑 얘기를 해봤는데 아래와 같은 얘기를 해주네요. 변수명을 바꿔도 될까요?그리고 뉴스를 7일치로 변경하면 더 좋은가요?동작 방식- time_from: 현재 날짜에서 3일 전 00:00부터 (%Y%m%dT0000 포맷, 예: 20260603T0000)- time_to: 미지정 → AlphaVantage는 time_from만 주면 그 시점부터 현재까지의 기사를 반환합니다- 따라서 실제로는 최근 약 3일간의 뉴스를 수집합니다- limit: 100 → 티커당 최대 100개 기사- 이후 relevance_score >= 0.2 필터를 거쳐 평균 감성점수를 계산해 ticker_sentiment_analysis테이블에 저장합니다⚠ 참고: 헷갈리는 변수명변수명이 yesterday(어제)지만 실제 계산은 timedelta(days=3)으로 3일 전입니다. 변수명과 실제 값이불일치하니, 나중에 코드를 수정하실 때 혼동하지 않도록 주의하시거나 변수명을 three_days_ago등으로 바꾸시는 걸 권합니다.요약하면, 현재 가져오는 뉴스는 최근 3일치입니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
52강 이원분산분석
강사님 안녕하세요.강의를 보다가 궁금증이 생겨서요. 49. 다중선형회귀2 (범주형 변수)에서는 강사님이 스태츠 모델즈의 ols함수에서는범주형 변수 가 포함되어있으면 이를 자동으로 인식하고 내부적으로 원-핫 인코딩 처리를 하므로 사용자가 별도로 범주형 변수를 수치형으로 변환하는 작업이 없어도 된다고 하셨는데, 52강 이원분산분석에서는범주형 변수를 분석할때 c()를 사용해 범주형으로 처리해야한다고 하셔서요. 이원분산분석도 ols를 사용하는데왜 다른지 궁금합니다. 확인 부탁드릴게요!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실제시험환경에서 작업형1,2,3의 문제풀이 순서
안녕하세요. 강이 잘 듣고있습니다. 시험이 얼마남지않아 체험환경에 익숙해지려합니다. 체험환경에서 코드를 작성해보고있는데, 문득 실제 시험장에서 작업형 1,2,3번을 풀때 순서상관없이 제한시간 3시간안에만 풀면되는지 궁금해져 여쭤봅니다.체험환경에서는, 다른문제 탭눌러 이동할때 첨부사진과같이 팝업창이 뜨는경우가있던데요, 안뜰때도있고요..무시하고 3시간안에만 풀면되는건가요?