묻고 답해요
164만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1번
cond = df['age']>=80 print(df['views'][cond].mean())이렇게 작성해도 크게 문제가 없나요? views와 cond 자리 바꿈!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test_id
test_id = test.pop('id')이렇게 따로 빼두는 이유가 저장할때 id컬럼을 생성하기 위해서라면,굳이 pop함수로 빼지 않고 저장할때 직접적으로pd.DataFarme({'id':test['id'], 'y_pred':pred}) 이렇게 test['id']로 적으면 안되는 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
인코딩 코드 실행 에러
안녕하세요. 섹션5-27 강의 수강 중 입니다. 인코딩 파트의 가장 윗 부분 코드와 관련하여y_train = train.pop("income")단독 실행 시 KeyError 에러가 발생합니다.다만, 상단의 모두 실행으로 실행 시 정상 작동 됩니다.에러 메시지에서도 '위의 예외는 다음 예외의 직접적인 원인이었습니다.' 라고만 표시되어 어떻게 조치를 취해야 하는지 감이 잘 오지 않습니다ㅠㅠ + 상단의 데이터 불러오기에서 데이터를 확인했을 때 income 컬럼이 있는 것 확인했습니다. + 바로 아래의 원핫인코딩 코드에 커서를 놓고 런타임-이전 셀 실행 으로 실행하니까 이때는 또 정상 작동을 하네요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
랜덤포레스트 런타임
랜덤포레스트 사용에서 model.fit으로 학습시키는 코드를 실행시키면 굉장히 오래 돌아가는데 왜그러는걸까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형에서 인코딩 후 스케일링 관련
2유형에서 원핫인코딩이나 레이블 인코딩 후에 민맥스나 스탠다드 스켈링을 하는데요스케일링할 때 범주형 데이터를 제외하는 작업을 하지 않고 그냥 통으로 train과 test 스케일링을 하고 있거든요. 혼자 공부하니까 제대로 하고 있는지 의문이 되네요그냥 통으로 스케일링 해도 결과값에 영향이 없나요?from sklearn.preprocessing import MinMaxScaler, StandardScalersc = MinMaxScaler()train = ms.fit_transform(train)test = ms.transform(test)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
임계값 > 0.5 관련
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요선생님, 아래 두 코드 중 하나를 쓰면 될까요?두 코드는 똑같은 의미인가요?해당 문제로 적용했을 때, 같은 값이 나오긴 합니다만,,현재 강의에서는 첫번째 코드[작업형3] 9. 로지스틱 회귀에는 두번째 두 줄짜리 코드로 적혀있어서둘 중 하나로 외워두면 될지 궁금합니다.(임계값이 따로 나오지않으면 >0.5 를 적용하는것으로 전제하에..)pred = model.predict(test) > 0.5pred = model.predict(test) pred = (pred > 0.5).astype(int)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시 문제 작업형2번
이번 예시문제에서 train ,test를 26번째 줄 처럼 align 해주지 않으면 '주구매상품_소형가전'이 train에서만 존재해서 에러가 발생하는데 이번에 처음보는 에러라서 GPT가 저 줄을 추가하라고 알려줘서 알게 됐는데, 원래 원핫인코딩에는 저런 align을 외워둬야할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출 작업형3
이렇게 작성되어 있을 때는 다중 선형 회귀 모델의 독립 변수에 'solar', 'o3'를 적어주는 게 맞는 건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형1] 연습문제 섹션21 ~ 30중 no.27
[문제]Section 27. 시간 범위, 속도(km/h)점심시간(10시부터 13시 전까지)에 주문된 배달 데이터를 찾으시오.점심시간 주문 건 중 과속(평균 속도가 50km/h 이상)하는 주문 수를 정수로 구하시오.배달시간 = 실제도착시간 - 주문시간속도(km/h) = 거리(km) / 시간(h)[질문] 정답이 '1'이 아닌 21이 계속 출력되는데, 문제점을 못찾겠어요. import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p1/delivery_time.csv") df['주문시간']= pd.to_datetime(df['예상도착시간']) df['실제도착시간']= pd.to_datetime(df['실제도착시간']) df['예상도착시간'] = pd.to_datetime(df['예상도착시간']) # 점심시간(10시부터 13시 전까지)에 주문된 배달 데이터를 찾으시오. df['시간']=df['주문시간'].dt.hour con1= df['시간'] >= 10 con2= df['시간'] < 13 df= df[con1&con2] # 점심시간 주문 건 중 과속(평균 속도가 50km/h 이상)하는 주문 수를 정수로 구하시오. df['배달시간'] = df['실제도착시간']- df['주문시간'] # 배달시간 = 실제도착시간 - 주문시간 # 속도(km/h) = 거리(km) / 시간(h) ## dt.total_seconds()/60 :분단위 ## dt.total_seconds()/60/60 : 시간단위 df['배달시간']= df['배달시간'].dt.total_seconds()/60/60 df['속도'] = df['거리']/ df['배달시간'] sum(df['속도']>= 50)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 실제시험에서 제가 선생님처럼 데이터전처리하면서 커스터머아이디를 드랍할 여유가 없을것같은데 그냥 타겟에다가 팝만 하면 안될까요? 그러면 아예 오답이 돼버릴까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코드 제출 질문
1.코드를 이렇게 작성했는데 시험환경에서 이 상태로 바꿀것 없이 그냥 제출 버튼 누르면 되는건가요?2.원핫인코딩 진행시 데이터가 10,000개가 넘어가서 45초정도 걸리는데 레이블인코딩을 진행할시 코드는 df로 concat하고 그대로 레이블인코딩 진행 후 다시 나누어 주면 되나요?import pandas as pd train = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p2/flight_train.csv") test = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p2/flight_test.csv") # print(train.info()) target = train.pop('price') # print(train.shape, test.shape) df = pd.concat([train,test]) df = pd.get_dummies(df) train = df.iloc[:10505,:] test = df.iloc[10505:,:] # print(train.shape, test.shape) # 라벨인코더 # from sklearn.preprocessing import LabelEncoder # cols = train.select_dtypes(include = 'object') # for col in cols: # le = LabelEncoder() # train[col] = le.fit_transform(train[col]) # test[col] = le.transform(test[col]) # 데이터 분리 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train,target,test_size=0.2,random_state=0) # 랜덤포레스트 from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor(random_state = 0) rf.fit(X_tr, y_tr) pred = rf.predict(X_val) # # LightGBM # import lightgbm as lgb # lg = lgb.LGBMRegressor(random_state = 0, verbose=-1) # lg.fit(X_tr,y_tr) # pred = lg.predict(X_val) #평가지표 RMSE from sklearn.metrics import root_mean_squared_error rmse = root_mean_squared_error(y_val, pred) # print(rmse) # 원핫 + 랜포 = 3779.676969452687 선택 # 원핫 + LGB = 4216.406340322749 pred_final = rf.predict(test) # 제출 submit = pd.DataFrame({'pred':pred_final}) submit.to_csv('result.csv',index=False) pd.read_csv('result.csv')
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리(인코딩)
강의에서 '데이터 전처리2(인코딩, 스케일링)' 부분 중 인코딩 부분에 대해 질문드립니다. 영상 중 7분 50초 쯤에 심화 내용으로 train, test 데이터를 concat으로 합쳐서 원핫 인코딩을 하는 방법이 있다고 하셨습니다. 그런데 학습 과정에 이 합쳐진 데이터를 넣어서 해도 되는건가요? test 데이터를 모델에 넣어서 학습시키는게 맞는건지 헷갈려서 질문드립니다.
-
미해결실리콘밸리 데이터 리더가 알려주는 Airflow 기초
forloop으로 task 정의시 task_id 정해지는 로직
안녕하세요. 49강 수강 중 질문이 있습니다. for table_name in TABLES.keys(): extract_from_postgres(postgres_schema, table_name) >> load_to_snowflake(snowflake_schema, table_name)현재 강사님이 주신 이 코드 기준 테이블 2개 tasks 2개 해서 총 4개의 tasks가 airflow tasks list의 결과로 반환되었는데요, 이때의 결과물인 tasks_id가 어떻게 만들어지는지 궁금합니다.조금 더 정확히는 forloop으로 task를 정의할 때 어떤 식으로 DAG가 이 task의 개수를 세고 네이밍을 하는지 궁금합니다.혼자 테스트를 해보고 싶어서 임의의 테이블 하나를 postgres:production에 추가하고 코드내부의 TABLES 딕셔너리에 제가 추가한 테이블의 스키마를 추가하였습니다. 이때 테이블이 총 3개가 되었으므로 airflow tasks list의 결과가 총 6개가 될 것으로 예상하였는데 여전히 4개로 나옵니다. 제가 놓친 부분이 있을까요?현재 production schema아래 3개의 테이블이 있는 상태입니다.airflow=# SELECT table_name FROM information_schema.tables WHERE table_schema = 'production' AND table_type = 'BASE TABLE' ORDER BY table_name; table_name ------------------------ session_timestamp user_session_channel user_session_channel_2 (3 rows)감사합니다. 학습 관련 질문을 상세하게 남겨주시면 더 좋습니다. 예를 들어 이해가 안 가는 부분이 있다고 하면 강의에서 어느 부분인지 어떤 부분이 이해가 안되는지 등등 추가 정보가 큰 도움이 됩니다. 그리고 에러가 난다면 어떤 에러 메시지가 나오는지 같이 공유해주세요. 혹시라도 유사한 질문이 있었는지 먼저 확인 부탁 드리겠습니다. 서로 예의를 지키며 존중하는 문화를 만들어갔으면 하고 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
10f질문
안녕하세요시간이 별로 남지 않아 일단 강의만 후루루룩 본 상태라 이제 중요사항만 다시 반복하려고 합니다ㅠ pd.set_option('display.float_format, '{:.10f}.format()제 기억엔..이거랑 하나 더 있었던 것 같은데 외우라고 하셨는데ㅠ 강의를 일단 후루룩 본 상태라서ㅠ어디 강의에서 말씀하셨는지 기억이 잘 안나네요ㅠ (혹시 알 수 있을까요..) 그리고 저 코드랑 비슷한거 하나 더 해서 외우라고 하셨는데.. 그 나머지 하나랑.... 저게 어떤 상황에서 쓰는 코드인지 다시 질문드립니다데이터가 저런 식으로도 자주 나오는지도 궁금합니다! 좋은 강의 항상 감사드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test.pop
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요기출7회 작업형 3 강의 때는 accuracy_score 구할 때, target = test.pop('gender')을 하는 단계가 있었는데요, (아래코드)from sklearn.metrics import accuracy_scorefrom statsmodels.formula.api import logit# 데이터셋 분할train = df.iloc[:210]test = df.iloc[210:]# 1) 학습, test데이터를 사용해 예측 (0.5 미만: 0, 0.5 이상 1)model = logit("gender ~ weight", data=train).fit()target = test.pop("gender")pred = model.predict(test) > 0.5# 2) 실제 값과 예측 값을 사용하여 정확도 계산acc = accuracy_score(target, pred)# 3) 오류율 계산print(round(1-acc,3)) 지금 예시문제에서는 따로 없어서 작업형 3에서는 어떨 때 target = test.pop('gender') 를 해야하는지 궁금해요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
임계값조건
자료에는 0.5 미만 : 00.5 이상 : 1이라고 되어있는데, 코드 및 설명은0.5 이하 : 00.5 초과 : 1이라고 보여져요. 어떤게 맞나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 제출
작업형2 제출 방식에 대해 질문 있습니다! print(submit.to_csv(‘result.csv', index=False)를 작성한 후에 확인하기 위해print(pd.read_csv('result.csv'))print(pred.shape)등을 실행하며 진행하고 있는데 이런 코드는 주석처리나 삭제할 필요 없이 그대로 제출해도 괜찮은지, 그리고 그 전에 EDA등을 하며 print문으로 작성한 것들도 주석처리 없이 그대로 제출해도 괜찮은지 문의드립니다!😊
-
해결됨(GPT-5) 챗GPT와 파이썬으로 주식 자동매매 앱 및 웹 투자 리포트 만들기
pykiwoom은 32비트 기반이고 pykrx는 64비트 동작아니었나요?
강의 따라다가가 중간에 파이선 코드 복붙 하는데 아마 두가지 파이선 가상환경이 안맞는다고 충돌 나는데 어디서 문제가 생긴 걸까요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Section 4. 값 변경, 정렬, 합계 문제 질문
위는 제가 푼 풀이, 아래는 선생님의 답변입니다. 해당 문제에서 왜 최소값을 구하고 대입하는지 모르겠습니다.문제에서 말하는 상위는 큰 숫자부터 작은 숫자로 정렬했을 때, 10번째로 큰 숫자를 말하는 상위인가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
범주형 변수에서 C(변수) 형태 입력 문의
분산분석 강의노트(가정에서 재배하고 있는 네 가지 토마토 종자(A, B, C, D)에 대해 세 가지 종류의 비료 (11, 12, 13)를 사용하여 재배된 토마토 수를 조사하였다. 종자 및 비료 종류 간의 토마토 수의 차이가 있는지 유의수준 0.05하에서 검정하시오. (단, 정규성, 등분산성에 만족한 데이터)) 문제에서 종자, 비료가 범주형 데이터여서 C를 씌워준 걸로 아는데, 회귀 분석 시에도 0, 1로만 나타나거나 A, B, C로만 나타나는 변수에 대해서 logit 또는 ols 안에서도 변수에 C를 작성해야 하는지 궁금합니다..!