묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결실리콘밸리 엔지니어와 함께하는 Apache Airflow
airflow와 postgres간의 connection 오류
airflow와 postgres 간의 connection 오류 문제입니다.airflow UI -> admin-> connections에서 postgres 연결설정docker-compose.yaml 설정 dag 코드입력 airflow tasks test postgres_loader execute_sql_query 2023-01-01 시에 오류가 뜹니다ㅠ[2024-06-21T15:40:45.514+0900] {dagbag.py:545} INFO - Filling up the DagBag from /home/kim/airflow/dags [2024-06-21T15:40:45.805+0900] {taskinstance.py:2076} INFO - Dependencies all met for dep_context=non-requeueable deps ti=<TaskInstance: postgres_loader.execute_sql_query __airflow_temporary_run_2024-06-21T06:40:45.755970+00:00__ [None]> [2024-06-21T15:40:45.811+0900] {taskinstance.py:2076} INFO - Dependencies all met for dep_context=requeueable deps ti=<TaskInstance: postgres_loader.execute_sql_query __airflow_temporary_run_2024-06-21T06:40:45.755970+00:00__ [None]> [2024-06-21T15:40:45.812+0900] {taskinstance.py:2306} INFO - Starting attempt 1 of 1 [2024-06-21T15:40:45.812+0900] {taskinstance.py:2388} WARNING - cannot record queued_duration for task execute_sql_query because previous state change time has not been saved [2024-06-21T15:40:45.813+0900] {taskinstance.py:2330} INFO - Executing <Task(PostgresOperator): execute_sql_query> on 2023-01-01 00:00:00+00:00 [2024-06-21T15:40:45.855+0900] {taskinstance.py:2648} INFO - Exporting env vars: AIRFLOW_CTX_DAG_OWNER='airflow' AIRFLOW_CTX_DAG_ID='postgres_loader' AIRFLOW_CTX_TASK_ID='execute_sql_query' AIRFLOW_CTX_EXECUTION_DATE='2023-01-01T00:00:00+00:00' AIRFLOW_CTX_TRY_NUMBER='1' AIRFLOW_CTX_DAG_RUN_ID='__airflow_temporary_run_2024-06-21T06:40:45.755970+00:00__' [2024-06-21T15:40:45.858+0900] {taskinstance.py:430} INFO - ::endgroup:: [2024-06-21T15:40:45.870+0900] {sql.py:276} INFO - Executing: INSERT INTO sample_table (key, value) VALUES ('hello', 'world') [2024-06-21T15:40:45.875+0900] {taskinstance.py:441} INFO - ::group::Post task execution logs [2024-06-21T15:40:45.875+0900] {taskinstance.py:2905} ERROR - Task failed with exception Traceback (most recent call last): File "/home/kim/.local/lib/python3.10/site-packages/airflow/models/taskinstance.py", line 465, in _execute_task result = _execute_callable(context=context, **execute_callable_kwargs) File "/home/kim/.local/lib/python3.10/site-packages/airflow/models/taskinstance.py", line 432, in _execute_callable return execute_callable(context=context, **execute_callable_kwargs) File "/home/kim/.local/lib/python3.10/site-packages/airflow/models/baseoperator.py", line 401, in wrapper return func(self, *args, **kwargs) File "/home/kim/.local/lib/python3.10/site-packages/airflow/providers/common/sql/operators/sql.py", line 277, in execute hook = self.get_db_hook() File "/home/kim/.local/lib/python3.10/site-packages/airflow/providers/common/sql/operators/sql.py", line 188, in get_db_hook return self._hook File "/usr/lib/python3.10/functools.py", line 981, in __get__ val = self.func(instance) File "/home/kim/.local/lib/python3.10/site-packages/airflow/providers/common/sql/operators/sql.py", line 150, in _hook conn = BaseHook.get_connection(conn_id) File "/home/kim/.local/lib/python3.10/site-packages/airflow/hooks/base.py", line 83, in get_connection conn = Connection.get_connection_from_secrets(conn_id) File "/home/kim/.local/lib/python3.10/site-packages/airflow/models/connection.py", line 519, in get_connection_from_secrets raise AirflowNotFoundException(f"The conn_id `{conn_id}` isn't defined") airflow.exceptions.AirflowNotFoundException: The conn_id `my_postgres_connection` isn't defined
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
잔차이탈도
기존 강의 내용인 glm을 이용해도 무방한거죵?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
RMSE 방법
안녕하세요. 좋은 강의 잘 듣고 있습니다. 강사님께서 RMSE를 만들 때 함수를 만들어서 사용하시는데mean_square_error를 불러온 다음mean_squared_error(squared=False)를 하면 RMSE가 되는 것으로 알고 있습니다.굳이 함수를 만드는 것보다 더욱 쉬울 것 같은데 함수를 만들어 사용하시는 이유가 궁금합니다. 좋은 강의 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
파라미터 튜닝 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요!이전에 random forest classifier에서는 n_estimators랑 max_depth로 파라미터 튜닝이 가능하다고 말씀해 주셨는데요.제 기억에 분류 모델에서만 적용이 가능했던 것 같은데 Random forest regression에서도 적용해도 되는 걸까요?rf = RandomForestRegressor(random_state=0, n_estimators = 500, max_depth = 5)이렇게요..! 그리고 각 파라미터의 적정 range가 어느 정도인지도 궁금합니다.
-
해결됨[빅데이터 러닝센터] (무료) KNIME으로 시작하는 분석 Skill-Up
실습데이터는 어떻게 다운로드 할수 있을까요?
안녕하십니까실습데이터는 어떻게 다운로드 할 수 있는지 안내 부탁드립니다.감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
전체 행,열 보이게 하기
pd.set_option(diplay.max_columns, 'None') 으로 전체컬럼 보기 말씀해주셨는데 혹시 취소하는방법도 알수있을까요? colab에서 지우고 실행해봐도 계속 전체 데이터가 보여서요 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
마지막에 result 쉐입이 train데이터 행렬로 출력이 되어서요. 뭐가 잘못되엇을까요??
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 #1.데이터불러오기 import pandas as pd train = pd.read_csv("energy_train.csv") test = pd.read_csv("energy_test.csv") #2.EDA print(train.shape, test.shape) print(train.info()) print(test.info()) print(train.isnull().sum()) print(test.isnull().sum()) print(train.describe()) print(train.describe(include='O')) print(train.head(2)) print(test.head(2)) target = train.pop('Heat_Load') print(train.shape, test.shape) #3.전처리 #범주형->원핫인코딩 train = pd.get_dummies(train) test = pd.get_dummies(train) #4.검증데이터분리 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=10) print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape) #5.모델링및평가 from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=0) rf.fit(X_tr, y_tr) pred = rf.predict(X_val) f1_score(y_val, pred, average='macro') pred = rf.predict(test) submit = pd.DataFrame({ 'pred':pred }) submit.to_csv('result.csv', index=False) df = pd.read_csv("result.csv") print(df.shape)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 유의사항에 대해 질문드립니다.!
빅분기시험 유의사항에 다음과 같이2유형에서 자동 생성되는 index 칼럼을 제거하라고 나와있는데요.혹시 이 자동 생성되는 index 칼럼 제거의 의미가 마지막에 index = False로 코딩하라는 소리일까요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이원분산분석
선생님 이원분산분석에서 한 컬럼이라도 범주형(object) 값이 있다면 모든 컬럼을 C로 감싸주어야할까요? 아니면 해당 범주형 컬럼인 종자만 이렇게 C로 감싸줘도 되는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출 3의 logit
7회 3번의 1번 문제에서weight의 coef 계수가 logit과 glm에서 상이하게 나오는거 같은데 상관없나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T2-6 질문있습니다.
안녕하세요,공지로 알려주신 캐글 T2-6(시계열데이터가 있는 문제)를 풀고 있는데요!모델 학습을 하는 과정에서모델 별 평가 점수가 너무 크게 차이 나서 문의드립니다. 우선 풀이와 조금 다른점이 있다면 , 전처리 과정에서 datetime의 년,월,일 뿐만 아니라 시,분,초까지 칼럼으로 추가했다는 점입니다.train.head()선형회귀로 학습했을 때)RMSE : 141.97306616836775R2 : 0.39335324789512727랜덤포레스트로 학습했을 때)RMSE : 44.64624546594813 (하이퍼파라미터 튜닝x)R2 : 0.9400079312167055 모델을 선형회귀로 학습했을 때랑 랜덤포레스트로 학습했을 때 점수차이가 너무 크게 나는데뭔가 잘못된 부분이 있는걸까요..?풀이의 모델들 점수가 오히려 선형회귀모델과 비슷한 0.4 정도가 나오는 것으로 보여서이렇게 유난히 높게 나오는 랜덤포레스트 모델을 선택해도 괜찮은 것인지 궁금합니다.확인 부탁드립니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 예시문제 T1-16
위 사진과 같이 분산을 구하는 코드만 직접 짜봤는데 KeyError'f1'이라는 오류가 뜨는데 이유가 뭘까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 제출시 질문있습니다
최종 제출시에 train_test_split을 통해 나누어진 X_tr,y_tr을 학습한 모델로 답을 제출하면 X_val 데이터 만큼의 데이터를 학습하지 못해 손해가 발생할 것 같습니다.데이터를 X_tr,X_val,y_tr,y_val 로 나누어서 어떤 모델이 가장 성능이 좋은지 검증한 후에 최종 제출할때는 전체데이터를 다시 학습한 모델로 pred 를 만들어 제출할려고 하는데 이렇게 해도 문제가 없을지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험볼때 데이터 업로드 필수 여부 질문
안녕하세요 시험볼때 데이터가 환경에 저장되어있나요?아니면 강의내용 추가해주신대로제가 실제 업로드부터 시작해야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출3회 작업형2 - test.index
마지막에 데이터 프레임 만들때 test.index나 reset_index는 초반에 test_id 를 pop으로 저장시켰다면 필요없는 식인가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출3회 작업형2
안녕하세요 😊작업형 2문제에서 수치형과 범주형 데이터를 각각 n_train, c_train 등으로 나누어서 로버스트 스케일링과 원핫인코딩을 하셨는데 데이터를 저렇게 나누지 않고도 원핫인코딩 이후에 cols로 수치형데이터였던 변수들만 뽑아내서 로버스트 스케일링해도 관계없나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 시계열 데이터
시계열 데이터가 있으면 파생변수로 만들어 주라고 하셨는데, 여기서 질문이 있습니다파생변수를 만들지 않고는 분석을 진행 못하나요?만약 진행이 가능하다면 그냥 원핫인코딩이나 라벨인코딩 해주면 되나요? 아니면 drop시켜야 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 rmse 구하는 법
선생님께서 rmse 구할때 이런 함수를 사용해서 이렇게 하라고 하셨는데from sklearn.metrics import mean_squared_errordef rmse(y_true, y_pred):mse = mean_squared_error(y_true, y_pred)return mse ** 0.5result = rmse(y_val, pred)혹시 이렇게 함수식을 안쓰고from sklearn.metrics import mean_squared_errorrmse = mean_squared_error(y_val, pred) ** 0.5print(rmse)이런 방식으로 rmse를 구해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(신버전) 예측컬럼
안녕하세요 선생님,질문드립니다~ 에시문제 작업형2(신버전)에서 보면1) roc_auc_score로 평가한다고 되어있지만,2) 제출 csv 파일 형식 예시를 보면 확률값이 아닌 0또는1로 적혀있습니다. 그러면 제출할때 predict_proba가 아닌 predict로 예측한 결과값을 제출해야하는 것 아닌가요? 선생님이 작성하신 결과값이 확률값으로 되어있어 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
roc_auc 검증과 cross_val_score은 같이 쓸 필요가 없죠??
roc_auc 검증과 cross_val_score은 같이 쓸 필요가 없죠??둘다 성능 평가를 하는 것으로 이해가 돼서 둘 중에 한개를 진행하면 되겠죠? roc_auc는 데이터 분할 train_test_split이 필요하고, cross_val_scroe은 필요 없고, fit에 fit(x_tr, y_tr) 생략하고 바로 test 값을 rf.predict(test)로 예측해서 제출하면 되는 걸까요?