묻고 답해요
164만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결Airflow 마스터 클래스
airflow rest api
강사님 안녕하세요. airflow의 rest api를 이용하여 task를 재실행하는 코드를 개발하는 중 궁금한 점이 생겨서 문의드립니다. (참고로 실행환경은 회사pc입니다) ~/v1/dags/{dag_id}/dagRuns/{execution_date}/taskInstances/{task_id}/clear위와같이 특정 task의 실행 시간으로 실행하면 404에러가 뜨고 "detail": "The requested URL was not found on the server. If you entered the URL manually please check your spelling and try again.", "status": 404, "title": "Not Found", "type": "about:blank" REST-API문서를 살펴보니 clearTaskInstances가 있어서~/api/v1/dags/{dag_id}/clearTaskInstances이렇게 조회하면 405 에러가 뜹니다. "detail": "The method is not allowed for the requested URL.", "status": 405, "title": "Method Not Allowed", "type": "about:blank" /clear이든 /clearTaskInstances 둘다 작동하지 않은데, 방법이 있을까요?두번째의 경우 서버에서 작동을 막는것일까요?
-
미해결실리콘밸리 데이터 리더가 알려주는 Airflow 기초
yfinance 주식 읽어 오기 처음 중, no module named helpers 에러
airflow dags list를 하면 yfinance_to_snowflake_fullrefresh.py 에서 no module named helpers 에러가 떴습니다. pip3 install helpers 를 통해 설치를 했는데도, 동일한 에러가 발생하고 있습니다. (python은 homebrew 통해 설치했고, homebrew 설치 시에 패키지 전역 설치가 안된다는 문제가 있었는데, 이는 해결해서 helpers Install은 완료 했습니다.)
-
미해결실리콘밸리 데이터 리더가 알려주는 Airflow 기초
Data Drift 발생시 머신러닝 모델이 동작하지 않는 것의 의미
1. Data Drift 발생 시에 머신러닝 모델이 동작하지 않게 될 것이라는 것은 서비스는 돌아가지만, 머신러닝의 모델이 원래 기대했던 성능을 내지 못할 것을 의미하는 것일까요?예를 들어 추천 모델을 돌리고 있다면, 추천이 제대로 되지 않고 엉뚱한 것을 추천한다는 것을 의미하는 것인가요? 2. 주기적으로 데이터의 분포를 점검하는 필요가 있다면 어느 정도 주기여야 할까요? 3. 데이터의 분포가 어느 정도로 변하게 되면 이상 신호로 받아 들이게 되는 것인가요? 평균의 변화가 아닌 분산의 변화만으로도 이상 신호로 보아야 하는 것인지요? (뭔가 더 복잡하면 데이터의 성격에 따라 이러한 분포의 변화에 대해 반응해야 하는 수준이 다 다를 것으로도 느껴지기도 합니다.)
-
미해결실리콘밸리 데이터 리더가 알려주는 Airflow 기초
docker 에러
명령어:docker compose -f docker-compose.yaml up에러 메세지:ERROR! Maximum number of retries (20) reached.사용 환경windows 11 Home어떤 부분 때문에 계속 오류가 발생하는걸까요?
-
미해결Airflow 마스터 클래스
airflow.cfg 변경
안녕하세요 강사님 airflow config를 변경하기 위해 시도해보았는데이렇게 expose를 false->true로 변경하여도 airflow web에서는 변경되지 않아서 혹시 어디가 잘못 되었는지 문의드립니다그리고 dag인식이 느린 것 같아 dag_dir_list 값을 100으로 변경하였는데 cpu만 괜찮다면 다른 변수들은 수정할 필요가 없을까요?
-
미해결Airflow 마스터 클래스
>> 가 이해가 잘 안갑니다ㅠㅠ
task 연결하기 강의에서t1 >> [t2, t3] >> t4t5 >> t4[t4, t7] >> t6 >> t8이렇게 작성하셨는데t1 >> [t2, t3] >> t4t5 >> [t4, t7] >> t6 >> t8이렇게 해도 될까요?순서도 그릴때 task는 무조건 한번씩만 실행되는건가요?t4[t4,t7] 이렇게 t4를 두번 작성해도 되는지 궁금합니다.
-
미해결실리콘밸리 데이터 리더가 알려주는 Airflow 기초
Airflow UI DAGs 리스트들
CountryCapital_v3.py 실습과정을 진행중에 갑자기 airflow UI 에서 DAGs 리스트들이 나오지 않는 현상을 겪고 있습니다. airflow dags list 명령어에 대한 결과이고, 도커에서 airflow 도 잘 띄우고 있습니다. 이전까지는 잘 되었는데 다음 사진과 같이 dag들이 갑자기 나오지 않고 있습니다.
-
미해결Airflow 마스터 클래스
vsc에서 airflow 자동완성
안녕하세요 강사님혹시 vsc에서 airflow관련 함수들의 자동완성을 제공하는 익스텐션이 따로 있나요?아니면 코드를 원래 전체 작성해야 하나요?위 그림에 ti.xcom_pull의 경우 ti. 하고 자동완성을 하려고 봤더니 제공하는 함수가 없어서 질문드립니다근데 뒤에 task_ids는 자동완성이 되네요
-
미해결Airflow 마스터 클래스
airflow 디버깅 관련 문의
안녕하세요 강사님airflow에서 코드를 실행할 때 잘못 작성된 경우나 에러가 있는 경우 디버깅을 해야되는데 일반 코드들 처럼 실행해서 잘못된 부분을 찾으려면 항상 우분투 서버에서만 확인이 가능한가요?일반 코드들처럼 vscode 자체에서 확인하기는 어려울까요?
-
미해결Airflow 마스터 클래스
git pull 시 docker 재부팅 질문
안녕하세요 dag commit 이후 git pull 당겨오면 webserver 에 dag가 안보이는데 Docker 재시작하면 나타나더라구요 자동으로 반영되게 하는방법 없을까요?
-
미해결실리콘밸리 데이터 리더가 알려주는 Airflow 기초
nps.csv 파일 위치 및 실습 질문
섹션 3에 있는 Snowflake 환경 익히기 실습에서 nps.csv 파일은 어디에 있나요?환경 익히기 실습에서 진행하는 google colab 파일과 깃헙에 있는 country_capital_to snowflake.py 파일의 차이를 알고 싶습니다. 최종적으로 우리가 airflow를 사용하기 위해 스노우플레이크 내에 만들어져 있어야하는 스키마, 테이블 및 적재되어야하는 csv파일 정리해서 알려주시면 감사드리겠습니다.
-
미해결실리콘밸리 데이터 리더가 알려주는 Airflow 기초
Airflow Variables 설정
Airflow Variables 설정시 스노우플레이크와 연결을 위한 snowflake_userid, snowflake_password, snowflake_account 설정은 이해를 합니다. 그런데 첫번째인 Country_capital_url 왜 설정하는지 이해가 안갑니다.
-
미해결실리콘밸리 데이터 리더가 알려주는 Airflow 기초
섹션 8 PostgresToSnowflake DAG 실행 중 발생한 오류
안녕하세요 선생님,강의를 정말 재밌게 수강하고 있습니다. 섹션 8 PostgresToSnowflake DAG를 실행해서 Snowflake에 user_session_channel 테이블과 session_timestamp 테이블에 CSV 파일 로드할 때 오류가 있는것 같아요. 간단하게 해결할 수 있는 문제인데 DAG 파이썬 파일에서 os import 구문이 빠져있는거 같아요 import os이거 넣어서 간단하게 해결했습니다!좋은 강의 만들어주셔서 감사하고 곧 추가될 강의도 기다리고 있겠습니다!
-
해결됨Airflow 마스터 클래스
안녕하세요 대학생 질문드립니다
강의를 들으면서 데이터 엔지니어를 준비하고 있는 학부생입니다.취업사이트에 데이터 엔지니어를 찾아보면 대게 경력 위주로 채용을 진행하고 있는데데이터 엔지니어가 신입으로 일을 할 수 있는 방법이 있는 지 ?아니면 신입으로서 바로 데이터 엔지니어로 일하기는 조금 어려운게 현실인지 궁금하여 글 작성합니다.괜찮으시다면 데이터엔지니어 직무 입사자가 이런 경험이 있으면 채용하겠다는 부분이 있는 지 알려주시면 감사하겠습니다.
-
미해결실리콘밸리 데이터 리더가 알려주는 Airflow 기초
섹션 8 yfinance 강의 수강 중 발생한 오류
안녕하세요, 데이터 엔지니어에 관심을 가지고 이제 막 공부를 시작한 학생입니다.섹션 8 yfinance 첫 번째 강의를 수강하던 도중에 에러가 생겨서 문의 남깁니다.작성되어 있는 코드 중에extract(symbol) >> load(file_path, symbol, schema, table)이 부분에서 문제가 생겼었습니다.그래서 file_path = extract(symbol) extract(symbol) >> load(file_path, schema, table)이렇게 수정해서 오류를 해결했는데, airflow web ui에서 다른 오류가 발생했길래 또 찾아보니 load함수에서 문제가 생긴 것 같습니다. file_path를 load함수에서도 다시 만들어줘서 snowflake에 데이터를 적재할 때 올바른 파일 경로를 찾지 못해서 생기는 오류가 발생하는거 같아요.def load(file_path, schema, table): cur = util.return_snowflake_conn("snowflake_conn") try: cur.execute(f"USE SCHEMA {schema};") cur.execute( f"""CREATE TABLE IF NOT EXISTS {table} ( date date, open float, close float, high float, low float, volume int, symbol varchar )""" ) cur.execute("BEGIN;") delete_sql = f"DELETE FROM {table}" logging.info(delete_sql) cur.execute(delete_sql) # 바로 받은 file_path 사용 (더 이상 경로 재생성 X) util.populate_table_via_stage(cur, table, file_path) cur.execute("COMMIT;") except Exception as e: cur.execute("ROLLBACK;") raise e finally: file_name = os.path.basename(file_path) table_stage = f"@%{table}" cur.execute(f"REMOVE {table_stage}/{file_name}") cur.close()요렇게 변경해주니까 데모 영상에 나온 것과 같이 똑같이 스노우플레이크에 잘 적재되었습니다.!제가 제대로 해결한게 맞을까요??
-
미해결실리콘밸리 데이터 리더가 알려주는 Airflow 기초
ETL 작성 이유
이 과정은 google colab을 사용하여 ETL 프로세스를 만들어 스노우플레이크에 적재하는 방식을 보여줍니다. 두 개의 컬럼을 갖고 있는 country_capital.csv 파일을 텍스트로 풀어 쓰고 콤마로 나눠 country와 capital 로 나누는 과정을 설명해주는데, 이 과정을 진행하는 이유가 단순 궁금합니다.스노우플레이크 GUI 환경에서 add data 하여 스테이지-테이블 순으로 적재를 하면 되는데 코드화 하여 적재하는 구분하여 적재하는 이유가 단순히 궁금합니다. 혹시, 나중에 처리하여 올리기 힘든 데이터의 경우 이렇게 전처리 과정을 미리 거쳐 올리는 방법을 알려주시는건가요?
-
미해결Airflow 마스터 클래스
airflow 자격증명 관련문의
안녕하세요 airflow 관련 자격증이 있는지 궁금합니다. 구글링 해보니 따로 안나오는 것 같아서요..!보통 어떤식으로 airflow 사용역량을 어필 할 수 있는지 궁금합니다 .
-
해결됨Airflow 마스터 클래스
질문드립니다 4~5강
op_args와 op_kwargs 등 파라미터를 전달하는 함수를 사용할 때 task 파라미터를 사용해서 하는 방법은 따로 설명이 없는데 이렇게 함수에 파라미터를 전달해서 사용할 때는 파이썬오퍼레이터를 항상 써야만하는 건가요?
-
미해결Airflow 마스터 클래스
module 'requests' has no attribute 'post'
토근 발급하는 과정에서 해당 오류로 다음 진도를 못나가고 있습니다..ㅜㅜ이전 서울시 공공데이터 실습하는 과정에서 requests 정상 import 및 문제없이 작동하였는데, 이번 실습에선 module 'requests' has no attribute 'post' 오류가 발생하네요.- 오류를 해결하기 위해 requests.py 파일이 있는지 확인- requests 정상 import 확인- requests reinstall진행하였으나 문제 해결이 되지 않았습니다..혹시 놓친 부분이 있는지 도와주세요. 감사합니다!import requests client_id = '' redirect_url = 'https://example.com/oauth' authorize_code = '' token_url = 'https://kauth.kakao.com/oauth/token' data = { 'grant_type': 'authorization_code', 'client_id': client_id, 'redirect_url': redirect_url, 'code': authorize_code } response = requests.post(token_url, data=data) tokens = response.json() print(tokens) 추가로 아래 AI 답변 관련하여 확인 해보았습니다. 그럼에도 놓친 사항이 있을 수 있으니 함께 확인하여 답변해주시면 감사하겠습니다!
-
미해결Airflow 마스터 클래스
Docker 설치 오류 문의드립니다
현재 Mac OS 에서 진행 중입니다.Docker 설치하는데 진행 단계에서 오류가 발생해서 문의드립니다.root@3293a1a48e67:/# service docker start/etc/init.d/docker: 62: ulimit: error setting limit (Invalid argument)제가 찾아본 바로는 구버전이라 해당 오류가 발생한다고 하는데 해결 방법을 따로 알려주실수 있을까요? 그리고 추가적으로 꼭 우분투에 설치해야 강의를 진행할 수 있는 걸까요?우분투 가상환경 없이 도커랑 에어플로우 설치하면 제한이 있는건가요?