44,000원
다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결실리콘밸리 엔지니어와 함께하는 Apache Airflow
메타데이터 의미
강사님 안녕하세요메타데이터는 테이터의 설명 즉, 테이블에 대한 명세서 라고 정의 하는것을 봤습니다. 그런데 또 다른 의미로 원천 데이터 라는 의미로도 사용될 수 있을까요? 예를들어 overview강의에서 6:24초에 "다른 메타 데이터와 합성해서"라고 말씀 해주셔서요! 사소하지만 조금 헷갈려서 문의 드립니다!강의 잘 듣고 있습니다. 감사합니다!
- 해결됨실리콘밸리 엔지니어와 함께하는 Apache Airflow
병렬처리 질문드립니다.
안녕하세요 선생님 🙂 airflow 실습중에 airflow의 병렬처리에서 메시지 큐가 어떻게 처리되는지 궁금하여 질문드립니다!celery와 k8s를 병렬처리에 사용함에 있어서 메시지 큐를 별도로 설정하지 않는것 같은데요. 이 둘은 메시지 큐를 알아서 처리해주는건거요? celery와 k8s를 사용한 병렬 처리방식은 이해못해서 일단은 concurrent 패키지의 ThreadPoolExecutor 사용하여 병렬 처리를 하였습니다. airflow에서 병렬처리시 일반적으로 threadPool을 사용하는지도 궁금합니다. threadPool이 일반적이지 않다면 어떤 방식으로 병렬 처리를 하는지 궁금합니다!항상 감사합니다! 🙂
- 해결됨실리콘밸리 엔지니어와 함께하는 Apache Airflow
connection 정보 이전 방법 질문드립니다.
안녕하세요 선생님 🙂 connection 정보를 새로운 환경에 이식 방법 질문드립니다.stackoverflow 등을 찾아보니 csv파일 또는 sh 파일로 구축하여 사용하는 것같은데요이 같은 방법은 보안에 취약할수있겠다는 생각이 들어서 어떤 방식으로 이식가능한 connection 정보를 저장하는것이 좋은지 질문드립니다. stackover reference - https://stackoverflow.com/questions/55626195/export-all-airflow-connections-to-new-environment즐거운 크리스마스 연휴되세요!감사합니다! 🙂
- 해결됨실리콘밸리 엔지니어와 함께하는 Apache Airflow
PostgresOperator로 대량의 데이터 업로드 방법 질문드립니다.
안녕하세요 선생님 🙂 PostgresOperator 질문 드립니다. DB table에 데이터를 갱신하는 task를 혼자 만들어보고 있는데요.PostgresOperator는 executemany와 같은 기능을 지원하지 않는 것으로 확인했습니다. airflow에서 대량의 데이터를 insert / update 하는 방법이 있을까요..?
- 해결됨실리콘밸리 엔지니어와 함께하는 Apache Airflow
강의 할인 프로모션 질문입니다..
선생님 완강 이후 커뮤니티 이벤트 참여 신청했는데요이벤트 끝난건가요? ㅠ https://www.inflearn.com/course/%EC%8B%A4%EB%A6%AC%EC%BD%98%EB%B0%B8%EB%A6%AC-%EC%97%94%EC%A7%80%EB%8B%88%EC%96%B4%EC%99%80-%ED%95%A8%EA%BB%98%ED%95%98%EB%8A%94-apache-airflow/news
- 해결됨실리콘밸리 엔지니어와 함께하는 Apache Airflow
hook 질문드립니다.
안녕하세요 선생님 hook 사용에 대한 질문드립니다! [질문] connection 기능을 사용해서 DB에 연결하여 데이터 처리도 가능할 것으로 보이는데요. hook을 사용하는 이유가 궁금 합니다. 사용 이유가 있다면 어떤 경우에 사용하면 좋은지도 궁금합니다. 감사합니다 🙂
- 미해결실리콘밸리 엔지니어와 함께하는 Apache Airflow
section 2-hook 강의 질문
docker on window를 사용하고 있습니다.docker 에 airflow를 올리면, 자체적으로 postgres db 가 올라가는데요. 강의 8:05 에서 말씀하시는게 이것인듯 한데요. 이것과 dbeaver를 연결하려고 하면 에러가 납니다. docker yaml 파일에 나와있는대로host : localhost ( 이것을 host.docker.internal 로 바꾸어도 같은 에러가 납니다)database: airflowusername : airflowpassword: airflow 으로 하고 테스트 커넥션을 하면 아래와 같은 에러가 납니다. 별도로 postgres db를 만들어서 연결하는 건 정상적으로 되는데, 왜 airflow 자체적으로 만들어지는 postgres db에 접속하는것만 오류가 나는 것일까요? 이 db에 접속을 해야 강의 8:09에 보이는 각종 table 들에 접근이 가능한 것 같은데요
- 미해결실리콘밸리 엔지니어와 함께하는 Apache Airflow
airflow tasks test 질문드립니다!
안녕하세요 선생님! 🙂provider 강의에서 airflow tasks test 질문드립니다.airflow docker-compose와 postgres docker-compose를 up 한 후에 (airflow, postgres 정상적으로 구동됨)airflow tasks test postgres_loader execute_sql_query 2023-01-01터미널에서 실행시 zsh: command not found: airflow 에러가 발생합니다.실습환경은 강의와 동일하게 docker compose로 구축하였고로컬환경에는 airflow를 설치하지 않은 상태입니다.로컬환경에 airflow를 설치해야하나요..? ㅠㅠ
- 해결됨실리콘밸리 엔지니어와 함께하는 Apache Airflow
airflow docker compose 질문드립니다.
안녕하세요 선생님 airflow docker compose 질문드립니다. airflow docker compose로 최초 실행후 yml 파일을 수정하면 수정 내용만을 반영하게되는건가요? 아니면 새로운 docker compose를 빌드하는건가요?yml 또는 DAG를 수정하는 경우 ci/cd 관점에서 어떻게 관리하는지 궁금합니다.감사합니다. 🙂
- 해결됨실리콘밸리 엔지니어와 함께하는 Apache Airflow
섹션1 apache airflow 설치하기 질문
강의 3:17 에서"그대로 카피하셔서 설치하면" 이라고 하셨는데 이게 무슨뜻이죠? 구체적인 방법을 알려주시면 감사하겠습니다.카피해서 터미널에 붙여넣기를 하면 오류가 떠서요
- 미해결실리콘밸리 엔지니어와 함께하는 Apache Airflow
my_first_dag.py 파일 질문 입니다
Standalone 환경을 처음 세팅하게 되면 dags 디렉토리가 별도로 없는데 사용자가 직접 만들어주면 되는지 질문드립니다. 그리고 standalone 으로 airflow 서버를 작동시킨 이후 다시 exit 할 경우 자꾸 localhost에 서버가 남아있어 재 실행이 안되서 컴퓨터 리붓을 해야하는데 혹시 다른 방법이 있을까요?아래와 같은 방식으로 PID 서버를 kill 하지만 그래도 안될 경우가 많은 것 같습니다.(수정) 아래 방법은 작동하는 것 같네요ps -ef | grep airflowsudo kill -9 [PID port]
- 미해결실리콘밸리 엔지니어와 함께하는 Apache Airflow
Docker 에서 airflow 사용시 질문드립니다
강의에서는 강사님께서 airflow standalone 을 사용하셨는데,docker image로 airflow 서버 생성한 다음 postgres 서버와 연결하려고 하니 테스트 fail이 나고 DAG도 돌아가지 않는 것 같습니다. 혹시 docker image 상에서 DB connect 하는 방법 가이드 부탁가능하실까요?Airflow - connection settingDB connection info
- 미해결실리콘밸리 엔지니어와 함께하는 Apache Airflow
airflow tasks test error
안녕하세요.강의 실습중에 'airflow tasks test postgres_loader execute_sql_query 2023-01-01 ' 터미널에서 실행후 아래와 같은 오류가 발생해서 여쭤보고자 질문드립니다.Error 본문DB 연결 정보DB Table 생성 정보Airflow UI실행 환경Mac 14 proPython 3.11.5pip freeze aiohttp==3.8.5 aiosignal==1.3.1 alembic==1.11.3 anyio==3.7.1 apache-airflow==2.7.0 apache-airflow-providers-common-sql==1.7.0 apache-airflow-providers-ftp==3.5.0 apache-airflow-providers-http==4.5.0 apache-airflow-providers-imap==3.3.0 apache-airflow-providers-postgres==5.6.0 apache-airflow-providers-sqlite==3.4.3 apispec==6.3.0 argcomplete==3.1.1 asgiref==3.7.2 async-timeout==4.0.3 attrs==23.1.0 autobahn==23.1.2 Automat==22.10.0 Babel==2.12.1 backoff==1.10.0 blinker==1.6.2 cachelib==0.9.0 cachetools==5.3.1 cattrs==23.1.2 certifi==2023.7.22 cffi==1.15.1 channels==4.0.0 charset-normalizer==3.2.0 click==8.1.7 clickclick==20.10.2 colorama==0.4.6 colorlog==4.8.0 ConfigUpdater==3.1.1 connexion==2.14.2 constantly==15.1.0 cron-descriptor==1.4.0 croniter==1.4.1 cryptography==41.0.3 daphne==4.0.0 Deprecated==1.2.14 dill==0.3.1.1 distlib==0.3.5 Django==4.1.4 djangorestframework==3.11.2 dnspython==2.4.2 docutils==0.20.1 email-validator==1.3.1 exceptiongroup==1.1.3 filelock==3.8.0 Flask==2.2.5 Flask-AppBuilder==4.3.3 Flask-Babel==2.0.0 Flask-Caching==2.0.2 Flask-JWT-Extended==4.5.2 Flask-Limiter==3.3.1 Flask-Login==0.6.2 Flask-Session==0.5.0 Flask-SQLAlchemy==2.5.1 Flask-WTF==1.1.1 frozenlist==1.4.0 google-auth==2.22.0 google-re2==1.1 googleapis-common-protos==1.60.0 graphviz==0.20.1 grpcio==1.57.0 gunicorn==21.2.0 h11==0.14.0 httpcore==0.16.3 httpx==0.23.3 hyperlink==21.0.0 idna==3.4 importlib-resources==6.0.1 incremental==22.10.0 inflection==0.5.1 itsdangerous==2.1.2 Jinja2==3.1.2 jsonschema==4.19.0 jsonschema-specifications==2023.7.1 kubernetes==27.2.0 lazy-object-proxy==1.9.0 limits==3.5.0 linkify-it-py==2.0.2 lockfile==0.12.2 Mako==1.2.4 Markdown==3.4.4 markdown-it-py==3.0.0 MarkupSafe==2.1.3 marshmallow==3.20.1 marshmallow-oneofschema==3.0.1 marshmallow-sqlalchemy==0.26.1 mdit-py-plugins==0.4.0 mdurl==0.1.2 multidict==6.0.4 oauthlib==3.2.2 opentelemetry-api==1.15.0 opentelemetry-exporter-otlp==1.15.0 opentelemetry-exporter-otlp-proto-grpc==1.15.0 opentelemetry-exporter-otlp-proto-http==1.15.0 opentelemetry-proto==1.15.0 opentelemetry-sdk==1.15.0 opentelemetry-semantic-conventions==0.36b0 ordered-set==4.1.0 packaging==23.1 pathspec==0.11.2 pendulum==2.1.2 platformdirs==2.5.2 pluggy==1.2.0 prison==0.2.1 protobuf==4.21.12 psutil==5.9.5 psycopg2-binary==2.9.7 pyasn1==0.4.8 pyasn1-modules==0.2.8 pycparser==2.21 pydantic==1.10.12 Pygments==2.16.1 PyJWT==2.8.0 pyOpenSSL==23.0.0 python-daemon==3.0.1 python-dateutil==2.8.2 python-nvd3==0.15.0 python-slugify==8.0.1 pytz==2023.3 pytzdata==2020.1 PyYAML==6.0.1 referencing==0.30.2 requests==2.31.0 requests-oauthlib==1.3.1 requests-toolbelt==1.0.0 rfc3339-validator==0.1.4 rfc3986==1.5.0 rich==13.5.2 rich-argparse==1.2.0 rpds-py==0.9.2 rsa==4.9 service-identity==21.1.0 setproctitle==1.3.2 six==1.16.0 sniffio==1.3.0 SQLAlchemy==1.4.49 SQLAlchemy-JSONField==1.0.1.post0 SQLAlchemy-Utils==0.41.1 sqlparse==0.4.4 tabulate==0.9.0 tenacity==8.2.3 termcolor==2.3.0 text-unidecode==1.3 Twisted==22.10.0 txaio==23.1.1 typing_extensions==4.7.1 uc-micro-py==1.0.2 unicodecsv==0.14.1 urllib3==1.26.16 virtualenv==20.16.3 websocket-client==1.6.2 Werkzeug==2.2.3 wrapt==1.15.0 WTForms==3.0.1 yarl==1.9.2 zope.interface==5.5.2제가 생각하는 에러 원인오류 본문을 보고 DB 연결 문제라 생각이 들어 DB를 재생성 하여지만 아직도 원인은 똑같았습니다. 제가 작성한 코드는 아래 github에 올렸습니다.https://github.com/saohwan/learn-airflow
- 미해결실리콘밸리 엔지니어와 함께하는 Apache Airflow
블로그에 글을 올려도 되나요?
강의 내용들을 정리하여 까먹지 않고 앞으로도 찾아서 사용할 수 있게 블로그에 올리고 싶은데 가능할까요?가능하다면 적절한 정도가 어느정도 될지, 그이외에 주의할 점으로 링크등을 남긴다는 점등이 필요할지가 궁금합니다감사합니다