묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결따라하며 배우는 도커와 CI환경 [2023.11 업데이트]
도커 볼륨이 작동이 안되는것 같아서 질문드립니다!
안녕하세요 덕분에 도커를 이해하기 시작한 수많은 수강생 중 한명입니다! 다름이 아니라 도커볼륨을 이용한 소스 코드 변경 강의에서 운영체제가 window라서 docker run -it -p 3000:3000 -v /usr/src/app/node_modules -v %cd%:/usr/src/app {이미지 이름} 를 해도 볼륨이 작동하지 않고 $(pwd) 로 바꾸어서 실행을 시켜봐도 실시간으로 수정이 되지 않아서 질문 드립니다!
-
미해결Airflow 마스터 클래스
Label 설정 질문드립니다.
t1 >> [t2, t3, t3] 의 실행흐름에서 t1 >> Label('description') >> [t2, t3, t3] 으로 설정했을때 그래프에서 모든 분기에 설명이 공통으로 설정되는것을 확인했습니다. 그런데 각각의 실행흐름에 대해 라벨링을 하고싶을때는t1 >> Label('dscritpion') >> t2t1 >> Label('dscritpion') >> t3 이렇게 설정하는방법말고 다른 방법은 없을까요? 예를들어 t1 >> [Label('description'), Label('description')] >> [t2, t3]이렇게는 설정이 안되는것으로 보여서요
-
미해결Airflow 마스터 클래스
relativedelta 실행 결과 문의
now = datetime(year=2023, month=3, day=30) print('현재시간:' + str(now)) print('-----------------월 연산 --------------------') print(now + relativedelta.relativedelta(months=1)) print(now.replace(month=1))위의 코드 실행 결과가 다르게 나오는 것 같은데요..1개월 후면 4월30일이 맞는 것 아닌가요?현재시간:2023-03-30 00:00:00 -----------------월 연산 -------------------- 2023-04-30 00:00:00 2023-01-30 00:00:00감사합니다.
-
미해결Airflow 마스터 클래스
Bash Operator & 외부 쉘파일 수행하기 강의 질문
Bash Operator & 외부 쉘파일 수행하기강좌에서 보여주신내용을 따라하던중 쉘스크립트를 파라미터없이 작성했는데 파라미터가 없는경우 airflow에서 위치를 못찾고jinja2.exceptions.TemplateNotFound: /opt/airflow/plugins/shell/select.sh 에러를 발생시키는데 파라미터의 유무로 경로를 찾고/못찾고가 차이나는 원인이 무엇인지 궁금해서 질문드립니다.
-
미해결Airflow 마스터 클래스
task 연결 질문입니다.
t1 >> t3t2 >> t3 이렇게 테스크를 연결했을때 case 1 : t1, t2 둘다 종료되어야 t3가 실행되는지 case 2 : t1이 종료되었을떄, t2가 종료되었을때 각각 t3가 한번씩 실행되는지 궁금합니다. 위의 방법과 [t1, t2] >> t3 가 동등하다고 설명해주셨는데case 1, case2 두가지 방법을 설정하고싶을때는 어떻게 처리하면 될까요?
-
미해결카프카 완벽 가이드 - 코어편
max.in.flight.requests.per.connection 의 설명이 조금 헷갈립니다.
안녕하세요. max.in.flight.requests.per.connection에 대한 설명이 조금 헷갈려서 질문드립니다. 강의를 들으면 하나의 request 안에 여러개의 배치를 함께 보내는 것처럼 말씀하시는 것처럼 보이는데, 하나의 요청에는 하나의 배치만을 담아서 보내지만 ack를 받지 못하고 계속 보낼 수 있는 요청의 개수가max.in.flight.requests.per.connection 인 것이 아닐까요?
-
해결됨Airflow 마스터 클래스
DAG 스케줄
with DAG( dag_id="shedule_3_hour", schedule="3 * * * *", start_date=pendulum.datetime(2023, 3, 1), catchup=False ) as dag: def select_fruit(): fruit = ['APPLE','BANANA','ORANGE','AVOCADO'] rand_int = random.randint(0,3) time.sleep(10) print(fruit[rand_int]) py_t1 = PythonOperator( task_id='py_t1', python_callable=select_fruit ) py_t1 처음 DAG을 시작(PAUSE)했을때는 2024-10-06, 06:01:47 UTC입니다. DAG이 2024-10-06, 06:03:00 UTC에 처음 시작될거라 예상했는데 왜 처음 DAG을 시작(PAUSE)한 시간인 2024-10-06, 06:01:47 UTC에 처음 실행하는지 궁금합니다.참고로 처음 실행되었던 작업에서도 오퍼레이터가 정상 실행되었습니다.물론 약 2분 후 2024-10-06, 06:03:00 UTC에 작업도 실행되었습니다.
-
해결됨Airflow 마스터 클래스
Next dagrun 문의드립니다
from airflow import DAG 2import pendulum 3import datetime 4from airflow.operators.python import PythonOperator 5import random 6import time 7 8with DAG( 9 dag_id="shedule_3_hour", 10 schedule="3 * * * *", 11 start_date=pendulum.datetime(2023, 3, 1), 12 catchup=False 13) as dag: 14 def select_fruit(): 15 fruit = ['APPLE','BANANA','ORANGE','AVOCADO'] 16 rand_int = random.randint(0,3) 17 time.sleep(10) 18 print(fruit[rand_int]) 19 20 py_t1 = PythonOperator( 21 task_id='py_t1', 22 python_callable=select_fruit 23 ) 24 25 py_t1Airflow Webserver UI DAG Detail페이지에 있는 내용 중 Next dagrun ~ 관련 항목이 이해가 안돼서 질문드립니다.UTC 기준 10:34입니다. 설명 편의를 위해 현재시간으로 지칭하겠습니다! Next dagrun이 2024-10-06T10:03:00+00:00 값을 가지는 이유가 궁금합니다.Next dagrun이 다음 DAG 실행 예정 시간인거같은데 왜 현재실행 보다 과거인지 모르겠습니다.2024-10-06T11:03:00+00:00이 맞는거 같아서요. 현재 시간이 10:34이고 3분마다 실행.10:03은 실행완료. 이후 11:03에 실행되어야함.Next dagrun create after : 다음 DAG은 11:03에 실행되어야하므로 11:03에 DAG Run 생성(11:03에 실행하는) DAG 기준으로 처리해야하는 데이터 범위는 10:03~11:03이므로 Next dagrun data interval end는 11:03, Next dagrun data interval start는 10:03.(1) Next dagrun 관련 항목의 정확한 의미와 Next dagrun과 Next dagrun create after 차이를 정확히 몰라서 생기는 문제 같기도 합니다.(1-1) Next dagrun 관련 항목의 의미아래 내용이 맞는지 확인 부탁드립니다! - Next dagrun: 다음 DAG 실행 예정 시간Next dagrun create after: 다음 DAG 생성 예정 시간Next dagrun data interval end: 다음 DAG 데이터 간격 종료 시간Next dagrun data interval start: 다음 DAG 데이터 간격 시작 시간 (1-2) Next dagrun과 Next dagrun create after 차이 Next dagrun 과 Next dagrun create after 은 항상 같나요? Next dagrun create after는 정해진 시간에 생성되고(3분 마다) Next dagrun 은 Next dagrun create after이후에 되는데 즉, DAG run이 생성되고 실행되는거 맞나요? (Airflow 공식 문서에 Web UI에 있는 항목별 의미를 알 수 있는 페이지가 있는지 찾아보았는데 없어서 질문드립니다!아래 링크보면 Airflow UI 설명은 간단하게 있는데 항목별 설명은 없네요...)https://airflow.apache.org/docs/apache-airflow/stable/ui.html)
-
해결됨스파크 머신러닝 완벽 가이드 - Part 1
spark 추가 학습 관련 질문
선생님 안녕하세요?좋은 강의 진심으로 감사드립니다. 이전에 질문드렸을때 part2 는 나올 계획이 없다고 답변주셨는데요혹시 spark를 좀 더 심화해서 공부해보고 싶은데 추천해주실 만한 책이나 자료가 있으실까요? 원서도 상관이 없습니다.물론 spark best book top 10 이런식으로 구글링하면 추천도서가 나오긴 하지만.. 혹시 선생님께서 개인적으로 좀 좋은 교재라고 생각하셨던 도서나 자료가 있으신지 궁금합니다.
-
미해결Airflow 마스터 클래스
DAG 자동화 문의
안녕하세요!dag 생성 중에 문의가 있어서 질문드립니다.저희가 dag파일을 생성할 때, 스케줄로 DAG 실행 주기를 설정하는데요.매번 공부하고 나서 docker compose down으로 컨테이너를 내리면, 실행 주기에 맞춰서 dag가 실행되지 않는 것 같아서요. 컴퓨터를 off한 상황에서도 postgres DB로 데이터가 적재되도록 만든 dag가 작성한 스케줄에 맞춰서 실행되려면 어떻게 해야하나요? 감사합니다!
-
미해결Airflow 마스터 클래스
airflow에 필요 패키지 설치방법 문의
안녕하세요!유튜브 API로 댓글 받아온 뒤, 텍스트 처리 후 postgres DB에 업로드하는 DAG 생성 py파일을 스터디 중에 있는데요.텍스트 처리할 때 필요한 아래 패키지를 설치하려고 다음과 같은 시도를 했습니다.# wsl에서 root 계정으로 진입 sudo docker exec -u root -it <계정명>-airflow-webserver-1 /bin/bash # 필요한 패키지 설치 apt-get update apt-get install default-jdk -y #Airflow 사용자로 전환su - airflow #패키지 설치pip install JPype1 pip install konlpy #컨테이너 종료 및 재시작sudo docker-compose down sudo docker-compose up 하지만 airflow UI에서는 다음과 같은 에러로 DAG를 만든 py파일이 보이지 않습니다.Broken DAG: [/opt/airflow/dags/youtube_to_postgres.py] Traceback (most recent call last): File "<frozen importlib._bootstrap>", line 488, in _call_with_frames_removed File "/opt/airflow/dags/youtube_to_postgres.py", line 5, in <module> from konlpy.tag import Okt ModuleNotFoundError: No module named 'konlpy' 필요한 패키지를 설치하는 방법이 잘못되었을까요? 제가 설치해야하는 것들을 설치하는 방법을 알려주시면 감사하겠습니다!apt-get install default-jdk -ypip install JPype1 pip install konlpy
-
미해결[아파치 카프카 애플리케이션 프로그래밍] 개념부터 컨슈머, 프로듀서, 커넥트, 스트림즈까지!
브로커의 장애복구 이후 처리과정에 대해서 질문드립니다.
안녕하세요. 강의 너무 잘 듣고있습니다. unclean.leader.election.enable=true 일때, ISR상태가 아닌 상태에서 브로커에 장애가 발생한 경우, 장애가 발생한 브로커를 되살렸을때 처리되지 못한 레코드는 어떻게 처리되나요? 위의 상황을 판단해보면, 아래와 같습니다.ISR여부와 상관없이 다른 리더파티션이 선출되어 작동장애가 발생한 브로커의 시스템에서는 OS레벨 이하의 장애가 아닌상황이라면 카프카 프로세스의 브로커와 다른 생명주기를 가진 OS레벨의 페이지캐시에 의해 파일시스템에 남아있음.브로커가 되살아날 경우 유실되었던 레코드를 포함시켜주는지, 삭제가 되어버리는지, 아니면 별도로 처리를 해야하는지 관련해서 처리 매커니즘을 제공하는것이 있는지 궁금합니다.
-
미해결mongoDB 기초부터 실무까지(feat. Node.js)
option usecreateindex is not supported 오류 나면은
await mongoose.connect(MONGO_URL); // 제거 하시고 사용 하세요 // 버전6부터 해당 옵션을 사용하지 않아도 돼요https://mongoosejs.com/docs/migrating_to_6.html(공식문서) 보세요. 참고하세요
-
미해결다양한 사례로 익히는 SQL 데이터 분석
ADSP자격증
다양한 사례로 익히는 SQL 데이터 분석(권철민 강사님)강사님 안녕하세요저는 백앤드 개발자로 3년간 일하다가 개발보다는 쿼리짜는 것에 더 흥미가 있어서 데이터 엔지니어쪽으로 전직하고 싶어서 이 강의를 구매했습니다. 저는 평소 데이터를 분석하고 쿼리를 짜는게 재미있고 꼼꼼한 성격이어서 데이터 관련 직무가 저와 잘 맞을거라고 생각하는데요!아래 두가지 질문드립니다~! 이 강의가 데이터 분석가를 위한 강의라고 보았는데 이 직무는 SQL쿼리조작+프로그래밍 능력 두가지가 필요한 것일까요? 프로그래밍의 비중이 개발자보다는 덜 한 직업인가요..?ADSP(데이터 분석 준전문가)는 해당 직무 및 이 강의와 관련이 있는 자격증인가요?
-
미해결카프카 완벽 가이드 - 커넥트(Connect) 편
일반적인 예시들이 궁금해서 질문 남깁니다.
안녕하세요, 카프카 코어편 보고 커넥트편까지 재밌게? 강의 시청 중입니다. 먼저 좋은 강의 감사합니다.커넥트를 배우면서 궁금한 점이 생겼는데요, 예를 들어 msa, 카프카로 구성된 환경에서 회원가입이라는 로직을 구현한다고 하면, http 요청을 받은 서버가 직접 RDB에 접근해서 데이터를 저장을 하는 것과,요청을 받은 서버가 카프카 브로커로 데이터를 메세지로 보내고, 브로커에서 sink 커넥터가 RDB에 데이터를 저장하는 방식,위 두 방식 중에 어떤 것이 일반적일까요? 회원가입처럼 단순히 저장하는 정도의 로직에서도 이벤트 기반의 아키텍처에서는 카프카를 활용하는 것이 장점이 클까요?
-
미해결Airflow 마스터 클래스
airflow를 도커없이 돌리면 안되나요?
안녕하세요. 에어플로우 wsl 설치할때 도커를 설치하는데요.클라우드에서도 그렇고 윈도우에서도 그렇고 우분투 위에서 그냥 airflow 설치하면 안되나요?꼭 도커를 써야하나요?
-
미해결Airflow 마스터 클래스
docker 설치 과정에서 Certification 문제
안녕하세요.Airflow 설치 과정에서 도커 설치 하려는데sudo apt-get update 치면Certificate verification failed: The certificate is NOT trusted. The certificate issuer is unknown. Could not handshake: Error in the certificate verification. 라고 뜹니다.구글링해서 https://velog.io/@hyojinnnnnan/%EB%A6%AC%EB%88%85%EC%8A%A4-curl-60-SSL-certificate-problem-unable-to-get-local-issuer-certificate 참고하여 보안 파일에 download.docker.com 를 추가했는데도 계속 동일한 오류가 뜨는데 어떻게 해결할 수 있나요? ㅠㅠ답변 부탁드립니다.
-
미해결[리뉴얼] 처음하는 SQL과 데이터베이스(MySQL) 부트캠프 [입문부터 활용까지]
중고급 SQL과 실전 데이터 문의
안녕하세요. 다음 코스인 중고급SQL에서는 101 문제와 풀이가 있다고 하는데 문제는 저자분께서 직접 고안하신 건가요 아니면 다른 플랫폼을 이용하나요?
-
미해결실리콘밸리 데이터 리더가 알려주는 기초 SQL
DuckDB API 사용시 Connection Error가 발생합니다.
실습 코드를 순서대로 진행하니 아래와 같은 에러가 발생했습니다.*********************확인해보니 3번째 셀에서 duckdb를 연결하고%sql duckdb:///duckdb.db 그 아래에서 다음과 API로 연결을 시도하면 계속 에러가 발생합니다.duckdb_con = duckdb.connect("duckdb.db") **********************그래서 노트북 세션을 초기화하고 duckdb.db 파일을 삭제하고 3번째 셀을 실행하지 않고 duckdb API로 바로 연결하니 그때서야 제대로 연결되었습니다.
-
미해결Airflow 마스터 클래스
아래 프로젝트가 가르쳐주신 내용으로 가능한 수준인지 문의드립니다.
현재 커리큘럼을 모두 수강 후에 아래 실습이 가능한지 여쭤봅니다!(파이썬으로 단순 분석 및 크롤링은 가능하다는 전제하에 airflow 배치 및 기타 기술적인 요소에 대해 궁금합니다.) 1~2주에 한번 배치 작업 Task 1 유튜브 A 채널의 영상 자막 + 댓글 크롤링Task 2 크롤링 된 컨텐츠 별 자막 내용에 기반하여 ChatGPT를 활용한 영상 내용 요약 -> 블로그 포스팅Task 3 컨텐츠별 자막 텍스트 분석으로 컨텐츠별 조회수, 댓글 수 , 긍부정 비율 대시보드 시각화 파이썬으로 크롤링 코드 및 텍스트분석이 가능하다는 전제하에,위 TASK들을 AIRFLOW를 사용해 자동화하는 프로젝트를 현재 영상에서 알려주시는 지식으로 구현가능한지궁금합니다!아직 끝까지 수강 전이라 질문의 내용이 부족할 수 있지만, 블로그포스팅 자동화, 대시보드 시각화 내용이 있는 듯 해서 여쭤봅니다!그리고 현재 커리큘럼에는 Api로 데이터 받아오는 실습만 있는데, 크롤링으로 데이터를 가져오게되면 달라지는 부분이 많을지도 궁금합니다.