묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결15일간의 빅데이터 파일럿 프로젝트
안녕하세요, 강사님
안녕하세요, 강사님강의를 들으며 꾸준히 배우고 성장하고 싶었는데, 예상치 못한 일정들로 인해 충분히 강의를 소화하지 못한 점이 아쉬움으로 남습니다.현재 수강 기간이 얼마 남지 않아, 남은 강의를 보다 충실히 학습할 수 있도록 수강 기간 연장을 요청드려봅니다..
-
미해결Airflow 마스터 클래스
다중 스케줄러 실행 시 확인 방법 문의
강사님, 안녕하세요.다중 스케줄러 실행 시 정상적으로 동작하고 있는지 확인할 수 있는 방법에 대해 문의드립니다.현재 Worker와 Scheduler를 다중으로 실행하여 고가용성 테스트를 진행 중입니다. Worker의 경우 Celery Flower를 통해 정상적으로 Sync가 이뤄지는 것을 확인하였습니다. 다만 Scheduler의 경우 뭔가 정확하게 확인이 안되는 것 같습니다.우선 제가 찾은 방법으로는 메타 테이블 조회와 커맨드가 있습니다.메타 테이블 조회 아래와 같이 조회하면 running인 상태의 host가 Scheduler 수만큼 조회됩니다. hostname도 모두 일치합니다.select * from job where job_type = 'SchedulerJob' and state = 'running';커맨드 아래와 같이 커맨드 실행 시 'Found one alive job.'이 출력됩니다.$ airflow jobs check --job-type SchedulerJob Found one alive job.Scheduler 로그 확인 시 모두 heartbeat은 계속 요청하고 있습니다. 혹시 Worker와 같이 명확하게 다중 스케줄러 환경인지 확인하는 방법이 있을까요?
-
미해결Airflow 마스터 클래스
dag list가 안보이는 이유..
variables 를 추가하는 강의에서variables 추가하고, dags_bash_with_variable.py를 생성후, git push 하고 나중에 봣더니그 많던 dag(examples + 강의때 따라한 dag) 들중에 딸랑 3개만 보이고 안보여요..dags 폴더 하위를 찾아가보니 파일은 그대로 존재하는데.. 왜 3개만보이는건지 ..혹시 확인해볼만한 로그들이나... 이유에 대해서 아실까요..? docker exec -it {스케줄러노드ID} bash 로 들어가서 dags도 확인해봤습니다.
-
미해결카프카 완벽 가이드 - 코어편
컴프런트 카프카 현재 가장 최근 버전 중 실무에서 사용하기 적합한 버전은 뭘까요?
안녕하세요 개발자님.컴프런트 카프카 최근 버전들 중 실무에서 사용하기 좋은 버전은 뭐가 있을까요?(connect, ksql 등 호환 잘되는) ubuntu 22.04 LTS 카프카 와 주키퍼 버전이 궁금합니다. 오래전 집에서 강의 따라 해보고, 실무에 사용 해보고 싶어서 다시 처음 부터 듣고 있는데, 카프카 와 주키퍼 호환에 대해 궁금 하여 문의 드리게 되었습니다.공식 문서를 참조 하라는 인강 내용이 있었지만, 확실한 마음이 놓이지 않아 문의 드리게 되었습니다.최신 버전이면서, 실무에 사용해도 적합한 버전이 궁금합니다,
-
미해결Airflow 마스터 클래스
task 실행중 오류
안녕하세요 강사님 강의 잘 보고 있습니다다름이 아니라 특정 조건에서 task가 실행되지 않아 해결방법을 묻고자 글을 남깁니다.task가 실행되지 않고 발생하는 log*** Could not read served logs: Invalid URL 'http://:8793/log/dag_id=dags_get_data_python_operator/run_id=manual__2024-12-20T09:11:57.447383+00:00/task_id=refine_data_/attempt=1.log': No host supplied branch에 따른 dag에 작성한 taskflow는 다음과 같습니다get_data_ >> check_dir_ >> get_yesterday_data_ >> refine_data_ >> delete_dataget_data_ >> check_dir_ >> refine_data_ >> delete_databatch 당일 데이터와 전날 데이터를 이용해서 spark를 이용해 정제하는 작업인데,전날 데이터가 수집되어있지 않다면 수집하고나서 sparksubmit을 하도록 task를 구성했습니다.전날 데이터가 없는 상태로 dag를 실행하면 전체task가 잘 실행이되고전날데이터가 존재한다면 원하는 task 까지 skipped이 되고 해당 log가 나오네요 ㅠㅠtask 플로우를 잘못 작성한 이유일까요 ? 추가)BranchPython task에 찍힌 log 입니다.
-
미해결카프카 완벽 가이드 - 코어편
동영상 및 보이스 실시간 전송 관련 문의 드립니다.
안녕하세요 개발자동영상 및 보이스 실시간 전송 관련 문의 드립니다. IOT 장비로 들어오는 동영상 및 보이스를 실시간(준실시간) 으로 kafka로 전송 받을 수 있을까여? 아니면 동영상 이나 보이스 는 실시간으로 받는 방법으로는 kafka 말고 다른 것을 사용 하나요? 너무 궁금 합니다.
-
해결됨Airflow 마스터 클래스
plugins 폴더
안녕하세요.airflow 파일의 폴더 구성에 대해 문의드립니다.airflow 를 사용하다보면 dag 외에 여러 파일이 필요한데 이때 해당 파일을 어떻게 정리하면 좋을지 궁금해서요. plugins 폴더에는 PythonOperator 에서 사용하는 함수 혹은 커스텀 오퍼레이터를 작성하는거 같습니다.궁금한점은 오퍼레이터에 간접적으로 사용되는 함수도 plugins 폴더에 위치하는지 궁금합니다. 예를 들어 SQL 파일을 읽을때 SQL 파일을 읽어주는 함수를 작성한다고 해보면 해당 함수는 오퍼레이터에 간접적으로 사용됩니다. 그러면 해당 함수도 plugins 폴더에 위치하는게 권장되는걸까요 아니면 dags 폴더에 위치하는게 좋을까요?shell 파일은 plugins 폴더에 위치하는게 좋다고 하셨는데 그러면 sql 파일은 어떻게 위치하는게 좋은지 궁금합니다.아래와 같은 방식이면 되는지 확인 부탁드립니다!.dagsplugins......ㄴ sql............ㄴ read_table.sql......ㄴ lib............ㄴ common.py......ㄴ shell............ㄴ file_read.sh......ㄴ custom_operator............ㄴ file_parse.py dags 폴더에는 정말 dag 파일만 위치하는게 좋은지도 궁금합니다.
-
미해결카프카 완벽 가이드 - 커넥트(Connect) 편
Debezium cdc source for MSSQL-Server [등록오류]
MSSQL-Server 용도로 Debezium cdc source를 등록해서 사용하고 싶습니다만, 아래와 같이 config 등록 시{ "name": "mssql_cdc_oc_source_01", "config": { "connector.class": "io.debezium.connector.sqlserver.SqlServerConnector", "database.encrypt": "false", "database.hostname": "***.***.***.***", "database.port": "1433", "database.user": "userid", "database.password": "password", "database.names": "dbname", "topic.prefix": "MSSQL", "schema.history.internal.kafka.bootstrap.servers": "192.168.56.101:9096", "schema.history.internal.kafka.topic": "sh-history", "schema.history.internal.store.only.captured.tables.ddl": "true", "schema.history.internal.store.only.captured.databases.ddl": "true" } } 아래와 같은 에러가 납니다.,ㅠㅠ HTTP/1.1 400 Bad RequestContent-Length: 280Content-Type: application/jsonDate: Mon, 16 Dec 2024 02:16:43 GMTServer: Jetty(9.4.44.v20210927){ "error_code": 400, "message": "Connector configuration is invalid and contains the following 3 error(s):\nA value is required\nA value is required\nA value is required\nYou can also find the above list of errors at the endpoint /connector-plugins/{connectorType}/config/validate"} 문제 해결 방법이나, SQL-Server용 예제 소스를 제공해 주실 수 있는지요???회신 메일주소는 : sentrino@naver.com입니다. 감사합니다!
-
미해결[아파치 카프카 애플리케이션 프로그래밍] 개념부터 컨슈머, 프로듀서, 커넥트, 스트림즈까지!
동영상 및 이미지 처리 관련 문의 드립니다.
안녕하세요. 개발자님 실시간 이미지 및 동영상 을 kafka 로 전달 전처리 이후 다시 kafka로 전송 하는 방식이 긍금합니다.IOT 장비(카메라) 로 이미지 및 동영상으로 받아 kafka 전달 받아 전처리 후 다시 kafka로 전달 하고자 합니다. 해본 적 없어 궁금 하여 문의 드립니다. 이미지나 동영상의 경우 데이터 가 클거라고 생각 합니다. 그럴 경우 데이터를 세그먼트하여 카프카 전달 하는 걸까요? 글러 경우 순서가 보장 되어야 된느데, 하나의 파티션으로 만 전달 하여 처리 하나요? 아니면 세그먼트에 식별값과 offest을 넣어 한곳에서 받아서 처리 하는 방식인가여? 동영상과 이미지 처리에 대한 경험이 없어 이해할 수가 없네요. 동영상 및 이미지를 카르카로 전송 하는 방법과 카프카로 전송된 동영상과 이미지를 수신 하는 방법이 궁금합니다.connetor or stream 보편적으로 이 도구를 사용 하나요? 혹시 이런 사례 발표한 레퍼런스가 있다면 추천 부탁드립니다.
-
미해결Airflow 마스터 클래스
docker container network 관련 질문
안녕하세요 강사님 강의 잘 보고 있습니다.spark 관련된 질문을 드려도 될까요..?도커에 spark 컨테이너를 띄워서 airflow의 bash operator로 spark-submit을 해보려 하는데 로그가 다음과 같이 나오면서 spark-submit이 안됩니다.compose 파일도 network 설정을 다시했고,docker network inspect 로 확인해보니 잘 연결된 것이 확인됐습니다.spark submit도 master container 내부에서 잘 실행이되는 상황입니다.shell 파일을 이런식으로 작성한다고 해서 airflow dags로 spark-submit을 할 수 있는건 아닌가요 ?#!/bin/bash script=$1 echo "${script}" echo "start spark submit with bash operator" spark-submit \ --master spark://spark-master:7077 \ ${script}
-
미해결[아파치 카프카 애플리케이션 프로그래밍] 개념부터 컨슈머, 프로듀서, 커넥트, 스트림즈까지!
주키퍼 없이 사용 문의 드립니다.
안녕하세요 개발자님 컨프런트 카프카 사용하다가, 주키퍼 없이 사용 해보고 싶어서 문의 드립니다. Apach Kafka 에서 Kraft 모드 를 사용 하면 주키퍼 없이 사용된다는 글을 보았습니다. 실제로 사용해도 되는지 현재 날짜 기준으로 괜찬은지 궁금 하며, 버전은 무엇을 써야 하는지 금굼 합니다. 또 Kraft 모드가 아직 실무에서 적합하지 않다면, 주키퍼를 같이 사용하는 Kafka 오픈소스 버전은 현재 날짜로 기준으로 실무에서 사용하기, connect, stream, ksqldb 등 호환이 잘되는 버전이 궁금합니다, 별개로 강의에서 실무에는 최소 3개의 브로커가 사용을 권장 한다고 하셧는데, 브로커 1대의 의미가 물리 디바이스(pc) 를 의미 하는 건가요? 즉 3대의 pc 가 필요 하다는 말인가요? 권장 스팩으로 메모리 32Gi 라고 되어있는데, 32gi 이상의 메모리를 탑재 하면, 그 이상의 페이지 캐시가 되는 걸까요? 아니면 설정이 따로 존재 하는 걸까요? 아니면 32gi이상은 효율이 떨어져서 권장 하지 않는 건가요?
-
미해결[아파치 카프카 애플리케이션 프로그래밍] 개념부터 컨슈머, 프로듀서, 커넥트, 스트림즈까지!
kafka 를 띄우니 오류가 발생하고 종료합니다.
kafka 를 띄우니 오류가 발생하고 종료합니다. 무엇을 살펴 봐야 하나요? [2024-12-12 23:29:35,030] ERROR Fatal error during KafkaServer startup. Prepare to shutdown (kafka.server.KafkaServer)kafka.common.InconsistentClusterIdException: The Cluster ID CwTLqMY7QRKRU5AggS5Agw doesn't match stored clusterId Some(NfwQFiB2RUSszayrQc61NA) in meta.properties. The broker is trying to join the wrong cluster. Configured zookeeper.connect may be wrong. at kafka.server.KafkaServer.startup(KafkaServer.scala:223) at kafka.server.KafkaServerStartable.startup(KafkaServerStartable.scala:44) at kafka.Kafka$.main(Kafka.scala:82) at kafka.Kafka.main(Kafka.scala)
-
미해결[아파치 카프카 애플리케이션 프로그래밍] 개념부터 컨슈머, 프로듀서, 커넥트, 스트림즈까지!
zookeeper 실행시 오류 .. 무엇을 해야 할까요?
- 카프카를 공부하시면서 생긴 질문들을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.zookeeper 실행시 오류가 발생했습니다. 무엇을 해야 할까요? 교재에 있는 그대로 ./bin/zookeeper-server-start.sh ./config/zookeeper.properties이렇게 실행했구요. ./config/zookeeper.properties 내용은 아래와 같습니다. # Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file distributed with# this work for additional information regarding copyright ownership.# The ASF licenses this file to You under the Apache License, Version 2.0# (the "License"); you may not use this file except in compliance with# the License. You may obtain a copy of the License at## http://www.apache.org/licenses/LICENSE-2.0## Unless required by applicable law or agreed to in writing, software# distributed under the License is distributed on an "AS IS" BASIS,# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.# See the License for the specific language governing permissions and# limitations under the License.# the directory where the snapshot is stored.dataDir=/tmp/zookeeper# the port at which the clients will connectclientPort=2181# disable the per-ip limit on the number of connections since this is a non-production configmaxClientCnxns=0# Disable the adminserver by default to avoid port conflicts.# Set the port to something non-conflicting if choosing to enable thisadmin.enableServer=false# admin.serverPort=8080
-
미해결[아파치 카프카 애플리케이션 프로그래밍] 개념부터 컨슈머, 프로듀서, 커넥트, 스트림즈까지!
파티션 추가로 해결할 수 있지만 늘어난 파티션은 줄일 수 없지 않나요?
안녕하세요 강의 잘 듣고 있습니다 ㅎㅎ 앞선 강의에서 파티션은 늘릴 수는 있어도 줄일 수는 없다고 말씀하신 것 같은데 예시로 들으셨던 추석, 선날 등 특정 시점에 요청이 증가하는 케이스에서 컨슈머 랙이 지속적으로 증가하게 되는 것을 해결하기 위해서 파티션과 컨슈머를 증가시켜서 컨슈머 랙을 줄일 수 있겠지만 이후에 다시 요청이 줄었을 때는 이미 늘어난 파티션을 줄일 수 없는데.. 해당 해결방법 말고 다른 방법이 있는 걸까요? 아니면 늘어난 채로 계속 서비스하는 건지 궁금합니다 ㅎㅎ
-
해결됨[아파치 카프카 애플리케이션 프로그래밍] 개념부터 컨슈머, 프로듀서, 커넥트, 스트림즈까지!
카프카 2.8.2 버전과 많이 차이가 있을까요??.
강의 매우 유익하게 듣고 있습니다. 다른 질문들도 많이 찾아보았는데요 3버전은 실무에서 적극적으로 활용하고있는 사례가 없다라고 말씀하셨는데 카프카 버전이 현재기준으로는 2버전은 2.8.2버전까지 나온걸로 아는데 강의 들을 때 사용하는 2.5.0버전이 아직 현역인지 궁금합니다 ㅎㅎ (제가 근무하는 회사는 카프카 적용사례도 없고, 현황을 알기 어려워서요 ㅠㅠ) 우선 강의 기준 2.5.0으로 열심히 강의 듣고 2.8.x버전과 차이를 스스로 공부해보려고 하는데 개발하는데 차이가 없다면 2.8.2바전 기준으로 주키퍼버전도 올리고 듣는게 좋을까요? ㅎㅎ
-
미해결Airflow 마스터 클래스
db container connection 에러
안녕하세요! 강사님몇달 전에 듣고 복습중인데요몇달 전에 들었을때, 이렇게 잘 db를 생성했었습니다.그리고 vi docker-compose.yaml 아래와 같이 수정하였지만 적용이 안되네요...ㅠㅠ그리고 이전에 생성했던 게 그대로 실행되고 있습니다...!당연히 dags_python_with_postgres.py 실행하면 아래와 같이 connection 오류가 발생하구요... 혹시 해당 문제 어떻게 해결해야할 지 알 수 있을까요?!
-
미해결[아파치 카프카 애플리케이션 프로그래밍] 개념부터 컨슈머, 프로듀서, 커넥트, 스트림즈까지!
카프카 컨슈머와 커넥트에 대해 질문 드립니다.
강의를 들으면 카프카 커넥트와 카프카 컨슈머는 사실상 같은 동작을 하는데 왜 두 가지가 있나? 에 대해 고민하면서 의문이 든 점들을 여쭤볼려고 합니다.카프카 커넥트를 사용하는 경우에는 "반복적인 파이프라인을 만들어야할 경우 분산모드 커넥트를 설치하고 운영"을 강조하셨습니다. 여기서 말하는 의미가 데이터 전처리 없이 바로 DB와 같은 외부에 데이터를 넘기는 경우를 말씀하시는 걸까요??그럼 카프카 컨슈머는 데이터 전처리가 필요할 때 사용하는 것일까요??전처리가 필요하고 단발적인 처리가 아닐 경우에는 consumer application을 파티션 갯수만큼 띄워서 데이터 처리량을 높이는게 맞는 걸까요??---------------------------------------그리고 마지막으로 "카프카 기술별 아키텍처 적용 방법 정리" 를 생각하지 말고 동일한 구현을 커넥트와 컨슈머 각각 구현한다면 커넥트가 조금 더 빠른 성능을 보이는걸까요??제가 아직 많이 부족해서 이해가 잘안되는 부분 질문드립니다!! 답변해주시면 정말 감사드리겠습니다!!
-
미해결[멘토링] 데이터로 미래를 그리다: 모두를 위한 데이터 리터러시
강의노트는 따로 제공되지 않나요?
작성해주시는 PPT 내용이 좋아서 보관해두고 생각날 때 꺼내 읽어보고 싶은데강의자료가 보이질 않네요.
-
미해결[아파치 카프카 애플리케이션 프로그래밍] 개념부터 컨슈머, 프로듀서, 커넥트, 스트림즈까지!
Kafka 서버에서 Kafka만 실행하는 게 일반적인가요?
안녕하세요.현재 KRaft를 도입하기 위해 하드웨어 구성을 검토 중입니다. 해소가 안 되는 궁금증이 있어 질문 올립니다.Kafka 서버에서 Kafka만 실행하는 게 일반적인지 궁금합니다. 로그 수집을 위해 Kafka 서버에서 opensearch도 함께 사용할 계획이었습니다. 일반적인 경우에 이렇게 하는 경우가 있는지, 아니면 분리하는 게 맞는지 선생님의 의견을 듣고 싶습니다.
-
미해결카프카 완벽 가이드 - 코어편
Zookeeper 관련 문의 드립니다.
개발자님 Zookeeper 관련 전문가의 견해가 궁금 합니다. Apache Kafka 에 Zookeeper 가 없이 설치 해서 사용 할 수 있는 것에 궁금한 것이 있습니다. 1.Zookeeper 설치 없이 사용 하는 것은 Apache Kafka 에 Zookeeper 가 하던 task를 Apache Kafka 가 처리 하게 개발 하는 걸까요? 분리된 작업을 합치면 성능적 효과가 있는 걸까요? 2.Zookeeper 설치 없이 사용 하는 Apache Kafka 를 하나의 PC에 docker container로 단일 브로커로 3개의 container을 만든다면, 실무에서 사용 사능 할까요? 3.클러스터 환경에서 브로커를 두어 replication을 통해 가용성을 증가 시키는 것은 이해 했습니다. 혹 하나의 PC 에서 브로커를 여러개 두는 것은 가용성과는 크게 관련이 없는 것일까요?4.PC 한대에서 여러개의 Topic 을 통해 message 를 분류 해서 받는 것과,PC 한대에서 브로커를 여러개 두어 message 를 분류 해서 받는 것의 성능 적 차이가 있을까요?ex) 하나의 브러커에 2개의 토픽, 1번 토픽은 이미지만 받고 2번 토픽은 동영상만 받고,2개의 브로커에 각각 1나의 토픽으로 1번 브로커에 이미지만 받고, 2번 브로커에 동영상만 받고,둘다 consumer 가 소비 하는 데이터는 동일 하다는 가정 입니다. 5하나의 PC에 container 환경 구축 보다, 그냥 설치 해서 하는 방법이 좋다고 알고 있습니다. 또 성능이 좋아서 하나로도 충분 하다고 알고 있는데 맞는 걸까여? 성능을 측정 하는 것에 지식이 없어서 문의 드립니다.