묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
CDC 기반 스파크 아키텍처 구현 방법이 궁금합니다.
현재 RDS에 저장된 데이터를 AWS DMS를 활용해 Parquet 포맷으로 변환하여 S3에 저장한 뒤, EMR(Apache Spark)에서 해당 데이터를 분석/처리하는 구조를 고려하고 있습니다.이 방식이 일반적인 데이터 파이프라인 아키텍처로 적절한지 궁금합니다.또한 RDS에서 지속적으로 발생하는 변경 데이터를 CDC(Change Data Capture) 기반으로 S3에 업데이트하려고 하는데, 이 역시 DMS를 활용하는 것이 최선인지 아니면 다른 접근 방안이 더 적절한지도 조언 부탁드립니다.
-
미해결Kafka & Spark 활용한 Realtime Datalake
git action에서 install_codedeploy-agent.yml
안녕하세요! 강사님 이 부분이 에러가 뜨는데 혹시 어떤 걸 확인해봐야할까요?
-
미해결Kafka & Spark 활용한 Realtime Datalake
consumer 실행 오류 질문: connect ip 관련
안녕하세요3주만에 카프카를 실행시키니 Consumer 실행에 문제가 있어 질문 남깁니다디스코드에도 글을 남겼으니 편하신 곳으로 답변 부탁드립니다 1-1) poll consumer를 10분정도 실행시켰다가(잘돌아갔음) 종료후 다시한번 실행한 상황1-2) poll consumer 실행하니까 반응이없음(python poll_consumer.py 입력하니 쉘 묵묵부답)1-3) consume consumer는 실행이 잘됨2)서버 껐다켜니 둘다 실행이 안됨3) UI가 안켜져서 보안그룹 public-nat를 건드리고나니 comsumer 실행시 아래와 같은 현상 발생<8월 31일>%3|1756625877.560|FAIL|rdkafka#consumer-1| [thrd:kafka03:9092/bootstrap]: kafka03:9092/bootstrap: Connect to ipv4#172.31.58.18:9092 failed: Connection refused (after 1ms in state CONNECT)%3|1756625878.559|FAIL|rdkafka#consumer-1| [thrd:kafka02:9092/bootstrap]: kafka02:9092/bootstrap: Connect to ipv4#172.31.39.189:9092 failed: Connection refused (after 1ms in state CONNECT)<9월 2일>%6|1756814397.408|FAIL|rdkafka#consumer-1| [thrd:kafka02:9092/bootstrap]: kafka02:9092/bootstrap: Disconnected while requesting ApiVersion: might be caused by incorrect security.protocol configuration (connecting to a SSL listener?) or broker version is < 0.10 (see api.version.request) (after 1248ms in state APIVERSION_QUERY)모든 강의자료에 나오는 보안그룹 관련 설정을 최대한 따라하였으나 잘 진행이 되지않습니다 public-nat 보안규칙은 아래와 같습니다 ..
-
해결됨따라하며 배우는 실전 스파크 Part1
32강 강의가 짤린거 같습니다.
32강 강의가 짤렸습니다.업로드 다시 해주세요
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
community edition 가입 문의
안녕하세요, 데이터 브릭스 커뮤니티 에디션으로 가입하려고 하니 위 이미지와 같은 안내문구가 나오며sign up 시 자동으로 free edition으로 이동합니다. 혹, 앞으로는 free edition을 사용해야 하는지... 문의드립니다! 감사합니다!
-
미해결Kafka & Spark 활용한 Realtime Datalake
Spark Programs 구조에서 막혔습니다.
강의를 잘 따라가던 도중에 4040 웹에 접속했는데 저렇게 떴는데 뭐가 문제일까요?
-
미해결Kafka & Spark 활용한 Realtime Datalake
kafka-broker01 ping 반응 없습니다.
kafka-broker01에 ssh로 접속하고 Ping을했는데 회신이 없이 그대로 멈춰있습니다.
-
미해결Kafka & Spark 활용한 Realtime Datalake
github actions 오류 문의 드립니다.
안녕하세요. git push 이후 actions 오류 발생 되어 문의 드립니다.Github 에서 AWS codeDeploy 오류 확인 됩니다.어떤 부분을 체크 해보는게 좋을까요?
-
미해결Kafka & Spark 활용한 Realtime Datalake
github Actions 실행 강의 따라가는도중 막혔습니다.
강의에서는 master.yml도 appspec.yml이랑 똑같던데 제 환경에서 똑같이 따라했는데 master.yml과 appspec.yml의 아이콘이 다르게 뜹니다.git status를 치면 수정함: .github/workflows/master.yml, 수정함: appspec.yml 이렇게 떠야하는데 저는 modified: appspec.yml 이거 하나만 뜹니다. 강사님과 똑같이 따라했습니다. 이전에 git add . 를 한 적이 없음git push를 한 후에 깃헙 Actions에 들어가보면 There are no workflow runs yet. 이라고 뜹니다. 강사님처럼 workflow run이 안 됩니다.뭐가 문제일까요? 강의랑 똑같이 따라갔는데제가 다르게 한 거는 카프카 브로커를 만들때, 인스턴스 유형을 public-nat: t3.micro,kafka-broker: t3.small로 한 거만 다릅니다.
-
미해결Kafka & Spark 활용한 Realtime Datalake
confluent-kafka 의 produce 파라미터(on_devliery)
안녕하세요!먼저 이 강의를 통해 많은 것을 배우고 있습니다. 감사합니다강의를 수강중에 Simple Producer 코드에서 질문이 있습니다. 강의에서 비동기 방식으로 producer를 생성할 때 on_delivery 파라미터를 설명해주셨고, 아래 문서에서 예제 코드를 확인했을 때는 on_delivery가 아닌 callback 으로 파라미터를 받고 있는 것을 확인했습니다.https://docs.confluent.io/kafka-clients/python/current/overview.html 직접 코드를 확인해보니 아래와 같이 alias로 사용하는 것까지 확인했습니다.하지만, callback으로 파라미터를 넘겼을 때 어떻게 on_delivery로 값을 바인딩할 수 있는지에 대한 부분은 찾지 못하여 질문드립니다!alias가 어떻게 바인딩 되는지 어느 코드에서 찾을 수 있을까요? This is an asynchronous operation, an application may use the ``callback`` (alias ``on_delivery``) argument to pass a function (or lambda) that will be called from :py:func:`poll()` when the message has been successfully delivered or permanently fails delivery. confluent-kafka (python) 코드에서 강의 중에 poll() 메소드는 반드시 필요한 것이라고 이해를 했습니다.자바 기반인 apache kafka를 구현한 예제들을 보면 producer에서는 poll() 메소드를 사용하지 않는 것 같아서 질문드립니다.자바 기반인 경우 동작 방식이 달라서 그런걸가요?
-
미해결Kafka & Spark 활용한 Realtime Datalake
디스코드 초대장은 어디로 받나요?
디스코드 초대장은 어디로 받나요?
-
미해결Kafka & Spark 활용한 Realtime Datalake
install_zookeeper 플레이북 실행시 오류 해결
cd /home/ec2-user/downloadswget https://downloads.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz 해당 폴더에 압축파일이 없다고 떠서 새로 다운받았습니다!
-
미해결Kafka & Spark 활용한 Realtime Datalake
ec2 인스턴스 생성
100$ 지원해주는 free tier로 계정을 만들고 Support 플랜이 Basic으로 되어있습니다.인스턴스 유형을 선택할 때 기본적으로 t3.micro로 선택이 되어있고t2.micro를 사용하려면 무료 요금제에선 사용할 수 없고 계정 요금제 업그레이드를 하라고 하는데 요금제를 업그레이드 하고 따라가면 될까요?
-
미해결Kafka & Spark 활용한 Realtime Datalake
디스코드 초대장 재발급 부탁드립니다!!
안녕하세요디스코드 초대장이 만료되었다고 떠서 재발급 부탁드립니다!
-
해결됨실리콘밸리 리더가 알려주는 빅데이터 처리 (Spark)
강의자료가 비어있어요
안녕하세요 3. 강의자료에서 파일을 다운받았는데 폴더가 비어있습니다.
-
미해결Kafka & Spark 활용한 Realtime Datalake
Kafka Cluster 서버 구축 시 Docker 사용
안녕하세요! 강의 정말 잘 듣고 있습니다! 수업에서 Kafka 클러스터를 구축할 때 EC2 인스턴스 4대를 사용하셨는데요. 혹시 도커 리눅스 컨테이너 4개를 띄워 학습 환경을 구성해도 Kafka 클러스터 실습이 가능할까요?
-
해결됨따라하며 배우는 실전 스파크 Part1
파티션 이해하기 강의 부분 질문있습니다.
강사님 안녕하세요.파티션 이해하기 (Notebook 부분)이 부분에서 끝 부분에 강의가 중단된 것 같은데, 혹시 rdd.getNumPartitions() 정도까지만 알고 다음 Shuffle 부분 들어도 문제 없을까요?
-
미해결Kafka & Spark 활용한 Realtime Datalake
데이터레이크 구성요소 안나옵니다.
저도 데이터레이크 구성요소 영상 안나옵니다.소리는 나옵니다.위에도 있던데 어떻게 해결되었나요?다른영상은 나옵니다.
-
미해결Kafka & Spark 활용한 Realtime Datalake
codedeploy 배포 실패
안녕하세요! 강사님강의 잘 듣고 있습니다.github actions 실행 부분에서 codedeploy부분이 실패했는데요... github actions에서 성공이 떴고 버킷 이름도 잘 바꿨으며kafka-server에 code-deploy가 있는 것도 확인했습니다. 혹시 뭔가 확인해봐야할 게 있을까요?
-
미해결Kafka & Spark 활용한 Realtime Datalake
CodeDeploy 사용시 registration 요구
안녕하세요! 정말로 좋은 강의 너무 잘 듣고 있습니다. 지금 AWS 세팅하는 섹션을 듣고 있는데요, github actions 세팅하는 부분에서 CodeDeploy를 이용하려고 하면 registration을 요구하는 페이지로 넘어갑니다 (사진 첨부). 근데 전 이미 registration을 다 끝냈습니다. complete your AWS registration 버튼 눌러도 AWS 홈 화면으로만 돌아가네요. 안내문을 보니깐 free plan을 써서 그런 것 같은데...플랜을 업그레이드 해야하는 걸까요..ㅠㅠ