묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결실리콘밸리 리더가 알려주는 빅데이터 처리 (Spark)
Free Edition을 사용하는 방법
CSV, PARQUET, DELTA 파일 성능 비교하고 DELTA의 Time Travel 사용하기Pandas vs. Spark 100M & 1B 레코드 처리 성능 비교하기Shuffling JOIN과 Broadcast JOIN 학습하기이 3가지 실습과정 영상을 올ㄹㅕ주시면 좋겠습니다. 예제를 통한 판다스와 스파크 성능 비교부터 실습을 어떻게 진행해야할지 막막하네요.
-
미해결Kafka & Spark 활용한 Realtime Datalake
git action - code deploy단계
github에는 actions탭에 정상적으로 워크플로우가 런 됩니다. 하지만 code-deploy 탭으로 이동해 확인하면 배포상태가 번번히 실패로 뜹니다. 강의안대로 잘 따라갔습니다. 원인을 찾아보려했지만 찾아지지 않아 글 남깁니다. 감사합니다.
-
미해결Kafka & Spark 활용한 Realtime Datalake
IDE - Pycharm / VSCode
안녕하세요 강사님! Airflow 강의에 이어 Kafka & Spark 강의도 열심히 듣고 있는 수강생입니다. 지난 Airflow 강의에서는 VSCode를 기반으로 실습을 진행했었는데, 이번 강의는 Pycharm으로 진행하시더라구요. 혹시 Pycharm 대신 VSCode를 사용하면 실습을 따라가는 데 있어서 신경써줘야 할 부분들이 좀 많을까요? 그게 아니라면 기존에 쓰던 VSCode를 기반으로 실습을 따라가고 싶어서요! 항상 좋은 강의, 그리고 친절한 답변 감사드립니다 :)
-
미해결Kafka & Spark 활용한 Realtime Datalake
UI For Apache Kafka 설치하기
host가 kafka02에다가 설치하고 kafka-ui를 실행했는데 사진처럼 컨트롤러가 kafka03일 수가 있는겁니까?
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
append 모드 사용 시 집계
writeStream 에서 append 모드 사용 시 지원되지 않는 오류가 발생한다고 하셨는데 그럼 데이터를 추가하면서 집계를 하고 싶은 경우에는 어떻게 해야 하나요?
-
미해결Kafka & Spark 활용한 Realtime Datalake
kafka broker prompt 변경 확인
kafka borker prompt 변경 확인 하는 부분에서 재부팅을 한 후 로그인이 풀리면서 프롬포트에서 public-nat로 되돌아 갑니다. 뭐가 문제인지 알 수 있을 까요?
-
미해결Kafka & Spark 활용한 Realtime Datalake
디스코드 만료
디스코드가 만료되었는데 링크좀 주세요 소개페이지도 안되고 질문페이지도 안됩니다
-
미해결Kafka & Spark 활용한 Realtime Datalake
Zookeeper 설치 오류
8월말 9월초에 비슷한 질문보고 해결하려했는데 3.8.4가 url에서 없어진거 같은데 어떻게 해야하나요?
-
미해결Kafka & Spark 활용한 Realtime Datalake
github 레파지토리 생성 및 연결 관련 질문드립니다!
안녕하세요 강사님 아직 모르는것 투성이인 수강생입니다. 강사님께서는 깃허브 저장소를 생성한 뒤 토큰을 발급받으시던데 구글링을 해보니 토큰을 사용하면 보안과 유연성에 장점이 있다고 나와있었습니다.배포를 하기 위해서는 꼭 토큰을 발급받아야 하는 건지 실습 환경을 구축할 때 토큰을 사용하시는 이유가 궁금합니다!좋은 강의 만들어주셔서 감사드립니다!!
-
미해결Kafka & Spark 활용한 Realtime Datalake
git action실행 안됨
안녕하세요 강사님!ch03.8 git action 실행 강의 수강 중 입니다.강의안에 나온대로 디렉토리 설정 완료하고, master 파일의 버킷명도 제 고유버킷명으로 잘 변경했습니다. 이후 git push를 진행했고 push도 잘 된것을 깃허브에서 확인했는데요.문제는 git actions에 아무것도 올라오지 않는다는 것 입니다. 이에 chat-gpt를 통해 문제 원인을 분석해보니📌 원인master.yml 파일이 레포지토리 루트가 아니라kafka-producer/kafka-producer/.github/workflows/master.yml 처럼 하위 디렉토리 안에 들어 있었기 때문이에요.GitHub Actions는 오직 레포 최상위(repo-root/.github/workflows/) 위치만 인식합니다.하위 폴더 안에 있으면 파일이 있어도 무시돼서, Actions 탭에 아무것도 안 보였던 거예요.이와 같았습니다.chat-gpt의 수정대로 레포 구조를 바꿔 git push를 진행하면 actions에 워크플로우가 뜨고 빌드가 됩니다. 하지만 강의안에 나온 구조와는 상이해보여 질문드립니다. 정확한 문제의 원인과 해결 방안을 알 수 있을까요? 사진은 강의안대로 구성한 제 디렉토리 구조 입니다. chat-gpt가 제시한 해결 방안입니다. 이대로 했을 때 actions 탭에 워크플로우 뜸.
-
미해결Kafka & Spark 활용한 Realtime Datalake
터미널에서 NAT 인스턴스로 직접 로그인 안됨
16강 ansible 설치를 위해 터미널에서 NAT 인스턴스로 직접 로그인하려고 하는데 오류가납니다. PS C:\Users\nayun\downloads> ssh -i public-nat-key.pem ec2-user@3.39.207.192ssh: connect to host 3.39.207.192 port 22: Connection timed out 15강까지 원활히 강의따라 실습 진행한 상태입니다.
-
해결됨Kafka & Spark 활용한 Realtime Datalake
AWS EC2 생성하기 2분55초 부분
private 서버 이용시 2c, 2d로 사용한다했는데 이제 2d는 없어진 모양입니다. 2c로만 진행해도 무리 없을런지요?
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
CDC 기반 스파크 아키텍처 구현 방법이 궁금합니다.
현재 RDS에 저장된 데이터를 AWS DMS를 활용해 Parquet 포맷으로 변환하여 S3에 저장한 뒤, EMR(Apache Spark)에서 해당 데이터를 분석/처리하는 구조를 고려하고 있습니다.이 방식이 일반적인 데이터 파이프라인 아키텍처로 적절한지 궁금합니다.또한 RDS에서 지속적으로 발생하는 변경 데이터를 CDC(Change Data Capture) 기반으로 S3에 업데이트하려고 하는데, 이 역시 DMS를 활용하는 것이 최선인지 아니면 다른 접근 방안이 더 적절한지도 조언 부탁드립니다.
-
미해결Kafka & Spark 활용한 Realtime Datalake
git action에서 install_codedeploy-agent.yml
안녕하세요! 강사님 이 부분이 에러가 뜨는데 혹시 어떤 걸 확인해봐야할까요?
-
미해결Kafka & Spark 활용한 Realtime Datalake
consumer 실행 오류 질문: connect ip 관련
안녕하세요3주만에 카프카를 실행시키니 Consumer 실행에 문제가 있어 질문 남깁니다디스코드에도 글을 남겼으니 편하신 곳으로 답변 부탁드립니다 1-1) poll consumer를 10분정도 실행시켰다가(잘돌아갔음) 종료후 다시한번 실행한 상황1-2) poll consumer 실행하니까 반응이없음(python poll_consumer.py 입력하니 쉘 묵묵부답)1-3) consume consumer는 실행이 잘됨2)서버 껐다켜니 둘다 실행이 안됨3) UI가 안켜져서 보안그룹 public-nat를 건드리고나니 comsumer 실행시 아래와 같은 현상 발생<8월 31일>%3|1756625877.560|FAIL|rdkafka#consumer-1| [thrd:kafka03:9092/bootstrap]: kafka03:9092/bootstrap: Connect to ipv4#172.31.58.18:9092 failed: Connection refused (after 1ms in state CONNECT)%3|1756625878.559|FAIL|rdkafka#consumer-1| [thrd:kafka02:9092/bootstrap]: kafka02:9092/bootstrap: Connect to ipv4#172.31.39.189:9092 failed: Connection refused (after 1ms in state CONNECT)<9월 2일>%6|1756814397.408|FAIL|rdkafka#consumer-1| [thrd:kafka02:9092/bootstrap]: kafka02:9092/bootstrap: Disconnected while requesting ApiVersion: might be caused by incorrect security.protocol configuration (connecting to a SSL listener?) or broker version is < 0.10 (see api.version.request) (after 1248ms in state APIVERSION_QUERY)모든 강의자료에 나오는 보안그룹 관련 설정을 최대한 따라하였으나 잘 진행이 되지않습니다 public-nat 보안규칙은 아래와 같습니다 ..
-
해결됨따라하며 배우는 실전 스파크 Part1
32강 강의가 짤린거 같습니다.
32강 강의가 짤렸습니다.업로드 다시 해주세요
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
community edition 가입 문의
안녕하세요, 데이터 브릭스 커뮤니티 에디션으로 가입하려고 하니 위 이미지와 같은 안내문구가 나오며sign up 시 자동으로 free edition으로 이동합니다. 혹, 앞으로는 free edition을 사용해야 하는지... 문의드립니다! 감사합니다!
-
미해결Kafka & Spark 활용한 Realtime Datalake
Spark Programs 구조에서 막혔습니다.
강의를 잘 따라가던 도중에 4040 웹에 접속했는데 저렇게 떴는데 뭐가 문제일까요?
-
미해결Kafka & Spark 활용한 Realtime Datalake
kafka-broker01 ping 반응 없습니다.
kafka-broker01에 ssh로 접속하고 Ping을했는데 회신이 없이 그대로 멈춰있습니다.
-
미해결Kafka & Spark 활용한 Realtime Datalake
github actions 오류 문의 드립니다.
안녕하세요. git push 이후 actions 오류 발생 되어 문의 드립니다.Github 에서 AWS codeDeploy 오류 확인 됩니다.어떤 부분을 체크 해보는게 좋을까요?