묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결Kafka & Spark 활용한 Realtime Datalake
ch4_3 apache zookeeper 설치파일 관련 질문
ec2-user$ curl -O https://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz복사 붙여넣기 해도 오류가 나고 QnA에 뭐 복붙을 하면 오류가 발생할 수 있다하여 직접 타이핑을 해도 오류가 납니다..대체 왜이런건가요 ;;;저기 링크로 직접 들어가봐도 아무것도 안떠요
-
해결됨Kafka & Spark 활용한 Realtime Datalake
질문있습니다 섹션13. Spark streaming 부분
수업 잘 따라가고있습니다 다름이 아니라선생님과달리 저는 스파크 서브밋을 하면 선생님처럼SLf4J가 아니라 다른 로그가 나옵니다그리고 선생님처럼 바로 실행되는게 아니라 약 40초에서 1분30초정도 걸려서 실행되는데 혹시 제가 빠뜨렸을법한 설정이 있을까요?우선 실행만 되면 실습을 따라가는데 큰 문제는 없습니다.
-
미해결Kafka & Spark 활용한 Realtime Datalake
ot 자료
다른 pdf는 있는데 ot 자료는 pdf가 안올라와 있네용
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
데이터 브릭스 이슈
안녕하세요. 최근 남긴 문의와 같이 현재 데이터 브릭스 커뮤니티 에디션 종료 이슈가 있어 실습을 따라갈 수가 없는 상황입니다.앞선 문의 내용에선 환불을 말씀해주셨는데 저는 이미 강의자료를 받아서 시스템적으로 환불이 불가한 상황으로 나오는데, 별도로 환불 조치를 해주실 수 있을까요?
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
데이터 브릭스 가입
안녕하세요 현재 데이터 브릭스 커뮤니티 에디션이 막힌 것 같습니다.그리고 현재 제공되는 프리 에디션 사용의 경우 cluster 생성이 안되는 것 같습니다. 현재 강의 수강에 지장이 있어 확인 후 답변 주시면 감사하겠습니다. https://learn.microsoft.com/en-us/answers/questions/2337779/how-to-create-databricks-cluster-with-the-new-data
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
pyspark local 설치
안녕하십니까, 강사님.PySpark에 대한 심도 있는 강의를 준비해주셔서 감사합니다. PySpark를 공부하기 전에 한 가지 궁금한 점이 있습니다.많은 분들이 PySpark를 Databricks 플랫폼에서 실행하던데, 특별한 이유가 있을까요?로컬 환경에 패키지를 설치해 직접 실행하지 않는 이유가 궁금합니다.
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
S3 폴더 구조에 따른 Static Partition Pruning, DPP 질문
안녕하세요.Static Partition Pruning이 가능한 폴더 구조에 대해서 궁금한 점이 있습니다.Hive-Style(/year=2024/data.csv) 로 폴더를 구성해야 스파크에서 메타데이터에 year를 설정하고 Static Partition Pruning, DP가 가능하다고 하는데 맞을까요?맞다면 Hive-Style의 폴더 구조가 아닌 상태의 데이터들을 대상으로도 Static Partition Pruning, DPP가 가능한지 궁금합니다.ex.) Hive-style이 아닌 폴더 구조/2024/data.csv/2025/data.csv감사합니다!
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
broadcast Join과 boradcast + UDF 차이
안녕하세요!좋은 강의 잘 듣고 있습니다!강의를 듣던 중 궁금한게 생겨서 질문 남깁니다UDF + broadcast 대신에 아래 방법으로 lookup테이블을 활용해서BROADCAST JOIN한다면 스파크 내부적으로 다르게 동작하는지,다르게 동작한다면 어떤 상황에서 각각 이점이 있는지 궁금합니다lookup_df = spark.createDataFrame( [(k, v) for k, v in meta.items()], ["occupation_id", "occupation_name"] ) df_result = interviewer_count.join( broadcast(lookup_df), on="occupation_id", how="left" )감사합니다.
-
미해결실리콘밸리 리더가 알려주는 빅데이터 처리 (Spark)
Free Edition을 사용하는 방법
CSV, PARQUET, DELTA 파일 성능 비교하고 DELTA의 Time Travel 사용하기Pandas vs. Spark 100M & 1B 레코드 처리 성능 비교하기Shuffling JOIN과 Broadcast JOIN 학습하기이 3가지 실습과정 영상을 올ㄹㅕ주시면 좋겠습니다. 예제를 통한 판다스와 스파크 성능 비교부터 실습을 어떻게 진행해야할지 막막하네요.
-
미해결Kafka & Spark 활용한 Realtime Datalake
git action - code deploy단계
github에는 actions탭에 정상적으로 워크플로우가 런 됩니다. 하지만 code-deploy 탭으로 이동해 확인하면 배포상태가 번번히 실패로 뜹니다. 강의안대로 잘 따라갔습니다. 원인을 찾아보려했지만 찾아지지 않아 글 남깁니다. 감사합니다.
-
미해결Kafka & Spark 활용한 Realtime Datalake
IDE - Pycharm / VSCode
안녕하세요 강사님! Airflow 강의에 이어 Kafka & Spark 강의도 열심히 듣고 있는 수강생입니다. 지난 Airflow 강의에서는 VSCode를 기반으로 실습을 진행했었는데, 이번 강의는 Pycharm으로 진행하시더라구요. 혹시 Pycharm 대신 VSCode를 사용하면 실습을 따라가는 데 있어서 신경써줘야 할 부분들이 좀 많을까요? 그게 아니라면 기존에 쓰던 VSCode를 기반으로 실습을 따라가고 싶어서요! 항상 좋은 강의, 그리고 친절한 답변 감사드립니다 :)
-
미해결Kafka & Spark 활용한 Realtime Datalake
UI For Apache Kafka 설치하기
host가 kafka02에다가 설치하고 kafka-ui를 실행했는데 사진처럼 컨트롤러가 kafka03일 수가 있는겁니까?
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
append 모드 사용 시 집계
writeStream 에서 append 모드 사용 시 지원되지 않는 오류가 발생한다고 하셨는데 그럼 데이터를 추가하면서 집계를 하고 싶은 경우에는 어떻게 해야 하나요?
-
미해결Kafka & Spark 활용한 Realtime Datalake
kafka broker prompt 변경 확인
kafka borker prompt 변경 확인 하는 부분에서 재부팅을 한 후 로그인이 풀리면서 프롬포트에서 public-nat로 되돌아 갑니다. 뭐가 문제인지 알 수 있을 까요?
-
해결됨Kafka & Spark 활용한 Realtime Datalake
디스코드 만료
디스코드가 만료되었는데 링크좀 주세요 소개페이지도 안되고 질문페이지도 안됩니다
-
미해결Kafka & Spark 활용한 Realtime Datalake
Zookeeper 설치 오류
8월말 9월초에 비슷한 질문보고 해결하려했는데 3.8.4가 url에서 없어진거 같은데 어떻게 해야하나요?
-
미해결Kafka & Spark 활용한 Realtime Datalake
github 레파지토리 생성 및 연결 관련 질문드립니다!
안녕하세요 강사님 아직 모르는것 투성이인 수강생입니다. 강사님께서는 깃허브 저장소를 생성한 뒤 토큰을 발급받으시던데 구글링을 해보니 토큰을 사용하면 보안과 유연성에 장점이 있다고 나와있었습니다.배포를 하기 위해서는 꼭 토큰을 발급받아야 하는 건지 실습 환경을 구축할 때 토큰을 사용하시는 이유가 궁금합니다!좋은 강의 만들어주셔서 감사드립니다!!
-
미해결Kafka & Spark 활용한 Realtime Datalake
git action실행 안됨
안녕하세요 강사님!ch03.8 git action 실행 강의 수강 중 입니다.강의안에 나온대로 디렉토리 설정 완료하고, master 파일의 버킷명도 제 고유버킷명으로 잘 변경했습니다. 이후 git push를 진행했고 push도 잘 된것을 깃허브에서 확인했는데요.문제는 git actions에 아무것도 올라오지 않는다는 것 입니다. 이에 chat-gpt를 통해 문제 원인을 분석해보니📌 원인master.yml 파일이 레포지토리 루트가 아니라kafka-producer/kafka-producer/.github/workflows/master.yml 처럼 하위 디렉토리 안에 들어 있었기 때문이에요.GitHub Actions는 오직 레포 최상위(repo-root/.github/workflows/) 위치만 인식합니다.하위 폴더 안에 있으면 파일이 있어도 무시돼서, Actions 탭에 아무것도 안 보였던 거예요.이와 같았습니다.chat-gpt의 수정대로 레포 구조를 바꿔 git push를 진행하면 actions에 워크플로우가 뜨고 빌드가 됩니다. 하지만 강의안에 나온 구조와는 상이해보여 질문드립니다. 정확한 문제의 원인과 해결 방안을 알 수 있을까요? 사진은 강의안대로 구성한 제 디렉토리 구조 입니다. chat-gpt가 제시한 해결 방안입니다. 이대로 했을 때 actions 탭에 워크플로우 뜸.
-
미해결Kafka & Spark 활용한 Realtime Datalake
터미널에서 NAT 인스턴스로 직접 로그인 안됨
16강 ansible 설치를 위해 터미널에서 NAT 인스턴스로 직접 로그인하려고 하는데 오류가납니다. PS C:\Users\nayun\downloads> ssh -i public-nat-key.pem ec2-user@3.39.207.192ssh: connect to host 3.39.207.192 port 22: Connection timed out 15강까지 원활히 강의따라 실습 진행한 상태입니다.
-
해결됨Kafka & Spark 활용한 Realtime Datalake
AWS EC2 생성하기 2분55초 부분
private 서버 이용시 2c, 2d로 사용한다했는데 이제 2d는 없어진 모양입니다. 2c로만 진행해도 무리 없을런지요?