묻고 답해요
164만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
databricks에 cluster 메뉴가 없습니다.
Databricks 플랫폼에서 아무리 찾아봐도 cluster생성하는 메뉴가 없네요 ㅡㅡ;
-
미해결Kafka & Spark 활용한 Realtime Datalake
consumer가 모든 파티션을 읽지 않는 이슈가 있습니다
안녕하세요!강의 들으면서 poll_consumer를 1개 > 2개로 늘려보았습니다실습을 해보니 강의 화면에서 보여지는 것 처럼 consumer가 모든 파티션을 읽지않더라구요(consumer 개수를 1 ~ 3개까지 변경해보아도 모든 파티션을 읽지 않습니다)컨슈머가 모든 파티션을 읽지 않는 이유가 있을까요?
-
미해결Kafka & Spark 활용한 Realtime Datalake
람다 아키텍처에서 speed layer 관련 질문드립니다
안녕하세요~람다 아키텍처에서 speed layer 부분에 궁금한 점이 생겨 질문드립니다! Q1. speed layer는 어딘가에 저장이 된 후에 serving layer에서 보여지는건지 궁금합니다저장이 된 결과가 보여지는 거라면 serving layer에서 전 날의 결과도 같이 보여지게 되는걸까요?아니면 별도의 설정 같은 걸로 전 날 데이터는 삭제가 되는걸까요? Q2. speed layer에서 보여진 데이터가 다음 날에는 batch layer에 들어갈텐데 데이터 중복은 어떻게 처리할 수 있나요? 감사합니다!
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
주피터 사용 및 도커 설치
혼자 해결해보려고 했는데 잘 하고 있는건지 모르겠어서요.. 강사님이 터미널에 docker run -it --rm -p 8888:8888 -v /Users/seungjoonlee/git/pyspark:/home/jovyan/work jupyter/pyspark-notebook 입력하신걸 따라 쳤더니 무슨 권한 문제가 생겨서 직접 pyspark-study라는 폴더를 만들고 해당 경로에서 cd /Users/jang-ayeon/Dev/pyspark-study❯ docker run -it --rm -p 8888:8888 -v "${PWD}":/home/jovyan/work jupyter/pyspark-notebook 이렇게 실행하여 링크를 받았습니다.그런데 이번에는 따라 들어가보니 렉쳐 파일이 따로 없는데 해당 강의 뒤 7번째 강의 자료에 있는 파일이 느낌상 그 파일인것 같은데.. 직접 해당 코드들을 제가 만든 파일에 옮겨서 사용해야 하는 것인가요...?
-
해결됨따라하며 배우는 실전 스파크 Part1
11강 파티션 이해하기 부분이 미완성강의네요
제목 그대로입니다. 11강 파티션 이해하기(Jupyter Notebook 에서의 동작) 강의가 말을 하다 말고 끝납니다. 유료 강의인데 강사님이나 인프런 측이나... 강의 품질 검수도 안하고 파시네요? PS. 이 글 올리고 나서 다른 분 질문 보다 보니까, 25년 7월에 동일한 증상을 다른 분이 올린 기록이 있는데.. 문제 있는 강의를 수정도 안하고 6개월 이상이나 그대로 놔두고 판매하시는군요. 흠..인프런...품질관리 수준이 기대 이하네요.
-
미해결Kafka & Spark 활용한 Realtime Datalake
아키텍처 관련 질문
아키텍처 설계 부분에서 궁금한 점이 있어 질문드립니다. 일반적으로원천 → 수집 → 저장 → 처리 → 제공 → 활용의 흐름으로 데이터 아키텍처를 설명해주셨는데, 이 중 원천에 해당하는 부분에서 조금 헷갈리는 지점이 있습니다. 이전 강의에서 DW, DL, Lakehouse를 구축할 때원천 데이터를 가져와 별도의 저장소에 다시 저장하며, 이 과정에서 데이터가 중복될 수 있고그 중복이 필요한 이유에 대해서도 설명해주셨던 것으로 이해했습니다. 그래서 제가 이해한 내용을 예시로 확인하고 싶습니다. 예를 들어, 사내에 어떤 제품이 있고해당 제품의 백엔드 서버가 RDB를 사용하며서비스 데이터가 그 RDB에 저장되고 있다고 가정했을 때, DW, DL, Lakehouse를 구축하는 관점에서는이 서비스용 RDB 자체가 raw data source(원천 데이터) 가 되고,이 RDB로부터 데이터를 수집하여DW, DL, Lakehouse 등에 다시 적재하는 구조로 이해했는데이렇게 이해하는 것이 맞을지 궁금합니다.
-
미해결Kafka & Spark 활용한 Realtime Datalake
code deploy 배포에러
안녕하세요 code deploy 배포에서 에러가 발생하여 문의 올리게 되엇습니다. s3 bucket 까지 tar.gz 파일 잘 업로드 되었습니다만 code deploy에서 아래 before install 에서 에러가 계속해서 발생하고 있는 상황입니다. 이전에 에러나신분 글읽어보니 ec2 인스턴스에서 logs파일을 보라고 하셨는데 저의 경우에는 로그파일이 생성이 되지 않는것 같습니다.
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
강의 pdf는 따로 제공안해주시는 건가요?
아래와 같은 양식으로 질문을 남겨주세요 🙂수업을 들으시면 이해하기 어려운 부분이 있으면 상세히 질문을 남겨주세요.서로 Tone and Manner 를 지키며, 즐거운 수업 시간을 만들어보아요.잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 강의 pdf가 없는거 같은데 따로 제공해주시지는 않나요? 강의 들을 때 있으면 더 도움될거 같아서 질문드립니다
-
미해결Kafka & Spark 활용한 Realtime Datalake
/homework/ch10_3/dataframe_cache.py 과제 질문
안녕하세요.과제 도중 질문이 있어 질문 남깁니다.우선 아래에 제가 작성한 코드 남기겠습니다!from pyspark.sql import SparkSession from pyspark.sql.functions import col import time spark = SparkSession.builder.appName("dataframe_cache").getOrCreate() # 회사별 산업도메인 CSV READ com_ind_path = 'hdfs://home/spark/sample/linkedin_jobs/company_industries.csv' com_ind_schema= 'company_id STRING, industry STRING' ind_df = spark.read.option("header", "true").option("multiline", "true").schema(com_ind_schema).csv(com_ind_path) # 회사별 종업원 수 CSV READ com_count_path = 'hdfs://home/spark/sample/linkedin_jobs/employee_counts.csv' com_count_schema = 'company_id STRING, employee_count INT, follower_count INT, time_recorded INT' count_df = spark.read.option("header", "true").option("multiline", "true").schema(com_count_schema).csv(com_count_path) # company_id 컬럼으로 중복 제거 후 진행 # drop_duplicate : transform 함수 company_count_df = count_df.dropDuplicates(['company_id']) # 캐시 저장 ind_df.persist() company_count_df.persist() # count : action 함수 print(ind_df.count()) print(company_count_df.count()) # filter : transform 함수 # it_df : 산업도메인이 IT Service and IT Consulting인 회사 # big_df : 직원 수가 1000명 이상인 회사 it_df = ind_df.filter(col('industry') == 'IT Services and IT Consulting') big_df = company_count_df.filter(col('employee_count') >= 1000) # join : transform 함수 it_big_df = it_df.join(big_df,'company_id','inner') # 결과 출력 it_big_df.select(['company_id','employee_count']).sort('employee_count',ascending=False).show() # 5분 대기 time.sleep(300)저는 join 작업시 중복을 제거한 직원수 dataframe이 사용되기 때문에 dropDuplicates() 메서드를 적용한 뒤 persist()를 하여 캐시에 저장하였습니다.그런데 강사님의 깃허브 코드를 확인하니, 중복을 제거한 dataframe에 persist()를 적용하지 않아서 제가 잘못 생각하고 있는 부분이 있는지 궁금합니다.
-
미해결Kafka & Spark 활용한 Realtime Datalake
ch4_3 apache zookeeper 설치파일 관련 질문
ec2-user$ curl -O https://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz복사 붙여넣기 해도 오류가 나고 QnA에 뭐 복붙을 하면 오류가 발생할 수 있다하여 직접 타이핑을 해도 오류가 납니다..대체 왜이런건가요 ...저기 링크로 직접 들어가봐도 아무것도 안떠요
-
해결됨Kafka & Spark 활용한 Realtime Datalake
질문있습니다 섹션13. Spark streaming 부분
수업 잘 따라가고있습니다 다름이 아니라선생님과달리 저는 스파크 서브밋을 하면 선생님처럼SLf4J가 아니라 다른 로그가 나옵니다그리고 선생님처럼 바로 실행되는게 아니라 약 40초에서 1분30초정도 걸려서 실행되는데 혹시 제가 빠뜨렸을법한 설정이 있을까요?우선 실행만 되면 실습을 따라가는데 큰 문제는 없습니다.
-
미해결Kafka & Spark 활용한 Realtime Datalake
ot 자료
다른 pdf는 있는데 ot 자료는 pdf가 안올라와 있네용
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
데이터 브릭스 이슈
안녕하세요. 최근 남긴 문의와 같이 현재 데이터 브릭스 커뮤니티 에디션 종료 이슈가 있어 실습을 따라갈 수가 없는 상황입니다.앞선 문의 내용에선 환불을 말씀해주셨는데 저는 이미 강의자료를 받아서 시스템적으로 환불이 불가한 상황으로 나오는데, 별도로 환불 조치를 해주실 수 있을까요?
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
데이터 브릭스 가입
안녕하세요 현재 데이터 브릭스 커뮤니티 에디션이 막힌 것 같습니다.그리고 현재 제공되는 프리 에디션 사용의 경우 cluster 생성이 안되는 것 같습니다. 현재 강의 수강에 지장이 있어 확인 후 답변 주시면 감사하겠습니다. https://learn.microsoft.com/en-us/answers/questions/2337779/how-to-create-databricks-cluster-with-the-new-data
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
pyspark local 설치
안녕하십니까, 강사님.PySpark에 대한 심도 있는 강의를 준비해주셔서 감사합니다. PySpark를 공부하기 전에 한 가지 궁금한 점이 있습니다.많은 분들이 PySpark를 Databricks 플랫폼에서 실행하던데, 특별한 이유가 있을까요?로컬 환경에 패키지를 설치해 직접 실행하지 않는 이유가 궁금합니다.
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
S3 폴더 구조에 따른 Static Partition Pruning, DPP 질문
안녕하세요.Static Partition Pruning이 가능한 폴더 구조에 대해서 궁금한 점이 있습니다.Hive-Style(/year=2024/data.csv) 로 폴더를 구성해야 스파크에서 메타데이터에 year를 설정하고 Static Partition Pruning, DP가 가능하다고 하는데 맞을까요?맞다면 Hive-Style의 폴더 구조가 아닌 상태의 데이터들을 대상으로도 Static Partition Pruning, DPP가 가능한지 궁금합니다.ex.) Hive-style이 아닌 폴더 구조/2024/data.csv/2025/data.csv감사합니다!
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
broadcast Join과 boradcast + UDF 차이
안녕하세요!좋은 강의 잘 듣고 있습니다!강의를 듣던 중 궁금한게 생겨서 질문 남깁니다UDF + broadcast 대신에 아래 방법으로 lookup테이블을 활용해서BROADCAST JOIN한다면 스파크 내부적으로 다르게 동작하는지,다르게 동작한다면 어떤 상황에서 각각 이점이 있는지 궁금합니다lookup_df = spark.createDataFrame( [(k, v) for k, v in meta.items()], ["occupation_id", "occupation_name"] ) df_result = interviewer_count.join( broadcast(lookup_df), on="occupation_id", how="left" )감사합니다.
-
미해결실리콘밸리 리더가 알려주는 빅데이터 처리 (Spark)
Free Edition을 사용하는 방법
CSV, PARQUET, DELTA 파일 성능 비교하고 DELTA의 Time Travel 사용하기Pandas vs. Spark 100M & 1B 레코드 처리 성능 비교하기Shuffling JOIN과 Broadcast JOIN 학습하기이 3가지 실습과정 영상을 올ㄹㅕ주시면 좋겠습니다. 예제를 통한 판다스와 스파크 성능 비교부터 실습을 어떻게 진행해야할지 막막하네요.
-
미해결Kafka & Spark 활용한 Realtime Datalake
git action - code deploy단계
github에는 actions탭에 정상적으로 워크플로우가 런 됩니다. 하지만 code-deploy 탭으로 이동해 확인하면 배포상태가 번번히 실패로 뜹니다. 강의안대로 잘 따라갔습니다. 원인을 찾아보려했지만 찾아지지 않아 글 남깁니다. 감사합니다.
-
미해결Kafka & Spark 활용한 Realtime Datalake
IDE - Pycharm / VSCode
안녕하세요 강사님! Airflow 강의에 이어 Kafka & Spark 강의도 열심히 듣고 있는 수강생입니다. 지난 Airflow 강의에서는 VSCode를 기반으로 실습을 진행했었는데, 이번 강의는 Pycharm으로 진행하시더라구요. 혹시 Pycharm 대신 VSCode를 사용하면 실습을 따라가는 데 있어서 신경써줘야 할 부분들이 좀 많을까요? 그게 아니라면 기존에 쓰던 VSCode를 기반으로 실습을 따라가고 싶어서요! 항상 좋은 강의, 그리고 친절한 답변 감사드립니다 :)