묻고 답해요
167만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
databricks에 cluster 메뉴가 없습니다.
Databricks 플랫폼에서 아무리 찾아봐도 cluster생성하는 메뉴가 없네요 ㅡㅡ;
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
주피터 사용 및 도커 설치
혼자 해결해보려고 했는데 잘 하고 있는건지 모르겠어서요.. 강사님이 터미널에 docker run -it --rm -p 8888:8888 -v /Users/seungjoonlee/git/pyspark:/home/jovyan/work jupyter/pyspark-notebook 입력하신걸 따라 쳤더니 무슨 권한 문제가 생겨서 직접 pyspark-study라는 폴더를 만들고 해당 경로에서 cd /Users/jang-ayeon/Dev/pyspark-study❯ docker run -it --rm -p 8888:8888 -v "${PWD}":/home/jovyan/work jupyter/pyspark-notebook 이렇게 실행하여 링크를 받았습니다.그런데 이번에는 따라 들어가보니 렉쳐 파일이 따로 없는데 해당 강의 뒤 7번째 강의 자료에 있는 파일이 느낌상 그 파일인것 같은데.. 직접 해당 코드들을 제가 만든 파일에 옮겨서 사용해야 하는 것인가요...?
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
S3 폴더 구조에 따른 Static Partition Pruning, DPP 질문
안녕하세요.Static Partition Pruning이 가능한 폴더 구조에 대해서 궁금한 점이 있습니다.Hive-Style(/year=2024/data.csv) 로 폴더를 구성해야 스파크에서 메타데이터에 year를 설정하고 Static Partition Pruning, DP가 가능하다고 하는데 맞을까요?맞다면 Hive-Style의 폴더 구조가 아닌 상태의 데이터들을 대상으로도 Static Partition Pruning, DPP가 가능한지 궁금합니다.ex.) Hive-style이 아닌 폴더 구조/2024/data.csv/2025/data.csv감사합니다!
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
CDC 기반 스파크 아키텍처 구현 방법이 궁금합니다.
현재 RDS에 저장된 데이터를 AWS DMS를 활용해 Parquet 포맷으로 변환하여 S3에 저장한 뒤, EMR(Apache Spark)에서 해당 데이터를 분석/처리하는 구조를 고려하고 있습니다.이 방식이 일반적인 데이터 파이프라인 아키텍처로 적절한지 궁금합니다.또한 RDS에서 지속적으로 발생하는 변경 데이터를 CDC(Change Data Capture) 기반으로 S3에 업데이트하려고 하는데, 이 역시 DMS를 활용하는 것이 최선인지 아니면 다른 접근 방안이 더 적절한지도 조언 부탁드립니다.
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
BroadCast 지원 가능 메모리 문의
안녕하세요.최근부터 Spark 강의를 듣고있는데 이해하기 쉽게 설명 해주셔서 감사합니다. Broadcast에 대해서 설명을 해주셨는데 Join 대상이 큰 빅데이터 이거나, meta에 큰 데이터를 담을 경우에는 Broadcast를 사용 하지 못한다고 설명해주셨는데요, 혹시 Broadcast에서 지원할 수 있는 최대 메모리가 있을까요? 그리고 Join대상 데이터가 A, B, C, D ID로 이뤄진 TB 사이즈의 테이블이라고 했을 경우 meta에 A, B, C, D ID에 대한 Name을 Brodcast할 경우 위 테이블과 맵핑하여 사용이 가능할까요?