질문 & 답변 - 인프런 | 커뮤니티

묻고 답해요

167만명의 커뮤니티!! 함께 토론해봐요.

인프런 TOP Writers

미해결
Kafka & Spark 활용한 Realtime Datalake

섹션4 AWS NAT Instance생성하는 과정에서 오류가 지속해서 발생합니다.

windows 환경 사용중인 교육생입니다.cmd에서ssh -i public-nat-key.pem ec2-user@(public IPv4 address)명령어로 AWS NAT 인스턴스에 접속하려 하는데, ssh: connect to host (public IPv4 address) port 22: Connection timed out 이라는 문구가 뜨면서 접속이 되지 않습니다. 혹시 무슨 오류이고 어떻게 해결해야 할지 궁금합니다!

백승우 · 11시간 전 · Kafka & Spark 활용한 Realtime Datalake

투표점수

0

조회수

5

답변

0
미해결
실리콘밸리 리더가 알려주는 빅데이터 처리 (Spark)

Free Edition 실습 영상은 아직 업데이트전인가요?

안녕하세요 현업으로 인해 Spark 강의를 듣고있는데, 기초부터 빅데이터 자체에 대해서도 다루고있어서 상당히 만족하고있습니다. 다만 현재 강의를 듣고있는 시점(26년 4월)에도 Databricks Free Edition 세팅이나 실습영상은 없는듯한데 업로드 계획이 있으신가요?

pungsane · 5일 전 · 실리콘밸리 리더가 알려주는 빅데이터 처리 (Spark)

투표점수

0

조회수

22

답변

1
미해결
Kafka & Spark 활용한 Realtime Datalake

파이참 25.3.4 버전에서 한폴더에 두개 프로젝트 생성하는 방법은?

39강 consumer 배포환경 구축 강의에서 파이참 25.3.4 버전에서 프로젝트 생성시 name 항목이 없습니다.ai 에 물어보니 폴더명이 프로젝트 명이라고 나옵니다.producer 와 consumer 프로젝트가 공유되는 부분이 있어 한 폴더에 만들라고 했을텐데 어떻게 회피하면 될까요?? 더 낮은 버전으로 내려야 하나요??

이종석 · 29일 전 · Kafka & Spark 활용한 Realtime Datalake

투표점수

0

조회수

30

답변

2
해결됨
실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

databricks에 cluster 메뉴가 없습니다.

Databricks 플랫폼에서 아무리 찾아봐도 cluster생성하는 메뉴가 없네요 ㅡㅡ;

simian · 1개월 전 · 실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

투표점수

0

조회수

47

답변

2
미해결
Kafka & Spark 활용한 Realtime Datalake

consumer가 모든 파티션을 읽지 않는 이슈가 있습니다

안녕하세요!강의 들으면서 poll_consumer를 1개 > 2개로 늘려보았습니다실습을 해보니 강의 화면에서 보여지는 것 처럼 consumer가 모든 파티션을 읽지않더라구요(consumer 개수를 1 ~ 3개까지 변경해보아도 모든 파티션을 읽지 않습니다)컨슈머가 모든 파티션을 읽지 않는 이유가 있을까요?

밤바미 · 1개월 전 · Kafka & Spark 활용한 Realtime Datalake

투표점수

0

조회수

79

답변

3
미해결
Kafka & Spark 활용한 Realtime Datalake

람다 아키텍처에서 speed layer 관련 질문드립니다

안녕하세요~람다 아키텍처에서 speed layer 부분에 궁금한 점이 생겨 질문드립니다! Q1. speed layer는 어딘가에 저장이 된 후에 serving layer에서 보여지는건지 궁금합니다저장이 된 결과가 보여지는 거라면 serving layer에서 전 날의 결과도 같이 보여지게 되는걸까요?아니면 별도의 설정 같은 걸로 전 날 데이터는 삭제가 되는걸까요? Q2. speed layer에서 보여진 데이터가 다음 날에는 batch layer에 들어갈텐데 데이터 중복은 어떻게 처리할 수 있나요? 감사합니다!

밤바미 · 1개월 전 · Kafka & Spark 활용한 Realtime Datalake

투표점수

0

조회수

54

답변

1
해결됨
실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

주피터 사용 및 도커 설치

혼자 해결해보려고 했는데 잘 하고 있는건지 모르겠어서요.. 강사님이 터미널에 docker run -it --rm -p 8888:8888 -v /Users/seungjoonlee/git/pyspark:/home/jovyan/work jupyter/pyspark-notebook 입력하신걸 따라 쳤더니 무슨 권한 문제가 생겨서 직접 pyspark-study라는 폴더를 만들고 해당 경로에서 cd /Users/jang-ayeon/Dev/pyspark-study❯ docker run -it --rm -p 8888:8888 -v "${PWD}":/home/jovyan/work jupyter/pyspark-notebook 이렇게 실행하여 링크를 받았습니다.그런데 이번에는 따라 들어가보니 렉쳐 파일이 따로 없는데 해당 강의 뒤 7번째 강의 자료에 있는 파일이 느낌상 그 파일인것 같은데.. 직접 해당 코드들을 제가 만든 파일에 옮겨서 사용해야 하는 것인가요...?

아연 · 2개월 전 · 실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

투표점수

0

조회수

92

답변

2
해결됨
따라하며 배우는 실전 스파크 Part1

11강 파티션 이해하기 부분이 미완성강의네요

제목 그대로입니다. 11강 파티션 이해하기(Jupyter Notebook 에서의 동작) 강의가 말을 하다 말고 끝납니다. 유료 강의인데 강사님이나 인프런 측이나... 강의 품질 검수도 안하고 파시네요? PS. 이 글 올리고 나서 다른 분 질문 보다 보니까, 25년 7월에 동일한 증상을 다른 분이 올린 기록이 있는데.. 문제 있는 강의를 수정도 안하고 6개월 이상이나 그대로 놔두고 판매하시는군요. 흠..인프런...품질관리 수준이 기대 이하네요.

스머펫트 · 2개월 전 · 따라하며 배우는 실전 스파크 Part1

투표점수

0

조회수

58

답변

3
미해결
Kafka & Spark 활용한 Realtime Datalake

아키텍처 관련 질문

아키텍처 설계 부분에서 궁금한 점이 있어 질문드립니다. 일반적으로원천 → 수집 → 저장 → 처리 → 제공 → 활용의 흐름으로 데이터 아키텍처를 설명해주셨는데, 이 중 원천에 해당하는 부분에서 조금 헷갈리는 지점이 있습니다. 이전 강의에서 DW, DL, Lakehouse를 구축할 때원천 데이터를 가져와 별도의 저장소에 다시 저장하며, 이 과정에서 데이터가 중복될 수 있고그 중복이 필요한 이유에 대해서도 설명해주셨던 것으로 이해했습니다. 그래서 제가 이해한 내용을 예시로 확인하고 싶습니다. 예를 들어, 사내에 어떤 제품이 있고해당 제품의 백엔드 서버가 RDB를 사용하며서비스 데이터가 그 RDB에 저장되고 있다고 가정했을 때, DW, DL, Lakehouse를 구축하는 관점에서는이 서비스용 RDB 자체가 raw data source(원천 데이터) 가 되고,이 RDB로부터 데이터를 수집하여DW, DL, Lakehouse 등에 다시 적재하는 구조로 이해했는데이렇게 이해하는 것이 맞을지 궁금합니다.

nealzs · 2개월 전 · Kafka & Spark 활용한 Realtime Datalake

투표점수

0

조회수

68

답변

1
미해결
Kafka & Spark 활용한 Realtime Datalake

code deploy 배포에러

안녕하세요 code deploy 배포에서 에러가 발생하여 문의 올리게 되엇습니다. s3 bucket 까지 tar.gz 파일 잘 업로드 되었습니다만 code deploy에서 아래 before install 에서 에러가 계속해서 발생하고 있는 상황입니다. 이전에 에러나신분 글읽어보니 ec2 인스턴스에서 logs파일을 보라고 하셨는데 저의 경우에는 로그파일이 생성이 되지 않는것 같습니다.

김건회 · 3개월 전 · Kafka & Spark 활용한 Realtime Datalake

투표점수

0

조회수

74

답변

4
미해결
빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

강의 pdf는 따로 제공안해주시는 건가요?

아래와 같은 양식으로 질문을 남겨주세요 🙂수업을 들으시면 이해하기 어려운 부분이 있으면 상세히 질문을 남겨주세요.서로 Tone and Manner 를 지키며, 즐거운 수업 시간을 만들어보아요.잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 강의 pdf가 없는거 같은데 따로 제공해주시지는 않나요? 강의 들을 때 있으면 더 도움될거 같아서 질문드립니다

김도연 · 3개월 전 · 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

투표점수

0

조회수

44

답변

1
미해결
Kafka & Spark 활용한 Realtime Datalake

/homework/ch10_3/dataframe_cache.py 과제 질문

안녕하세요.과제 도중 질문이 있어 질문 남깁니다.우선 아래에 제가 작성한 코드 남기겠습니다!from pyspark.sql import SparkSession from pyspark.sql.functions import col import time spark = SparkSession.builder.appName("dataframe_cache").getOrCreate() # 회사별 산업도메인 CSV READ com_ind_path = 'hdfs://home/spark/sample/linkedin_jobs/company_industries.csv' com_ind_schema= 'company_id STRING, industry STRING' ind_df = spark.read.option("header", "true").option("multiline", "true").schema(com_ind_schema).csv(com_ind_path) # 회사별 종업원 수 CSV READ com_count_path = 'hdfs://home/spark/sample/linkedin_jobs/employee_counts.csv' com_count_schema = 'company_id STRING, employee_count INT, follower_count INT, time_recorded INT' count_df = spark.read.option("header", "true").option("multiline", "true").schema(com_count_schema).csv(com_count_path) # company_id 컬럼으로 중복 제거 후 진행 # drop_duplicate : transform 함수 company_count_df = count_df.dropDuplicates(['company_id']) # 캐시 저장 ind_df.persist() company_count_df.persist() # count : action 함수 print(ind_df.count()) print(company_count_df.count()) # filter : transform 함수 # it_df : 산업도메인이 IT Service and IT Consulting인 회사 # big_df : 직원 수가 1000명 이상인 회사 it_df = ind_df.filter(col('industry') == 'IT Services and IT Consulting') big_df = company_count_df.filter(col('employee_count') >= 1000) # join : transform 함수 it_big_df = it_df.join(big_df,'company_id','inner') # 결과 출력 it_big_df.select(['company_id','employee_count']).sort('employee_count',ascending=False).show() # 5분 대기 time.sleep(300)저는 join 작업시 중복을 제거한 직원수 dataframe이 사용되기 때문에 dropDuplicates() 메서드를 적용한 뒤 persist()를 하여 캐시에 저장하였습니다.그런데 강사님의 깃허브 코드를 확인하니, 중복을 제거한 dataframe에 persist()를 적용하지 않아서 제가 잘못 생각하고 있는 부분이 있는지 궁금합니다.

지구본 · 4개월 전 · Kafka & Spark 활용한 Realtime Datalake

투표점수

0

조회수

70

답변

2
미해결
Kafka & Spark 활용한 Realtime Datalake

ch4_3 apache zookeeper 설치파일 관련 질문

ec2-user$ curl -O https://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz복사 붙여넣기 해도 오류가 나고 QnA에 뭐 복붙을 하면 오류가 발생할 수 있다하여 직접 타이핑을 해도 오류가 납니다..대체 왜이런건가요 ...저기 링크로 직접 들어가봐도 아무것도 안떠요

지구본 · 5개월 전 · Kafka & Spark 활용한 Realtime Datalake

투표점수

0

조회수

84

답변

3
해결됨
Kafka & Spark 활용한 Realtime Datalake

질문있습니다 섹션13. Spark streaming 부분

수업 잘 따라가고있습니다 다름이 아니라선생님과달리 저는 스파크 서브밋을 하면 선생님처럼SLf4J가 아니라 다른 로그가 나옵니다그리고 선생님처럼 바로 실행되는게 아니라 약 40초에서 1분30초정도 걸려서 실행되는데 혹시 제가 빠뜨렸을법한 설정이 있을까요?우선 실행만 되면 실습을 따라가는데 큰 문제는 없습니다.

신정환 · 5개월 전 · Kafka & Spark 활용한 Realtime Datalake

투표점수

0

조회수

66

답변

2
미해결
Kafka & Spark 활용한 Realtime Datalake

ot 자료

다른 pdf는 있는데 ot 자료는 pdf가 안올라와 있네용

김예찬 · 5개월 전 · Kafka & Spark 활용한 Realtime Datalake

투표점수

0

조회수

66

답변

2
미해결
스파크 머신러닝 완벽 가이드 - Part 1

데이터 브릭스 이슈

안녕하세요. 최근 남긴 문의와 같이 현재 데이터 브릭스 커뮤니티 에디션 종료 이슈가 있어 실습을 따라갈 수가 없는 상황입니다.앞선 문의 내용에선 환불을 말씀해주셨는데 저는 이미 강의자료를 받아서 시스템적으로 환불이 불가한 상황으로 나오는데, 별도로 환불 조치를 해주실 수 있을까요?

starisk · 5개월 전 · 스파크 머신러닝 완벽 가이드 - Part 1

투표점수

0

조회수

89

답변

2
미해결
스파크 머신러닝 완벽 가이드 - Part 1

데이터 브릭스 가입

안녕하세요 현재 데이터 브릭스 커뮤니티 에디션이 막힌 것 같습니다.그리고 현재 제공되는 프리 에디션 사용의 경우 cluster 생성이 안되는 것 같습니다. 현재 강의 수강에 지장이 있어 확인 후 답변 주시면 감사하겠습니다. https://learn.microsoft.com/en-us/answers/questions/2337779/how-to-create-databricks-cluster-with-the-new-data

이정인 · 5개월 전 · 스파크 머신러닝 완벽 가이드 - Part 1

투표점수

0

조회수

83

답변

2
미해결
스파크 머신러닝 완벽 가이드 - Part 1

pyspark local 설치

안녕하십니까, 강사님.PySpark에 대한 심도 있는 강의를 준비해주셔서 감사합니다. PySpark를 공부하기 전에 한 가지 궁금한 점이 있습니다.많은 분들이 PySpark를 Databricks 플랫폼에서 실행하던데, 특별한 이유가 있을까요?로컬 환경에 패키지를 설치해 직접 실행하지 않는 이유가 궁금합니다.

임해빈 · 6개월 전 · 스파크 머신러닝 완벽 가이드 - Part 1

투표점수

0

조회수

79

답변

2
해결됨
실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

S3 폴더 구조에 따른 Static Partition Pruning, DPP 질문

안녕하세요.Static Partition Pruning이 가능한 폴더 구조에 대해서 궁금한 점이 있습니다.Hive-Style(/year=2024/data.csv) 로 폴더를 구성해야 스파크에서 메타데이터에 year를 설정하고 Static Partition Pruning, DP가 가능하다고 하는데 맞을까요?맞다면 Hive-Style의 폴더 구조가 아닌 상태의 데이터들을 대상으로도 Static Partition Pruning, DPP가 가능한지 궁금합니다.ex.) Hive-style이 아닌 폴더 구조/2024/data.csv/2025/data.csv감사합니다!

sgjeong1108 · 6개월 전 · 실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

투표점수

0

조회수

77

답변

2
해결됨
실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

broadcast Join과 boradcast + UDF 차이

안녕하세요!좋은 강의 잘 듣고 있습니다!강의를 듣던 중 궁금한게 생겨서 질문 남깁니다UDF + broadcast 대신에 아래 방법으로 lookup테이블을 활용해서BROADCAST JOIN한다면 스파크 내부적으로 다르게 동작하는지,다르게 동작한다면 어떤 상황에서 각각 이점이 있는지 궁금합니다lookup_df = spark.createDataFrame( [(k, v) for k, v in meta.items()], ["occupation_id", "occupation_name"] ) df_result = interviewer_count.join( broadcast(lookup_df), on="occupation_id", how="left" )감사합니다.

sgjeong1108 · 6개월 전 · 실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

투표점수

0

조회수

62

답변

2

인기 태그

주간 인기글