inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크

Streaming(스트리밍) 소개

스트리밍 window 관련 질문드립니다.

368

뎁꼼

작성한 질문수 27

1

spark streaming을 설명하시면서 광고로그를 join? 하는걸 예시로 들어주셨는데요, 노출이랑 클릭이랑 interval이 10분~30분 정도가 아니라 7일 이렇게 되는 경우에도 spark streaming으로 처리가 가능한가요?? 궁금합니다.

머신러닝 빅데이터 apache-spark

답변 1

0

미쿡엔지니어

안녕하세요 뎁꼼님,

대부분의 경우 스트리밍은 리얼타임을 다루기 위해서 사용하지 일주일 간격의 lookback을 사용하지 않습니다. 그 경우에서 저장하시는 곳(e.g. S3, HDFS or GCS)등에서 오프라인으로 처리하시길 추천 드립니다.

도움이 되셨으면 좋겠네요.

databricks에 cluster 메뉴가 없습니다.

0

47

2

주피터 사용 및 도커 설치

0

92

2

S3 폴더 구조에 따른 Static Partition Pruning, DPP 질문

0

77

2

broadcast Join과 boradcast + UDF 차이

0

62

2

append 모드 사용 시 집계

0

66

2

CDC 기반 스파크 아키텍처 구현 방법이 궁금합니다.

0

108

2

BroadCast 지원 가능 메모리 문의

0

89

2

rdd, dataframe, spark sql 각각 언제 사용할까요?

0

187

2

강의 후반부에 나온 실습 코드는 어디서 받을 수 있나요?

0

198

3

cdc 기반의 스트리밍 데이터 처리

1

230

2

broadcast 코드 예시 관련 질문

0

128

2

재생에 문제가 생겼어요 라는 메세지가 자꾸 뜨네요

0

115

1

스트리밍 예제 실행 시 py4j.protocol.Py4JNetworkError 발생

0

214

2

Repartition과 Coalesce에 대해 궁금한 점이 있어요!

1

166

1

pyspark 현업에서 로컬 개발 및 운영

1

337

1

Spark Structured Streaming Gracefully shutdown 질문

1

447

2

PySpark Runtime Architecture 내용 중 질문이 있습니다!

1

213

1

docker 설치 이후에 터미널 여는 부분에서 막혔습니다

1

458

2

app-<timestamp>-<executor_id> 폴더가 spark-events 내부에 생기게 하고 싶습니다.

1

275

1

pyspark.SparkContext 실행 오류 관련 질문

2

378

1

스파크 아키텍쳐 관련 문의 드립니다.

1

353

2

3.0에서 추가된 shuffle_hash, shuffle_replicate_nl hint는 어떤 상황에서 쓰는게 좋을까요?

1

320

1

데이터 엔지니터의 현 트렌드가 궁금합니다

1

472

1

스칼라강의도 제작하신다고 하셨는데 계획하고 계실까요??

1

296

2