inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

스파크 머신러닝 완벽 가이드 - Part 1

Spark 아키텍처와 RDD 개요

RDD나 DataFrame에 분산저장 질문드립니다.

203

지승영

작성한 질문수 1

0

data를 저장할 때, 분산시켜서 저장시킨다고 하셨는데, 왜 분산시켜서 저장하는 것인지 궁금합니다.

 

구체적 질문사항.

  1. a라는 데이터를 5곳에 1/5 씩 분산시켜서 저장한다면, a가 어떤 단위인지 궁금합니다. 예를 들어 row가 100인 data를 20개 씩 저장하는 것인지? 아니면 서로다른 종류의 data file이 10가지(파산관련 데이터파일, 날씨예보 데이터, 주가 데이터 등등 10가지 종류)가 있어서, 2가지씩 나눠서 저장하는 것인지 궁금합니다.

2. 분산시켜서 데이터를 저장하면, 이점이 무엇인지 궁금합니다.

 

감사합니다.

머신러닝 배워볼래요? bigdata 데이터 엔지니어링 apache-spark

답변 1

1

권 철민

안녕하십니까, 

빅데이터 처리의 핵심은 분산 데이터 처리 입니다. 그리고 Spark은 오픈 소스 기반의 빅데이터 분산 처리의 대표 시스템입니다. 

매우 큰 대량 데이터를 한번에 처리해야 할 경우  분산해서 처리하는 것이 단일 처리보다 높은 Throughput으로 더 빠르게 처리할 수 있습니다.  물론 단일 건으로 처리해야 한다면 분산 처리보다 단일 처리가 더 좋습니다(예를 들어 웹기반의 사용자 단건 데이터 처리)

대량 데이터 10TB에서 부서별 매출을 뽑아내야 한다면 한대의 서버에서 10TB를 처리하는 것 보다 10대의 서버에서 1TB씩 가공을 해서 처리하는 것이 더 빠를 수 있습니다. 물론 10대의 서버에서 데이터를 나중에 취합하는 부담은 있지만 일반적으로 분산 시스템은 중첩된 데이터 처리를 최소화 할 수 있는 다양한 기능을 갖추고 있습니다. 

  1. a라는 데이터를 5곳에 1/5 씩 분산시켜서 저장한다면, a가 어떤 단위인지 궁금합니다. 예를 들어 row가 100인 data를 20개 씩 저장하는 것인지? 아니면 서로다른 종류의 data file이 10가지(파산관련 데이터파일, 날씨예보 데이터, 주가 데이터 등등 10가지 종류)가 있어서, 2가지씩 나눠서 저장하는 것인지 궁금합니다.

=> 분산 기준은 사용자가 정하기 나름입니다. spark은 파티션 단위로 데이터를 분산합니다. 그리고 파티션 키는 사용자가 데이터를 기반으로 지정할 수 있습니다.  보통 파티션 키값에 따라 범위(range)나 해쉬값 기반으로 분산합니다. 

2. 분산시켜서 데이터를 저장하면, 이점이 무엇인지 궁금합니다.

=> 위 설명 내용 참조 부탁드립니다. 

 

감사합니다. 

 

 

0

지승영

감사합니다!

강사님 안녕하세요 ㅎdatabricks환경에 대한 설

0

63

3

데이터 브릭스 이슈

0

111

2

데이터 브릭스 가입

0

98

2

pyspark local 설치

0

101

2

community edition 가입 문의

0

113

2

데이터 로드 및 로딩 된 파일 데이터 목록 조회 방

0

171

2

클러스터 버전 설정

0

136

3

instacart market basket analysis

0

188

3

spark 추가 학습 관련 질문

0

235

2

MLOps 관련 MLFLow 및 Databricks 모델 서빙

0

404

1

train파일 업로드 중에 해당 경로가 없다고 뜹니다

0

376

2

강의가 재생되지 않음

0

266

2

후속 강의 계획 질문드립니다.

0

374

1

spark_xgboost_lightgbm 강의부분 관련

0

476

1

spark환경에서 데이터 수정에 관하여 질문이 있습니다.

1

327

1

Spark를 이용하여 binary file -> parquet, csv 변환 가능여부

0

574

1

SPARK 2 강의 오픈

0

499

1

Spark ML 모델 서빙

0

571

1

mac os ) zip 파일 dataframe 오류

0

674

1

ModuleNotFoundError : No module named 'mmlspark' - 20230218

0

631

1

TrainValidationSplit과 randomSplit 사용 질문

0

403

1

현업에서는 scala-spark를 사용하나요? py-spark를 사용하나요?

0

519

1

cluster 생성 Database runtime version 질문

0

277

1

Pandas vs Spark: 비용, 처리시간 비교

0

1241

1