inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

스파크 머신러닝 완벽 가이드 - Part 1

Spark DataFrame의 head()와 limit() 이해하기

크기가 큰 파일 업로드

239

han

작성한 질문수 1

0

5gb 정도 되는 파일을 DBFS에 업로드를 하려고하는데,

파일이 크다는 이유로 에러가 나면서 올라가질 않습니다..

혹시 다른 해결방법이나, 해결하기 위하여 검색할 수 있는 키워드가 있을까요??

머신러닝 배워볼래요? bigdata 데이터 엔지니어링 apache-spark

답변 1

0

권 철민

안녕하십니까,

community edition이 전 세계 사람들이 사용하다 보니까 용량 제한이 있습니다.

제가 테스트는 안해봤는데, 5g를 쪼개서 2.5g씩 올려 보시면 어떨까 싶습니다.

그리고 나중에 2.5g 씩 쪼개진 파일을 각각 DataFrame으로 만든 뒤 unionAll로 합치는것을 테스트 해보면 어떨까 싶습니다.

df1 = spark.read.csv('첫번째 파일')

df2 = spark.read.csv('두번째 파일')

-- unionAll로 합치기

df = df1.unionAll(df2)

 

감사합니다.

0

han

넵 감사합니다!!

0

han

말씀해주신대로 파일을 쪼개서 parquet파일로 용량을 낮추고 진행을 하니 성공했습니다! 감사합니다!

0

권 철민

오 대단하군요. 이걸 해내시다니

저도 좋은 정보 얻었습니다

강사님 안녕하세요 ㅎdatabricks환경에 대한 설

0

63

3

데이터 브릭스 이슈

0

111

2

데이터 브릭스 가입

0

98

2

pyspark local 설치

0

101

2

community edition 가입 문의

0

112

2

데이터 로드 및 로딩 된 파일 데이터 목록 조회 방

0

171

2

클러스터 버전 설정

0

136

3

instacart market basket analysis

0

188

3

spark 추가 학습 관련 질문

0

235

2

MLOps 관련 MLFLow 및 Databricks 모델 서빙

0

403

1

train파일 업로드 중에 해당 경로가 없다고 뜹니다

0

376

2

강의가 재생되지 않음

0

266

2

후속 강의 계획 질문드립니다.

0

374

1

spark_xgboost_lightgbm 강의부분 관련

0

476

1

spark환경에서 데이터 수정에 관하여 질문이 있습니다.

1

327

1

Spark를 이용하여 binary file -> parquet, csv 변환 가능여부

0

573

1

SPARK 2 강의 오픈

0

499

1

Spark ML 모델 서빙

0

571

1

mac os ) zip 파일 dataframe 오류

0

674

1

ModuleNotFoundError : No module named 'mmlspark' - 20230218

0

631

1

TrainValidationSplit과 randomSplit 사용 질문

0

403

1

현업에서는 scala-spark를 사용하나요? py-spark를 사용하나요?

0

519

1

cluster 생성 Database runtime version 질문

0

277

1

Pandas vs Spark: 비용, 처리시간 비교

0

1241

1