인프런 영문 브랜드 로고
인프런 영문 브랜드 로고

인프런 커뮤니티 질문&답변

han님의 프로필 이미지
han

작성한 질문수

스파크 머신러닝 완벽 가이드 - Part 1

csv파일을 로드하여 Spark DataFrame 생성하기 및 head()와 limit() 이해하기

크기가 큰 파일 업로드

작성

·

202

0

5gb 정도 되는 파일을 DBFS에 업로드를 하려고하는데,

파일이 크다는 이유로 에러가 나면서 올라가질 않습니다..

혹시 다른 해결방법이나, 해결하기 위하여 검색할 수 있는 키워드가 있을까요??

답변 1

0

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까,

community edition이 전 세계 사람들이 사용하다 보니까 용량 제한이 있습니다.

제가 테스트는 안해봤는데, 5g를 쪼개서 2.5g씩 올려 보시면 어떨까 싶습니다.

그리고 나중에 2.5g 씩 쪼개진 파일을 각각 DataFrame으로 만든 뒤 unionAll로 합치는것을 테스트 해보면 어떨까 싶습니다.

df1 = spark.read.csv('첫번째 파일')

df2 = spark.read.csv('두번째 파일')

-- unionAll로 합치기

df = df1.unionAll(df2)

 

감사합니다.

han님의 프로필 이미지
han
질문자

넵 감사합니다!!

han님의 프로필 이미지
han
질문자

말씀해주신대로 파일을 쪼개서 parquet파일로 용량을 낮추고 진행을 하니 성공했습니다! 감사합니다!

권 철민님의 프로필 이미지
권 철민
지식공유자

오 대단하군요. 이걸 해내시다니

저도 좋은 정보 얻었습니다

han님의 프로필 이미지
han

작성한 질문수

질문하기