크기가 큰 파일 업로드
239
작성한 질문수 1
5gb 정도 되는 파일을 DBFS에 업로드를 하려고하는데,
파일이 크다는 이유로 에러가 나면서 올라가질 않습니다..
혹시 다른 해결방법이나, 해결하기 위하여 검색할 수 있는 키워드가 있을까요??
답변 1
0
안녕하십니까,
community edition이 전 세계 사람들이 사용하다 보니까 용량 제한이 있습니다.
제가 테스트는 안해봤는데, 5g를 쪼개서 2.5g씩 올려 보시면 어떨까 싶습니다.
그리고 나중에 2.5g 씩 쪼개진 파일을 각각 DataFrame으로 만든 뒤 unionAll로 합치는것을 테스트 해보면 어떨까 싶습니다.
df1 = spark.read.csv('첫번째 파일')
df2 = spark.read.csv('두번째 파일')
-- unionAll로 합치기
df = df1.unionAll(df2)
감사합니다.
강사님 안녕하세요 ㅎdatabricks환경에 대한 설
0
63
3
데이터 브릭스 이슈
0
111
2
데이터 브릭스 가입
0
98
2
pyspark local 설치
0
101
2
community edition 가입 문의
0
112
2
데이터 로드 및 로딩 된 파일 데이터 목록 조회 방
0
171
2
클러스터 버전 설정
0
136
3
instacart market basket analysis
0
188
3
spark 추가 학습 관련 질문
0
235
2
MLOps 관련 MLFLow 및 Databricks 모델 서빙
0
403
1
train파일 업로드 중에 해당 경로가 없다고 뜹니다
0
376
2
강의가 재생되지 않음
0
266
2
후속 강의 계획 질문드립니다.
0
374
1
spark_xgboost_lightgbm 강의부분 관련
0
476
1
spark환경에서 데이터 수정에 관하여 질문이 있습니다.
1
327
1
Spark를 이용하여 binary file -> parquet, csv 변환 가능여부
0
573
1
SPARK 2 강의 오픈
0
499
1
Spark ML 모델 서빙
0
571
1
mac os ) zip 파일 dataframe 오류
0
674
1
ModuleNotFoundError : No module named 'mmlspark' - 20230218
0
631
1
TrainValidationSplit과 randomSplit 사용 질문
0
403
1
현업에서는 scala-spark를 사용하나요? py-spark를 사용하나요?
0
519
1
cluster 생성 Database runtime version 질문
0
277
1
Pandas vs Spark: 비용, 처리시간 비교
0
1241
1





