for loop를 이용한 createDataFrame 질문 드려요
269
작성한 질문수 27
안녕하세요 회사에서 pyspark 를 활용 중에 도움 받고 싶어 문의드립니다.
현재는 엑셀로 export 받은 파일을 dataframe으로 만들어서 활용중인데
pdf 를 sdf로 바꾸는 작업을 하나씩 하려니 파일이 추가될때마다 대응이 불편해서
for loop 를 활용하고 싶습니다.
예를들어 파일들이 a_pdf, b_pdf, c_pdf 로 filename_pdf 에 리스트 형태로 들어있을 때
(각 변수는 현재 pandas dataframe 입니다.)
for name in filename_pdf:
filename_pdf = name
filename_sdf = name[0:10] + '_sdf'
filename_sdf = spark.createDataFrame(filename_pdf)
filename_sdf.createOrReplaceTempView(filename_sdf)
(위와 같이 실행하면 TypeError : Can not infer schema for type: <class 'str'> 오류 발생)
상기와 같이 pdf -> sdf -> Tempview 형태까지 자동화 하는 것이 목표입니다.
강의와는 무관하지만 spark 관련 문의드릴 곳이 여기밖에 없네요 ㅠ 도움 부탁드립니다.
답변 1
0
안녕하십니까,
적어 주신 내용으로 만으로는 오류 코드를 잡기가 어렵습니다.
전체 코드를 올려주시거나 그게 어려우면 전반적인 코드를 올려주시고,
적어주신 코드중에서 어느 라인에서 해당 오류가 발생하는지 다시한번 기재해 주셨으면 합니다.
강사님 안녕하세요 ㅎdatabricks환경에 대한 설
0
63
3
데이터 브릭스 이슈
0
111
2
데이터 브릭스 가입
0
98
2
pyspark local 설치
0
101
2
community edition 가입 문의
0
112
2
데이터 로드 및 로딩 된 파일 데이터 목록 조회 방
0
171
2
클러스터 버전 설정
0
136
3
instacart market basket analysis
0
188
3
spark 추가 학습 관련 질문
0
235
2
MLOps 관련 MLFLow 및 Databricks 모델 서빙
0
402
1
train파일 업로드 중에 해당 경로가 없다고 뜹니다
0
376
2
강의가 재생되지 않음
0
266
2
후속 강의 계획 질문드립니다.
0
374
1
spark_xgboost_lightgbm 강의부분 관련
0
476
1
spark환경에서 데이터 수정에 관하여 질문이 있습니다.
1
327
1
Spark를 이용하여 binary file -> parquet, csv 변환 가능여부
0
573
1
SPARK 2 강의 오픈
0
499
1
Spark ML 모델 서빙
0
571
1
mac os ) zip 파일 dataframe 오류
0
674
1
ModuleNotFoundError : No module named 'mmlspark' - 20230218
0
631
1
TrainValidationSplit과 randomSplit 사용 질문
0
403
1
현업에서는 scala-spark를 사용하나요? py-spark를 사용하나요?
0
519
1
cluster 생성 Database runtime version 질문
0
277
1
Pandas vs Spark: 비용, 처리시간 비교
0
1240
1





