• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 엔지니어링

  • 해결 여부

    미해결

for loop를 이용한 createDataFrame 질문 드려요

22.10.24 21:50 작성 조회수 147

0

안녕하세요 회사에서 pyspark 를 활용 중에 도움 받고 싶어 문의드립니다.

현재는 엑셀로 export 받은 파일을 dataframe으로 만들어서 활용중인데

pdf 를 sdf로 바꾸는 작업을 하나씩 하려니 파일이 추가될때마다 대응이 불편해서

for loop 를 활용하고 싶습니다.

 

예를들어 파일들이 a_pdf, b_pdf, c_pdf 로 filename_pdf 에 리스트 형태로 들어있을 때

(각 변수는 현재 pandas dataframe 입니다.)

 

for name in filename_pdf:

filename_pdf = name

filename_sdf = name[0:10] + '_sdf'

filename_sdf = spark.createDataFrame(filename_pdf)

filename_sdf.createOrReplaceTempView(filename_sdf)

 (위와 같이 실행하면 TypeError : Can not infer schema for type: <class 'str'> 오류 발생)

 

상기와 같이 pdf -> sdf -> Tempview 형태까지 자동화 하는 것이 목표입니다.

 

강의와는 무관하지만 spark 관련 문의드릴 곳이 여기밖에 없네요 ㅠ 도움 부탁드립니다.

답변 1

답변을 작성해보세요.

0

안녕하십니까,

적어 주신 내용으로 만으로는 오류 코드를 잡기가 어렵습니다.

전체 코드를 올려주시거나 그게 어려우면 전반적인 코드를 올려주시고,

적어주신 코드중에서 어느 라인에서 해당 오류가 발생하는지 다시한번 기재해 주셨으면 합니다.