인프런 영문 브랜드 로고
인프런 영문 브랜드 로고

Inflearn Community Q&A

뀨구기's profile image
뀨구기

asked

The Complete Guide to Spark Machine Learning - Part 1

for loop를 이용한 createDataFrame 질문 드려요

Written on

·

217

0

안녕하세요 회사에서 pyspark 를 활용 중에 도움 받고 싶어 문의드립니다.

현재는 엑셀로 export 받은 파일을 dataframe으로 만들어서 활용중인데

pdf 를 sdf로 바꾸는 작업을 하나씩 하려니 파일이 추가될때마다 대응이 불편해서

for loop 를 활용하고 싶습니다.

 

예를들어 파일들이 a_pdf, b_pdf, c_pdf 로 filename_pdf 에 리스트 형태로 들어있을 때

(각 변수는 현재 pandas dataframe 입니다.)

 

for name in filename_pdf:

filename_pdf = name

filename_sdf = name[0:10] + '_sdf'

filename_sdf = spark.createDataFrame(filename_pdf)

filename_sdf.createOrReplaceTempView(filename_sdf)

 (위와 같이 실행하면 TypeError : Can not infer schema for type: <class 'str'> 오류 발생)

 

상기와 같이 pdf -> sdf -> Tempview 형태까지 자동화 하는 것이 목표입니다.

 

강의와는 무관하지만 spark 관련 문의드릴 곳이 여기밖에 없네요 ㅠ 도움 부탁드립니다.

bigdata머신러닝 배워볼래요? apache-spark데이터 엔지니어링

Answer 1

0

권 철민님의 프로필 이미지
권 철민
Instructor

안녕하십니까,

적어 주신 내용으로 만으로는 오류 코드를 잡기가 어렵습니다.

전체 코드를 올려주시거나 그게 어려우면 전반적인 코드를 올려주시고,

적어주신 코드중에서 어느 라인에서 해당 오류가 발생하는지 다시한번 기재해 주셨으면 합니다.

뀨구기's profile image
뀨구기

asked

Ask a question