inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

스파크 머신러닝 완벽 가이드 - Part 1

for loop를 이용한 createDataFrame 질문 드려요

269

뀨구기

작성한 질문수 27

0

안녕하세요 회사에서 pyspark 를 활용 중에 도움 받고 싶어 문의드립니다.

현재는 엑셀로 export 받은 파일을 dataframe으로 만들어서 활용중인데

pdf 를 sdf로 바꾸는 작업을 하나씩 하려니 파일이 추가될때마다 대응이 불편해서

for loop 를 활용하고 싶습니다.

 

예를들어 파일들이 a_pdf, b_pdf, c_pdf 로 filename_pdf 에 리스트 형태로 들어있을 때

(각 변수는 현재 pandas dataframe 입니다.)

 

for name in filename_pdf:

filename_pdf = name

filename_sdf = name[0:10] + '_sdf'

filename_sdf = spark.createDataFrame(filename_pdf)

filename_sdf.createOrReplaceTempView(filename_sdf)

 (위와 같이 실행하면 TypeError : Can not infer schema for type: <class 'str'> 오류 발생)

 

상기와 같이 pdf -> sdf -> Tempview 형태까지 자동화 하는 것이 목표입니다.

 

강의와는 무관하지만 spark 관련 문의드릴 곳이 여기밖에 없네요 ㅠ 도움 부탁드립니다.

bigdata 머신러닝 배워볼래요? apache-spark 데이터 엔지니어링

답변 1

0

권 철민

안녕하십니까,

적어 주신 내용으로 만으로는 오류 코드를 잡기가 어렵습니다.

전체 코드를 올려주시거나 그게 어려우면 전반적인 코드를 올려주시고,

적어주신 코드중에서 어느 라인에서 해당 오류가 발생하는지 다시한번 기재해 주셨으면 합니다.

강사님 안녕하세요 ㅎdatabricks환경에 대한 설

0

63

3

데이터 브릭스 이슈

0

111

2

데이터 브릭스 가입

0

98

2

pyspark local 설치

0

101

2

community edition 가입 문의

0

112

2

데이터 로드 및 로딩 된 파일 데이터 목록 조회 방

0

171

2

클러스터 버전 설정

0

136

3

instacart market basket analysis

0

188

3

spark 추가 학습 관련 질문

0

235

2

MLOps 관련 MLFLow 및 Databricks 모델 서빙

0

402

1

train파일 업로드 중에 해당 경로가 없다고 뜹니다

0

376

2

강의가 재생되지 않음

0

266

2

후속 강의 계획 질문드립니다.

0

374

1

spark_xgboost_lightgbm 강의부분 관련

0

476

1

spark환경에서 데이터 수정에 관하여 질문이 있습니다.

1

327

1

Spark를 이용하여 binary file -> parquet, csv 변환 가능여부

0

573

1

SPARK 2 강의 오픈

0

499

1

Spark ML 모델 서빙

0

571

1

mac os ) zip 파일 dataframe 오류

0

674

1

ModuleNotFoundError : No module named 'mmlspark' - 20230218

0

631

1

TrainValidationSplit과 randomSplit 사용 질문

0

403

1

현업에서는 scala-spark를 사용하나요? py-spark를 사용하나요?

0

519

1

cluster 생성 Database runtime version 질문

0

277

1

Pandas vs Spark: 비용, 처리시간 비교

0

1240

1