inflearn logo
강의

Course

Instructor

Spark Machine Learning Complete Guide - Part 1

Spark를 이용하여 binary file -> parquet, csv 변환 가능여부

560

seongpilyang4591

1 asked

0

안녕하세요.

mssql에서 벌크 백업한 binary 파일을 spark를 이용하여 parquet, csv 등 파일 변환이 가능한지.. 질문 드립니다.

 

감사합니다.

머신러닝 빅데이터 apache-spark 데이터-엔지니어링

Answer 1

1

dooleyz3525

안녕하십니까,

mssql bulk 백업이 mssql datafile 백업 또는 별도의 mssql 유틸리티로만 인식될 수 있는 파일 형태라면 spark로 바로 로딩할 수는 없습니다.

mssql에서 개별 테이블 들을 csv나 (가능하다면) 특정 application을 사용해서 parquet으로 만들어 주신 다음에 이걸 spark로 로딩 하셔야 할 것 같습니다.

감사합니다.

0

seongpilyang4591

답변 감사드립니다.

mssql 엔진이 있어야 spark로 연결하여 직접 로딩 가능하다는 말씀이신거죠 ~?

그렇다면 , csv 파일을 가져올 수 있다는 가정하에 spark에서 parquet 으로 만드는건 가능하다는 건가요 ?

1

dooleyz3525

네, 맞습니다.

Spark에서 mssql 데이터파일을 인지할 수 있는 엔진이 필요한데, 이게 없기 때문에 불가능할 겁니다.

그리고 csv 파일을 spark에서 읽어서 다시 parquet 파일로 만드시면 가능합니다.

spark = SparkSession .builder .appName("How to read CSV file to Parquet") .getOrCreate()

# read csv

data_df = spark.read.option("inferSchema", "true").option("header", "true").csv('csv input_path')

# write parquet

data_df.write.format("parquet").mode("overwrite").save('parquet output_path')

데이터 브릭스 이슈

0

89

2

데이터 브릭스 가입

0

83

2

pyspark local 설치

0

79

2

community edition 가입 문의

0

88

2

데이터 로드 및 로딩 된 파일 데이터 목록 조회 방

0

159

2

클러스터 버전 설정

0

122

3

instacart market basket analysis

0

169

3

spark 추가 학습 관련 질문

0

221

2

MLOps 관련 MLFLow 및 Databricks 모델 서빙

0

374

1

train파일 업로드 중에 해당 경로가 없다고 뜹니다

0

366

2

강의가 재생되지 않음

0

257

2

후속 강의 계획 질문드립니다.

0

364

1

spark_xgboost_lightgbm 강의부분 관련

0

463

1

spark환경에서 데이터 수정에 관하여 질문이 있습니다.

1

312

1

SPARK 2 강의 오픈

0

490

1

Spark ML 모델 서빙

0

559

1

mac os ) zip 파일 dataframe 오류

0

659

1

ModuleNotFoundError : No module named 'mmlspark' - 20230218

0

616

1

TrainValidationSplit과 randomSplit 사용 질문

0

393

1

현업에서는 scala-spark를 사용하나요? py-spark를 사용하나요?

0

509

1

cluster 생성 Database runtime version 질문

0

268

1

Pandas vs Spark: 비용, 처리시간 비교

0

1227

1

sparkdl library 설치 관련 질문

0

386

1

선생님 실습환경 질문드립니다.

0

255

1