pandas로 dbfs에 있는 file 읽기 ( Standard Edition이상)

2022-06-11T06:42:13.028Z

223

orajason

SparkAPI는 DBFS ( Cluster 전반에 걸쳐 Mount되있는 )파일을 읽을수있는 반면에 Pandas 는 Local file system에 있는 File만 읽을수가 있습니다.

/FileStore는 DBFS에 mount되어 있는 영역이지만 Cluster의 Local File system에도 Mount가 되기때문에 Pandas로 읽으려면 /dbfs/FileStore/....로 입력을 해줘야 합니다.

pandas_df=pd.read_csv('/dbfs/FileStore/tables/titanic_train.csv', header='infer')

단 Community Edition에서 spin up되는 Cluster들은 Spot 인스턴스라 /dbfs 영역에 접근하는 권한이 없어서 위 방법으로은 읽을수가 없고요 Standard Edition 이상에서만 가능한 방법입니다.

답변 1

권 철민

2022-06-11T11:48:23.655Z

오, 훌륭한 추가 내용 감사합니다.