SparkAPI는 DBFS ( Cluster 전반에 걸쳐 Mount되있는 )파일을 읽을수있는 반면에 Pandas 는 Local file system에 있는 File만 읽을수가 있습니다.
/FileStore는 DBFS에 mount되어 있는 영역이지만 Cluster의 Local File system에도 Mount가 되기때문에 Pandas로 읽으려면 /dbfs/FileStore/....로 입력을 해줘야 합니다.
pandas_df=pd.read_csv('/dbfs/FileStore/tables/titanic_train.csv', header='infer')
단 Community Edition에서 spin up되는 Cluster들은 Spot 인스턴스라 /dbfs 영역에 접근하는 권한이 없어서 위 방법으로은 읽을수가 없고요 Standard Edition 이상에서만 가능한 방법입니다.
오, 훌륭한 추가 내용 감사합니다.
답글