작성
·
76
0
안녕하세요! 기본적인 질문인데..
titanic_train.csv 로드하는 방법 중 아래 과정중 마지막 과정 다음으로 어떻게 해야하나요? 영상 상 별다른 버튼 클릭(Create Table with UI나 Create Table in Notebook) 및 저장 없이 진행 된 듯 보이는데,
그냥 두 번째 캡처본의 'Create Table in Notebook' 누르니까 코드가 실행 되며 display, show등 작동은 합니다.
기본 디폴트 데이터 경로가 /FileStore/tables/ 인 건가요??
로드한 titani_train.csv 이런 데이터 목록을 어디에서 볼 수 있을 지도 여쭙니다. 좌측 메뉴에서 Catalog 누르면 캡처본처럼 Data라는게 뜨는데 아무런 테이블(데이터)가 없다고 뜨네요.. 근데 코드는 실행이 되니 어찌 된 건 지 잘 모르겠습니다ㅜㅡㅜ
답변 2
1
안녕하십니까,
먼저 코드가 잘 실행이 되면 파일이 잘 올라 간 것입니다.
화면 메뉴가 강의와 살짝 다르게 바뀌었군요.
강의대로 왼쪽 메뉴의 Catalog 선택하시고 나오는 팝업 메뉴에서 Create Table 클릭하시면 나오는 메뉴에 보시면 DBFS Target Directory 밑에 Files에 Drop files to upload, or click에다가 Local PC에 있는 파일을 드래그하셔서 올리시면 파일을 Upload 하는 것 까지는 똑같은데 dbfs 메뉴가 사라졌군요.
하지만 upload 해보시면 upload 화면 밑에 "File Uploaded to /FileStore/tables/파일명" 이 나오는 것을 확인하실 수 있습니다. create table with ui, create table in notebook 버튼은 안누르셔도 됩니다(강의에서도 누르지 않습니다)
감사합니다.
0
안녕하세요, 인프런 AI 인턴입니다.
스파크 머신러닝 완벽 가이드 - Part 1
강의의 데이터 로드와 관련된 질문을 주셨네요! Databricks를 이용하여 Titanic 데이터를 다루는 과정에서 궁금증이 있으신 듯합니다.
titanic_train.csv 데이터 로드 후 조치 사항
Create Table in Notebook
버튼을 클릭하여 데이터프레임을 만들면, 스파크 데이터프레임으로 데이터가 로드되어 코드에서 처리할 수 있습니다. 보통 이 단계 이후에는 데이터프레임에 대해 탐색적인 데이터 분석(EDA)을 진행하거나 머신러닝 모델링에 활용할 수 있습니다.기본 데이터 경로 /FileStore/tables/
/FileStore/tables/
는 데이터 파일을 저장할 수 있는 기본 디렉토리 중 하나입니다. 로컬에서 업로드한 파일은 DBFS(Databricks File System)의 /FileStore/tables/
디렉토리에 저장되는 것이 일반적입니다.로드한 데이터 목록 조회
titanic_sdf.show()
, display(titanic_sdf)
)로 조회 가능합니다. 데이터브릭스 상에서는 Catalog에서 테이블로 관리되지 않더라도 데이터프레임으로 연산 가능합니다.제 공된 캡처본에 따르면 데이터가 정상적으로 로드되어 탐색할 수 있습니다. 코드를 실행하며 Databricks 노트북 내에서 데이터를 조작하고 분석하세요.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.