데이터 분류과정에서 코드 질문

Question

X_train, X_test,y_train, y_test= train_test_split(iris_data.data, iris_data.target, test_size=0.3, random_state=121) 를 이용해서 데이터를 분류하는데 이때 X_test, X_train이 학습용 피쳐값인지 테스트용 피쳐값인지 구분을 하는 메커니즘이 뭘까요? 위치로 구분을 하는 것인가요??

Answer

안녕하십니까,

네 맞습니다. 위치로 구분을 합니다.

train_test_split() 호출 시 반환이 tuple 형태로 되는데, 첫번째 위치의 값이 학습 feature 데이터, 두번째 위치의 값이 테스트 feature 데이터, 세번째 위치의 값이 학습 타겟 데이터, 마지막 위치의 값이 테스트 타겟 데이터 입니다.

감사합니다.

김도형

데이터 분류과정에서 코드 질문

이 글과 비슷한 Q&A

bfs 시간복잡도 관련 질문입니다!

현업에서 detection 시 데이터셋의 수가 어느정도 되야하나요?

Redis 연결중 import

3-4 수치형 - 민맥스 스케일링