선생님 질문 드립니다...!

Question

안녕하세요 강의 정말 잘 듣고 있습니다. 궁금한게 생겨서 질문 드립니다.  1번. PCA 할 때 타겟 변수 포함 여부 380페이지에서 아래와 같은 내용이 있는데  from sklearn.preprocessing import StandardScaler iris_scaled = StandardScaler().fit_transform(irisDF)    from sklearn.decomposition import PCA pca = PCA(n_components=2) pca.fit(iris_scaled) iris_pca = pca.transform(iris_scaled)  여기서는 예시를 보여주시려고 target도 포함 하신 건가요? 타겟을 빼면 [0.88 0.88 0.88] 이렇게 나옵니다...!  실무에서 적용할 때도 일반적으로 target데이터를 포함하는 건가요?    2번. 책에는 서포트벡터머신이 없지만...트리기반 모델과 차이가 무엇인지 궁금합니다. 트리기반 모델을 설명해주셔서 사용하려고 하는데 왜 SVM같은 모델을 쓰지 않느냐고 질문을 받으면....  트리는 이해하기 쉽고 설명하기 좋다 라는 것 말고 어떤 차이나 장단점이 있는지 궁금합니다....!   3번. train_test_split과 cross_val_score 사용 기준이 궁금합니다. 이전에 다른께 답변 달아주신 내용을 보고 아래와 같이 이해하고 있는데 실무에서 저렇게 사용하는게 맞는지 궁금합니다...!  1. 전체 데이터를 train과 test로 나누고 2. train에 cross_val_score를 적용 3. 최종적으로 test로 확인한다  감사합니다!

Answer

안녕하십니까,

1. 책의 초판에 실려있는 내용 같습니다. 개정판에는 target 값을 빼고 적용되어 있습니다. 강의 내용도 그렇게 되어 있습니다.

2. svm 역시 매우 뛰어난 모델입니다. 사실 xgboost나 lightgbm 이전에는 svm을 가장 뛰어난 모델로 여겼던 적이 있습니다. 다만 xgboost, lightgbm이 일반적으로 조금 더 성능이 뛰어나고, 피처들의 scaling작업의 영향을 상대적으로 덜 받기 때문에 현재는 tree 기반인 xgboost, lightgbm을 많이 활용합니다.

3. 네 적어 주신대로 train과 test를 일반적으로 나누어서 적용합니다.

감사합니다.

작성자 없음

선생님 질문 드립니다...!

이 글과 비슷한 Q&A

3. 메뉴 중 가격이 가장 비싼 순으로 정렬해 상위 3개 값을 구하시오

3회 기출문제 작업형 2 인코딩

핸드폰으로는 못보나요?

LightGBM의 min_child_samples 와 min_child_weight