inflearn logo
강의

Khóa học

Chia sẻ kiến thức

[Bản sửa đổi] Hướng dẫn hoàn hảo về máy học Python

Hiểu về đóng bao và rừng ngẫu nhiên

Target값 비율이 다를 경우 랜덤포레스트 사용 가능여부

368

1soy361702

12 câu hỏi đã được viết

0

안녕하세요 선생님, 수업 매우 잘 듣고 있습니다.

다름이 아니라, 해당 내용을 배우며 다른 데이터에 적용하는 과정에서 궁금한 점이 생겼어요.

랜덤포레스트를 활용하고 싶은데, 만약 Target값이 0과1과 2라고 가정하겠습니다. 이때, 0,1,2의 개수 비율이 5 : 2.5 : 2.5이면, y_train의 비율도 대략 5 : 2.5 : 2.5정도로 나오더라고요.

그런데 문득, '이렇게 Target값의 비율이 조금 다른 경우에도 랜덤포레스트를 그대로 적용할 수 있는가'에 대한 궁금증이 생겨서요. 이럴 경우 다른 조치를 취하지 않고, 강의대로 모델을 그대로 적용해도 성능에는 이상이 없을까요? 답변 기다리겠습니다, 감사합니다.

통계 머신러닝 배워볼래요? python

Câu trả lời 3

1

dooleyz3525

안녕하십니까,

큰 문제 없이 적용 가능합니다. 5:2.5:2.5 정도면 target 값의 비율이 그렇게 큰 차이가 나는 것은 아닙니다. 그리고 Random Forest역시 매우 훌륭한 알고리즘이며 이 정도 차이는 큰 성능상이 영향이 없을 것입니다.

감사합니다.

0

dooleyz3525

추가적으로 Upsampling/Downsampling을 고려해 볼수 있습니다.

자세한 내용은 4장 마지막의 Credit card 사기 검출 예제에서 말씀 드릴 것입니다. 해당 부분을 참조해 주시면 됩니다.

감사합니다.

0

1soy361702

선생님 감사합니다, 많은 도움이 되었습니다 ^^ 덕분에 랜덤포레스트를 더 잘 이해할 수 있게 됐어요.

괜찮으시다면, 한 가지 추가 질문을 해도 될까요?

만약 이 정도 차이가 아닌 '샘플 간 큰 비율 차이'가 날 경우에는, 추가로 고려해보아야 할 방법론 및 절차가 있는지 여쭤보고 싶습니다.

그럼 남은 주말도 잘 보내세요, 감사합니다.

모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.

0

29

2

안녕하세요 열심히 수강중인 학생입니다

0

71

2

정수 인덱싱

0

74

2

넘파이 오류

0

90

2

11강 numpy의 axis 축 질문 드립니다.

0

90

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

82

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

71

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

78

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

65

2

5강 강의 오류가 있어요.

0

86

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

74

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

70

3

파이썬 다운그레이 후 사이킷런 재설치

0

122

2

좋은 강의 감사합니다.

0

76

2

scoring 함수 음수값

0

68

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

104

2

분류 평가 정확도 예측

0

82

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

100

1

카카오톡 채널 있나요

0

111

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

191

2

pca 스케일링 관련하여 질문드립니다.

0

103

2

주피터 대신 구글 코랩

0

176

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

149

2

실루엣 스코어..

0

88

2