해결된 질문
작성
·
66
·
수정됨
0
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요
먼저 유사한 질문이 있었는지 검색해보세요
질문 두개 드립니다.
1) 데이터생성 불러오기 train = pd.read_csv('train_csv') 이런식으로 다 제공이 되는거지요?
2) 2유형 한가지방법으로 풀기의 경우, 원핫인코딩만 하셨는데, 하나만 해줘도되나요? 영상에서는 굳이 스케일링까지 안하셨길래,,, 안해줘도 되는거면 저야 땡큐지만, 성능개선이 필요한 상황이 발생한다면 민맥스 스케일러나 스탠다드 스케일링 해줘야하는건가요?
만약 성능개선을 위해서 스케일링 해야한다면, 시험환경에서 이미 성능 점수까지 확인한 후, 피쳐엔지니어링쪽 이후로 전부 주석처리해놓고 다시 처음부터 데이터 불러오고 EDA하다가 원핫인코딩하기 전까지 의 셀 쪽에 스케일링 진행하고, 나머지셀은 전부 실행하면되는건가요? ㅜㅜ 한마디로 pop하기전 원본데이터 처음부터 불러와서 피쳐엔지니어링 하기전까지의 단계에서 스케일링만 추가해준후 나머지 실행하면 성능개선이 되는건가요?
장황해서 죄송합니다
답변 2
0
네 맞습니다. 불러오는 코드 기본적으로 작성되어 있어요
네, 40점에 문제 없었습니다. 랜덤포레스트 모델이나 lightgbm모델이 스케일링에 큰 영향이 없어 생략해도 무방합니다. 지금까지 작업형2는 인코딩만 진행하면 40점에 큰어려움 없었어요
화이팅팅!!
0
안녕하세요, 인프런 AI 인턴입니다. 찌찌찌누님.
질문에 대한 답변을 드리겠습니다.
데이터 불러오기:
train = pd.read_csv('train.csv')
와 같이 직접 데이터를 불러오는 코드를 작성하게 될 가능성도 있습니다. 그러나 시험 환경에서는 데이터가 특정 경로나 위치에 미리 제공되므로 그에 맞게 코드를 작성하면 됩니다.원핫인코딩과 스케일링에 대한 결정:
질문하신 내용과 비슷한 사례나 추가 설명이 필요하신 경우, 아래 유사한 질문 링크를 참고하실 수 있습니다:
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.