해결된 질문
작성
·
95
·
수정됨
0
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요
먼저 유사한 질문이 있었는지 검색해보세요
제목: 커리큘럼 작업형2 모의문제1 18분:-7지점 문의.
내용: 데이터전처리 & 피처엔지니어링을 합친 코너에
baseline, label, one-hot이 소개되는데
이들이 각각 전처리인지 피처엔지니어링 절차에 해당하는지를 몰라
gpt에 물어보니
baseline은 6) 모델 선택,훈련,평가,최적화
Label은 5) 검증 데이터 분리 및 6) 모델 선택, 훈련, 평가, 최적화
One-hot은 3) 데이터 전처리 및 4) 피처 엔지니어링에 해당한다고 하네요.
이것은 머신러닝 순서라고 하신 아래의 1~7에서 강의에서는 보시다시피 3)~4)단계인 데이터전처리&피처엔지니어링 코너에서 소개하고 있는데 그 내용과 다른 설명 입니다.
(강의에서의 절차 정리)
1) 문제정의, 라이브러리/데이터 불러오기(로드)
2) 탐색적 데이터분석(EDA)
3) 데이터 전처리(결측값제거, 이상치제거)
4) 피쳐엔지니어링(모델 성능(예측력) 향상)
5) 검증데이터분리(Train/validation나누기)
6) 모델 선택,훈련,평가,최적화
7) 예측
8) csv파일 생성
그렇다고 강의에서 구분하여 설명하지 않으셨고, 주석으로 설명이 달린 것이 없이 왔다갔다 하면서 설명을 하시니 도대체 각각이 어떤 절차에 해당하는지 그 차이를 모르겠고, 지금 어떤 절차 중인지 혼동되며 정리를 하려는데 정리가 안되고 있습니다.
정리를 하기 위해서는 절차별 업무수행 프로세스를 정리해야 하는데 '지금과 같은 상황(절차별 프로세스가 아닌 동일한 유형을 묶어서 설명'하는 방식에서는 절차에 대한 정리를 할 수 없게 됩니다.
정리를 하면 강의 뒤에 가서는 다시 앞으로 가서 수정하기를 반복하시니 정리 했던 것을 다시 정리해야 하거나 정리가 안되는 현상이 자주 발생합니다.
절차적 프로세스를 정리하는 데 유사한 유형별 모음이라면서 서로 다른 절차에 속한 것들을 묶어서 설명하려면 혼동되지 않도록 설명을 적시해 줘야 하나 반복적으로 그러한 습관이 나타나지 않는 것을 보면 이러한 점을 의식하지 않는 것 같다는 인상입니다.
실무에 대한 이론 정리 보다는 실무적인 접근을 하시는 것으로 보이며 그래서 실수하는 것을 보여주기 위해 위아래를 오르내리며 수정과정을 되풀이 하여 보여주시는 데 동시에 절차(프로세스)대로 이론을 정리하는 입장에서는 앞에서 정리한 것이 매번 날라간다는 것이고 계속 이런 식이면 정리하기가 어려워 지죠. 현재 시점에서 보면 미래에 발생할 것을 먼저 지금 정리하는 것이 되므로 시점이 꼬이므로 혼선스러워 집니다. 이 강의에서는 정리하는 개념에 대한 고민은 없어 보입니다.
일단 chatgpt의 답변이 맞는지부터 확인을 요청 드립니다.
답변 2
0
원핫인코딩과 라벨인코딩은 문자를 숫자로 변환하는 과정으로 데이터 전처리에도 해당되며
피처엔지니어링에도 해당될 수 있습니다.
"데이터 전처리" 와 "피처엔지니어링"단계를 함께 묶어서 "데이터 전처리"로 이해해 주시면 됩니다.
정리에 어려움이 있다면 꿀팁 섹션에 있는 마인드맵을 참고해서 학습 부탁드립니다.
감사합니다.
0
안녕하세요, 인프런 AI 인턴입니다.
강민균님께서 궁금하신 점에 대해 정리해보겠습니다. 머신러닝의 데이터 처리 단계에 대한 질문인 것 같습니다. 말씀하신 Baseline, Label, One-hot 인코딩이 어디에 해당하는지에 대한 헷갈림이 있으신 것 같습니다.
Baseline: 일반적으로 Baseline을 설정하는 것은 특정 모델에 대해 모델 선택, 훈련, 평가, 최적화 단계와 관련 있습니다. 이는 기준 성능을 비교 대상으로 삼기 위해 설정하는 것입니다.
Label: Label은 머신러닝 모델이 예측해야 할 목표 변수로, 검증 데이터 분리 이전에 데이터 셋에 포함됩니다. 이 때문에 데이터 준비과정에서 사용되는 것이지요. 일반적으로 5 단계 검증 데이터 분리 전 단계라고 할 수 있습니다.
One-hot 인코딩: 카테고리 데이터를 수치 데이터로 변환하는 기법으로, 데이터 전처리와 피처 엔지니어링 단계에 주로 해당합니다. 이는 모델 성능을 향상시키기 위한 사전 작업입니다.
따라서 ChatGPT가 제시한 답변과 실제 강의의 설명이 약간 차이가 있더라도, 일반적으로 You의 설명과 크게 다르지 않다고 볼 수 있습니다. 강의에서 절차별로 정리하기 힘들어 보이는 것은 교육 스타일의 차이일 수 있습니다.
각 단계의 구분은 명확하나, 실무에서는 유연하게 변동될 수 있다는 점을 참고하시면 좋을 것 같습니다. 프로세스를 정리하는 데에 더 명확한 지침이 필요한 경우, 실습을 기반으로 여러 차례에 걸쳐 반복하면서 익숙해지는 것도 좋은 방법일 것입니다. 더 궁금하신 사항이나 혼동되는 부분이 있으시다면, 수강 전 문의 게시판을 통해 직접 질문을 남기실 수도 있으니 참고해 주세요!
강의를 통해 유익한 학습 되시길 바랍니다. 도움이 필요하신 점이 있다면 언제든지 문의해 주세요. 감사합니다.