인프런 커뮤니티 질문&답변
작업2와 작업3
해결된 질문
작성
·
20
0
작업형 2 개념이 자꾸 헷갈려서요ㅠ
예시문제 작업형2 2025 보면, 평가지표로 평가하는데
강의에서 레이블인코딩, 원핫인코딩 비교해서 오차가 적은 것으로 택하던데,
랜덤포레스트와 라이트지비엠 이것도 각각 비교해서 오차가 적은거 평가 안해도되는건가요??
제가 약간 헷갈리는 점이ㅠ 원래 작업형 2는
인코딩부분(레이블/원핫), 학습부분(랜덤/라이트지비엠) 크게 이 두 부분에서
각각 경우의 수 대로 다 하면서? 평가를 비교해서 해야하는건지 궁금합니다
작업형3 부분에서 원래 가설검정?(t검정, F검정 등등)도 나오는데,, 빅이시 부분에선 로지스틱회귀, 선형회귀 부문을 초점을 맞추었던데,,, 검정부분 보다는 로지스틱회귀, 선형회귀 등 출제 확률이 더 높다고 봐도 될까요?
답변 2
0
작업형2 비교 평가 할 수 있다면 가장 좋습니다.
그렇지만 여유가 안된다면 생략해도 상관 없습니다.네, 맞아요! 기출이 그렇게 나왔습니다.
다만 새로운 영역은 얼마든지 열려있어요!
0
안녕하세요, 인프런 AI 인턴입니다. 합격님.
작업형 2와 3에 대한 질문을 주셨네요. 데이터 사이언스의 실제 문제에서는 여러 방법을 시도하고 최적의 결과를 찾는 과정이 중요합니다. 아래에 질문하신 부분들에 대한 답변을 드리겠습니다.
작업형 2
- 인코딩 및 모델 선택:
- 일반적으로 데이터 전처리 단계에서는 레이블 인코딩과 원핫 인코딩 중 어떤 것이 더 적합한지는 데이터와 사용 모델에 따라 다를 수 있습니다.
- 랜덤포레스트(RandomForest)와 라이트GBM(LightGBM)의 사용:
- 두 모델 모두 각각의 강점과 약점이 있기 때문에, 일반적으로 인코딩 방법과 결합하여 각 모델의 성능을 비교하는 것이 좋습니다.
- 랜덤포레스트: 강력한 범용 모델로, 데이터의 해석성이 뛰어납니다.
- LightGBM: 범주형 변수를 기본적으로 처리할 수 있으며, 특히 큰 데이터셋에 대해 빠르게 학습할 수 있는 장점이 있습니다.
- 두 모델 모두 각각의 강점과 약점이 있기 때문에, 일반적으로 인코딩 방법과 결합하여 각 모델의 성능을 비교하는 것이 좋습니다.
- 일반적으로 데이터 전처리 단계에서는 레이블 인코딩과 원핫 인코딩 중 어떤 것이 더 적합한지는 데이터와 사용 모델에 따라 다를 수 있습니다.
작업형 3
- 가설 검정과 회귀 분석:
- 빅데이터 분석기사 시험에서는 특정 기술보다 실용적인 모델링 기술의 사용 빈도가 더 높을 수 있습니다.
- 로지스틱 회귀(Logistic Regression)와 선형 회귀(Linear Regression): 대부분의 데이터 과학 문제에서 널리 사용되며, 시험에서도 자주 출제되는 주제입니다.
- 가설 검정(t검정, F검정 등)은 데이터 특성에 대한 더 깊은 이해를 위해 필요할 수 있지만, 회귀 분석이 직관적이며 실질적인 문제 해결에 더 자주 사용될 수 있습니다.
- 빅데이터 분석기사 시험에서는 특정 기술보다 실용적인 모델링 기술의 사용 빈도가 더 높을 수 있습니다.
질문에서 헷갈리시는 부분은 완벽히 자연스러운 과정입니다. 여러 인코딩과 모델을 적용해 보고, 그 중 가장 낮은 오차 또는 가장 높은 성능을 가지는 방법을 선택하는 것은 좋은 방법입니다. 실험을 통해 다각적으로 접근하는 연습을 지속하시면 혼란을 줄일 수 있을 것입니다.
관련하여 추가적인 리소스를 다음과 같은 문서에서도 살펴보시면 도움이 될 것입니다:
- 작업형2에 대한 질문입니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.





