묻고 답해요
169만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅데이터 분석기사 (2회): 기출유형-작업형2 관련 질문있습니다.
안녕하세요 수강중에 궁금한 게 생겨서 문의 남깁니다!빅데이터 분석기사 (2회): 기출유형-작업형2에서 데이터를 보면,X_train 애들중에서도 .. 사실 범주형인데 수치형인척 하는 애들이 있잖아요? (Cost_of_the_Product, Discount_offered, Weight_in_gms 말고는 사실상.. 범주형이라고 생각했습니다.) 얘네는 범주형으로 바꾸지 않아도 되나요? 검색을 해보니까 비닝을 통해 한다던데........ 수업시간엔 배운 기억이 없어서요.. 근데 이런 경우 꽤 많지 않나요? 타이타닉도 좌석 class 관련 column은 위와 같은 경우라고 생각하는데.. 예..결론적으로는 범주형은 get_dummies나 label encoding을 통해 수치화 시켰던거 같은데 그 역은 안 하는 이유가 궁금합니다! (적으면서 든 생각은 범주형을 수치화시킨다음 모든 수치화된 columns들을 한번에 돌리는거라 그런건가 싶긴한데) 2. EDA를 통해 얻은 통찰(?) 들을 어떻게 써먹을 수 있나요? 그니까.. Travel Insurance를 예측하는 문제에서 "a,b,c라는 항목이 낮게 나오고, d,e,f라는 항목이 높게나오면 -> Travel Insurance가 있을 확률이 높을것이다." 라는 가설을 classification에서 어떻게 활용할 수 있나요? ++이전에 https://www.dataq.or.kr/에서 예시 문제를 직접 푸는 과정에서, 문제 풀고-> 중간에 답 입력하고 -> 다시 풀러갔을 때 리셋이 됩니다. 이게 맞나요?예를들어 작업형 1 -1)을 문제 화면에서 풀고 -> 1- 1) 정답 입력하러 가고 -> 1-2)를 풀러 다시 문제화면을 갔을 때 1-1때 풀었던 것들이 다 리셋되어 있더라구요.. 중간 저장 같은 버튼도 없던데 실제 시험에서도 그런가요?2. 이상치 관련 문제에서 등호 여부는 어떻게 되나요? 예를 들어(Q1 – 1.5 IQR) 보다 작거나 (Q3 + 1.5 IQR) 보다 큰 데이터는 이상치로 처리한다. << 고 할 때 이상치라고 판단한 부분을 X <= Q1 - 1.5 IQR라고 하나요 X < Q1 - 1.5IQR이 맞나요? 궁금증이 생겼던 문제에서는 둘다 결과에 영향이 없긴하던데 .... 예.. 등호 여부가 궁금합니다공지사항을 이제 확인했는데 7회 준비 스터디 방 이제 못들어가나요 ㅠㅠ? https://discord.gg/SvrjKuuN 매번 장문의 질문인데 명쾌하게 답변해주셔서 감사합니다!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
csv 파일 가져올 때 오류
import pandas as pddf = pd.read_csv('members.csv') 실행하려고하면 nicodeDecodeError: 'utf-8' codec can't decode byte 0xb5 in position 36: invalid start byte 해당 오류가 계속 뜹니다 ㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Date6 변환오류메시지가 떴는데, 이유를 모르겠어요.
Date6 변환할 때 오류메시지가 나왔습니다.Date5할때와 동일하고, 뒤에 format만 붙였고, 선생님 강의랑 똑같은데 어떤 부분이 잘못된걸까요ㅠㅠ?
-
미해결[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
샘플로 제시해 주신 참고문헌 제공 부탁드리겠습니
N-gram 분석은 N개 단어의 연쇄를 확률적인 수치를 산출하고 시각화하는 방법으로 대용량의 문서에서 특정 단어 뒤에 위치하는 단어나 음절의 빈도를 정량적인 수치로 나타낼 수 있다(Kang & Lee, 20019). 단어 간 연결방향이 화살표를 통해 시각화되며 화살표의 굵기 크기를 통해 연결강도가 결정된다(Yoo et al., 2019). 또한 연관 단어 간 관계성을 분석하면 단어간 관계 파악에 용이다하다(Kim, 2020). 본 연구에서는 Textom에서 제공하는 N-gram 텍스트마이닝 기법 시 데이터의 흐름과 이해를 하기 위해 가장 먼저 기초 분석 자료로 활용되는 기법이기도 하다. 단어빈도에 기반한 분석은 전체 문서 내에서 특정 단어의 풀현 빈도를 나타낸다. 문서 내에 특정 단어가 등장하는 횟수를 나타내며 이수치값이 클수록 문서에서 자주 사용하는 단어임을 의미한다(Jang et al.,2018). 높은 출현 빈도를 나타내는 단어는 대체로 연구주제와 관련된 함축된 의미를 내재하고 핵심 단어로 작용 할 수도 있다(Lee,2022).
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라벨인코딩 원핫인코딩 질문드립니다.
라벨인코딩이랑 원핫인코딩의 경우 X_train의 데이터 타입확인 시 object 형 컬럼이 있을때만 시행하는게 맞는걸까요?만약 전체 컬럼이 int형 또는 float 형일때는 안해줘도 되는건가요?만일 X_train 데이터에는 object 컬럼이 없는데 X_test 데이터에는 object 컬럼이 있어도 라벨인코딩 또는 원핫인코딩을 시행해줘야되는걸까요?추가적으로 데이터 분리의 경우 언제 사용해주는건가요?? 작업형 2유형에서 무조건적으로 사용해줘도 문제없는건지 아니면 사용할 조건이 있는건지 궁금합니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예측 부분 오류 질문드립니다.
랜덤포레스트 하나만 실시 후에 예측 했는데요오류가 뜨는데 이유를 모르겠습니다.../usr/local/lib/python3.10/dist-packages/sklearn/base.py:439: UserWarning: X does not have valid feature names, but RandomForestClassifier was fitted with feature names warnings.warn( --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-106-aa9a7e4fa732> in <cell line: 2>() 1 # 예측 ----> 2 pred = model.predict_proba(X_test) 3 pred 3 frames/usr/local/lib/python3.10/dist-packages/sklearn/utils/validation.py in check_array(array, accept_sparse, accept_large_sparse, dtype, order, copy, force_all_finite, ensure_2d, allow_nd, ensure_min_samples, ensure_min_features, estimator, input_name) 900 # If input is 1D raise error 901 if array.ndim == 1: --> 902 raise ValueError( 903 "Expected 2D array, got 1D array instead:\narray={}.\n" 904 "Reshape your data either using array.reshape(-1, 1) if " ValueError: Expected 2D array, got 1D array instead: array=[ 8285. 10192. 8675. ... 7390. 9977. 5696.]. Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
카이제곱
카이제곱 독립성검정에서의 검정통계량은 무슨의미를 가지나요?p-value는 이해했어요ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 작업형2
from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, y_train, test_size=0.2, random_state=2022) X_tr.shape, X_val.shape, y_tr.shape, y_val.shape 데이터 분리 문제입니다. 플이를 보니 저번에 여쭤볼때 train에 target값이 있으면 제외한다고 하셨는데 train값에 target값이 들어있는데 왜 train.drop를 쓴게 아니라 그냥 train값만 넣은건지 궁금합니다!!!
-
미해결[핵집] 2025 빅데이터 분석기사(실기)_작업형 1·2·3유형
과제실습 3 데이터 시트
과제 실습3 데이터 시트와 강의 내용의 데이터시트와 다른것 같습니다. 데이터 시트에는 education이 없는데, 강의 내용의 데이터시트에는 있네요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제 3 7번 문제 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요df.T로 변환하여 칼럼으로 프린트를 하려고했더니 다음과 같이 Series 오류가 발생합니다.Series 오류가 무엇이고 어떻게 해결하면 될까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
predict_proba 와 predict 차이
해당 문제는 predict_proba 로 해야 하는 이유가 무엇인가요 ? 아래코드처럼 predict 으로 하면 안되는 이유가 있나요 ?문제에서 둘을 어떻게 구분해서 써야하는건지 모르겠어요.pred = model.predict(X_val) roc_auc_score(y_val, pred) pred = model.predict(X_test) submit = pd.DataFrame( { 'cust_id':cust_id, 'gender':pred } )
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1
문제 3에서 총 3가지의 해결법을 알려주셨는데요문제에는 f3 컬럼의 결측치는 0 실버는 1 골드는 2 … 변환한 후 총 합을 정수형으로 출력 하시오 라고 되어있어서 혹여나 실전에서 마지막방법인 조건형으로 풀다가 변환을 하지 않고 ㅍ풀었다고 감점이 될거같아 걱정이 되서 여쭙니다 세번째 방법으로 풀어도 감점 안되나요?
-
해결됨[2026 신규] 데이터분석 준전문가(ADsP) 자격증
교재 문의
안녕하세요? 강의를 결재하고 수강을 하려하는데요~교재구매는 어떤 방식으로 하는지에 대해서 문의드립니다. ^^
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Kaggle 작업형 2유형 T2-3 성인인구조사 소득 예측
선생님 최종적으로 csv 파일에 id, income 칼럼만 불러오게 되야하는데 자꾸 저는 unnamed: 0 와 id, income 칼럼이 같이 출력이 되네요 ㅠㅠ 그냥 이렇게 답안 제출해도 괜찮나요??평가지표에 따라서 점수를 보니 거의 0.85라서요!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
학습용/검증용 데이터 구분
# 학습용 데이터와 검증용 데이터로 구분 from sklearn.model_selection import train_test_split y = (y_train['income'] == '>50K').astype(int) X_tr, X_val, y_tr, y_val = train_test_split(X_train, y, test_size=0.1, random_state=2022) 이 부분이 이해가 잘 가지 않아요. X_tr, X_val, y_tr, y_val 이렇게 4개에 지정하는데, test_split은 X_train, y 이렇게 두개만 들어가고.. y_train이 아닌 y만 넣는 이유도 모르겠습니다 ㅠ
-
미해결빅데이터분석기사 실기대비 (R 활용)
섹션 4 작업형 2유형 (16:29) 결과 추가 문의
안녕하세요 선생님, 상세한 강의 잘 듣고 있습니다. 감사합니다. 수강 중, 위의 [섹션4. 2유형] 강의 내용 중 문의사항이 있어 질문을 남깁니다.[동일 내용 문의 링크]맨 마지막 p3에서 2,482명이 나와야 되는거 아닌가요??? - 인프런 | 질문 & 답변 (inflearn.com)문의 커뮤니티 내 동일한 질문이 있어 일부 연장선 문의를 드립니다. (체험) 제2유형 - 체험하기 (goorm.io) - 해당문제model1, model2 을 평균을 내서 최종 모델 p3을 만들고 이를 적용했을 때최근 답변 기준으로 2482개에서 1611개를 제외한 871개의 행이 출력되는 부분은 이해하였습니다.연습 중 제출 형식을 보니, 규정에는 총 2482개의 온전한 데이터 예측 결과를 제출해야 한다고 명시되어 있고이를 강의 상의 871개짜리 데이터로 최종 제출해도 채점 기준에 부합하는지 궁금합니다.저는 TEST 파일은 열 생략이나 결측지 보정 들의 수정이 가해지면 안되는 원본 데이터의 상태로예측 모델을 적용하는 것으로 인지하고 있는데, 해당 부분에 대한 보충 회신을 주시면 감사드리겠습니다. (채점을 위한 기관측의 추가 별도 데이터를 대입하여 예측결과가 실제로 산출되는지 확인하는 부분이 있다하여, 모든 독립변수 행에 대해서도 대응할 수 있는 모델에 대해서 추가 설명이 있으면 도움이 될 것 같습니다.) 제가 강의 내용 중 못 따라간 부분이 있을 수도 있어, 코드 작성 내 놓친 부분이 있는지 계속 수강내용과 확인해 보겠습니다.감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
nunique에 관해 문의 드려요.
작업형 1-3에서 a.nunique().sort_values(ascending=False).index[0] 명령을 보내면,nunique중 첫 번째 문자열과 두 번째 개수 중에 개수로 정렬되는 이유가 궁금하고..index[0]를 하면 문자열만 나오는 이유도 궁금하네요. 저렇게 하면 왜 정렬된 첫번째 열의 이름과 개수가 함께 나오지 않는지..두 명령 모두 문법이 눈에 익지 않네요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경에서 sklearn이 안불러집니다.
체험 제1유형을 풀려고 했으나, preprocessing 이 안불러집니다. 혹시 시험에서 사용할 수 없는지 궁금합니다.
-
미해결[2026 개정판] 빅데이터분석기사 실기 (with Python)
시험환경 체험 & 연습사이트의 작업3형 문제풀이
시험환경 체험 & 연습사이트의 작업3형에 대한 문제풀이 요청드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
groupby와 sort
df = df.groupby('month').count() df.sort_values('subscribed').index[0] 선생님 groupby랑 sort의 차이 부탁 드립니다. groupby는 하나의 그룹으로 묶어서 정렬하는 것이고sort는 컬럼별로 정렬할 수 있는 것인가요?ㅠㅠ쓰임새가 어떨 때 쓸 수 있는 건지 궁금합니다. 그리고 구독수의 가장 적은 값을 index[0]로 뽑아주셨는데요~!iloc나 loc로 구할 수는 없을까요? .index[0]은 sort말고 아무데나 붙여도 첫번째 인덱스가 나오는 건가요?ㅠㅠ...