묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 질문입니다..
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있두번째할때가 제껀데 강의자료랑 비교했을때 행하고 열의 갯수가 다른데...행은 전 행drop은 안하고해서 이해가 되도 열은 차이날수가있나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 1가지유형으로 풀기 질문드립니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요질문 두개 드립니다.1) 데이터생성 불러오기 train = pd.read_csv('train_csv') 이런식으로 다 제공이 되는거지요? 2) 2유형 한가지방법으로 풀기의 경우, 원핫인코딩만 하셨는데, 하나만 해줘도되나요? 영상에서는 굳이 스케일링까지 안하셨길래,,, 안해줘도 되는거면 저야 땡큐지만, 성능개선이 필요한 상황이 발생한다면 민맥스 스케일러나 스탠다드 스케일링 해줘야하는건가요? 만약 성능개선을 위해서 스케일링 해야한다면, 시험환경에서 이미 성능 점수까지 확인한 후, 피쳐엔지니어링쪽 이후로 전부 주석처리해놓고 다시 처음부터 데이터 불러오고 EDA하다가 원핫인코딩하기 전까지 의 셀 쪽에 스케일링 진행하고, 나머지셀은 전부 실행하면되는건가요? ㅜㅜ 한마디로 pop하기전 원본데이터 처음부터 불러와서 피쳐엔지니어링 하기전까지의 단계에서 스케일링만 추가해준후 나머지 실행하면 성능개선이 되는건가요? 장황해서 죄송합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 6회 [작업형 1 - 1번] 질문
df['출동시간'] = pd.to_datetime(df['출동시간']) df['도착시간'] = pd.to_datetime(df['도착시간']) df.info() df['걸린시간(분)'] = df['도착시간'] - df['출동시간'] df['걸린시간(분)'] = df['걸린시간(분)'].dt.total_seconds() / 60 df.head(2) result = df.groupby('소방서')['걸린시간(분)'].mean() result # 여기서 result 말고 df 에 넣으면 오류뜨는데 이유를 모르겠음. result 말고 df 넣으면 오류뜨는데 이 기준을 잘 모르겠습니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
책을 구매했는데요.. (시나공 2026)
빅분기 실기 강의와 같이 병행하려고 하는데어떤식으로 같이 공부하는게 효과적일지 궁금합니다..!
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 질문 드립니다.
안녕하세요.작업형2 지문에 보면 문제마다 아래와 같은 평가 지표들이 있는데.여러 처리를 통해 평가지표가 높은 모델이나 처리등으로 수정을 하겠지만혹시 해당 평가지표는 꼭 구하지 않아도 되는건지 궁금합니다.즉, 해당 평가 지표는 구하지 않고 그냥 결과 파일(result.csv)만 제출하는 코드를 작성해도 되는건지요.평가 지표: RMSE (Root Mean Squared Error)평가 지표: ROC-AUC
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
레이블인코딩으로 하면 카테고리수가 달라도 문제없는걸까여?
원핫 인코딩만 하다가 지금 예시문제 작업형2를 풀다보니 ..카테고리 수가 많은건 레이블 인코딩을 해야할거같아서 해보는데 범주형컬럼에서 카테고리종류가 달라도레이블인코딩으로 하면 문제가 없는것일까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
질문있습니다!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요(sklearn.metrics) 이 패키지에 RMSE, RMSLE, MAPE 등 다 추가 됐다고 말씀하셨던 것 같은데작업형2 모의문제2 에서는 직접 수식을 계산해야 한다고하셔서 혹시 어떤게 맞는건가요?패키지에 추가 됐긴했는데 시험장에선 업데이트가 안됐다고 이해하면 될까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제3 문제9
df = df.groupby(['month']).count() 이 풀이과정에서count()대신 sum()은 왜 안되는 건가요~?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
다중분류 평가지표 하나의 값 선택
다중분류 평가지표(f1_score) 에서 문자인 경우 pos_label = ' ' 을 적용해서 검증 자료에 대해 평가 결과를 확인하는데, 이후 test 자료를 저장할때는 문제에서 요구하는 히나의 값을 (A,B,C 중에서 B선택) 고르는게 아니라 pred로 왜 저장해야 하는지 긍금합니다~! 다중분류 평가지표(roc_auc) 에서 0,1,2 중에서 2를 선택해야 할 경우 pred_prob( , pred[ : ,2] ) 이렇게 2를 적용해야 되는것이 맞는지 문의드립니다~!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
cond의 여러번 사용
작업형1 모의문제3 문제7 [질문1]풀이과정에서2001행의 평균 조건을 cond로 사용하고2003행의 평균 조건도 cond로 사용하셨는데,왜 cond1, cond2 구분이 없어도 각각의 값이 출력이 되는건가용!?ㅠㅠ [질문2]df.head() df=df.T df.head() print('2001 평균:', df[2001].mean()) print('2003 평균:', df[2003].mean()) print('A :', sum(df[2001]>df[2001].mean())) print('B :', sum(df[2003]<df[2003].mean())) print('A+B :', sum(df[2001]>df[2001].mean()) + sum(df[2003]<df[2003].mean()))혼자 먼저 풀어보는 과정을 해봤는데요이전에 행/열 트랜스폼 하는 거 알려주셔서~!df.T로, 행/열 트랜스폼하구mean()으로, 각 열(컬럼)에 대해 평균 구하고sum으로, 크거나 작은 수의 개수를 구했는데.. 2001 평균: 100.7352003 평균: 97.215 A : 100 B : 102 A+B : 202 요렇게 나왔어요..loc로 풀은 내용과 왜 다를까요?ㅠ꼭 loc써야 하는 문제였을까요?!ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출 작업형2
EDA 과정 중에# 기초통계 train(object) train.describe(include='O') # 기초통계 test(object) test.describe(include='O')train과 test 데이터의 unique 값이 동일하다면 실제 카테고리 값 자체 비교 없이 바로 인코딩 해도 문제 없나요?카테고리 값을 비교해서 안전하게 하고 싶지만, 굳이 안 그래도 되는 거면 안 하려고 합니다!!
-
미해결[리뉴얼] 파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
예제 2, 4, 6에 대한 풀이 방식 질문.
안녕하십니까. 강의 잘 듣고 있습니다. 다름이 아니라 선생님의 풀이와 제 풀이의 답은 같으나 과정에서 약간의 차이가 있어 질문 드립니다.우선 예제 2번의 경우 저는import requestsfrom bs4 import BeautifulSoupres=requests.get('https://davelee-fun.github.io/')soup=BeautifulSoup(res.content, 'html.parser')items= soup.select_one('h1.sitetitle')print(items.get_text())이러한 풀이 방식을 썼습니다. 의도를 표현해보자면 'Teddy의 선물 블로그' 라는 단일 데이터를 뽑아낼 것이므로 'select'가 아닌 특정 포인트만 뽑아 주는 'select_one'을 사용 했으며, 역시나 단일 데이터를 뽑아낼 것이므로 굳이 반복문인 'for ~ in ~'을 쓰지 않고 'print'만을 사용 했습니다. 이러한 저의 접근 방식이 오류가 없는지 궁금합니다.아래의 풀이는 선생님께서 해주신 풀이 입니다.import requestsfrom bs4 import BeautifulSoupurl = 'https://davelee-fun.github.io/'res = requests.get(url)soup = BeautifulSoup(res.content, 'html.parser')items = soup.select('h1.sitetitle')for item in items: print (item.get_text().strip()) 예제 4번 질문 입니다.4번의 경우 저의 풀이는import requestsfrom bs4 import BeautifulSoupres=requests.get('https://davelee-fun.github.io/')soup=BeautifulSoup(res.content, 'html.parser')items= soup.select('section.featured-posts h4.card-text')for item in items: print(item.get_text().strip())이러한 풀이 방식을 썼습니다. 그 의도는 items= soup.select('section.featured-posts h4.card-text')에서 보면 section 이라는 태그의 .featured-posts 이라는 클래스명 산하의 h4 이라는 태그의 .card-text 클래스명을 가진 것들의 데이터를 추출하고 싶다는 뜻 이였습니다.저는 이것을 'section.featured-posts h4.card-text' 이라는 방식으로 띄워쓰기를 이용하여 한 번에 표현해도 문제 없을 것이라고 판단했으나 선생님의 풀이를 보았을 때import requestsfrom bs4 import BeautifulSoupurl = 'https://davelee-fun.github.io/'res = requests.get(url)soup = BeautifulSoup(res.content, 'html.parser')box = soup.select_one('section.featured-posts')items = box.select('h4.card-text')for item in items: print (item.get_text().strip())라는 방식으로 어떻게 보면 두 번으로 나누어 표현했음을 이해했습니다. 단순 방식의 차이인지 제가 틀리게 표현 했는데 우연히 맞은 것인지 알고 싶습니다. 마지막으로 6번 예제 질문입니다.6번의 경우 저의 풀이는import requestsfrom bs4 import BeautifulSoupres=requests.get('https://davelee-fun.github.io/')soup=BeautifulSoup(res.content, 'html.parser')items= soup.select('div.container.text-center > span')print(items.get_text().strip())이러합니다. 의도를 설명하지면 div 이라는 태그의 .container 와 .text-center 이라는 두 개의 클래스명을 지닌 것 바로 아래의 > span 라는 태그 내의 데이터를 추출하고 싶다는 의미였습니다.이렇게 하면 'Never miss a story from us, subscribe to our newsletter' 라는 내용을 뽑아 낼 수 있을 것으로 보았으며,'Never miss a story from us, subscribe to our newsletter' 라는 단일 데이터를 추출 하는 것이니 'select'를 썼더라도 굳이 반복문인 'for ~ in ~'을 사용하지 않아도 될 것이라고 생각했지만'AttributeError: ResultSet object has no attribute 'get_text'. You're probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()?' 라는 오류가 떴습니다. 그래서items= soup.select('div.container.text-center > span')for item in items: print(item.get_text().strip())또는items= soup.select_one('div.container.text-center > span')print(items.get_text().strip())라고 바꾸어 써보니 제대로 된 답이 출력 되었습니다. 저의 첫 오답의 경우items= soup.select('div.container.text-center > span')print(items.get_text().strip()) 이 구문은 items가 list 형식이며, 그래서 for 반복문을 사용하지 않고는 get_text()를 사용할 수 없다는 ai의 답변을 받았지만 뭔가 알듯 말 듯한 느낌이라 다시 설명을 듣고 싶습니다.그리고 제대로 된 답이 도출 된 위 두 개의 경우의 차이를 알고 싶습니다.긴 글 읽어주셔서 감사합니다. 좋은 하루 보내세요.^^
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 강의중에
모의문제 1 풀기전에는 concat을하고 분리까지했었는데모의문제1에서 인코딩할때는 왜 concat을 안쓰고 바로 한건가요??이해가 잘 안됩니다 개념이
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 독립표본검정 / 카이제곱 적합도 검정
가설검정의 독립표본 검정과 카이제곱 적합도 검정을 서로 대체하여 사용할 수 있는지 문의드립니다! 독립표본도 서로 다른 2개의 집단 (표본)의 차이를 확인하는 것 처럼 카이제곱 적합도 또한 서로 다른 2개의 집단 (관측, 기대치)의 차이를 구하게 되는데, 그럼 이때 서로 대체하여 쓸 수 있는지 해서 여쭤봅니다!(물론 카이제곱 적합도 예제에서 독립표본 구하는 맨휘트니를 적용하니깐 값이 다르게 나오긴 합니다...^^)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 필수 강의
합격만 목표로 했을 때 작업형 3에서 필수로 들어야 하는 강의는 무엇인지 알려주세요 !
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
안녕하세요! section21강의 문의드립니다!
안녕하세요, section21.Quiz부분에 대한 해설 및 강의를 듣고싶은데 어디서 들을 수 있는지 문의드립니다! 모의문제도 아니고 모의고사도 아닌것같더라구요! ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
f1 스코어는 macro옵션을 다중분류일때만 넣으면되는건가요?
f1 스코어는 macro옵션을 다중분류일때만 넣으면되는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
random_state=0, random_state=123 차이가 발생합니다. 어떤값을 넣어야 하나요? 최적값이 따로 있나요?
df = pd.DataFrame({ 'f1': [2, 3, 5, 7, 11, 13, 17, 19, 23, 29], 'f2': [30, 28, 26, 24, 22, 20, 18, 16, 14, 12], 'target': ['A', 'A', 'A', 'B', 'B', 'A', 'A', 'A', 'A', 'B'] }) y_train = df.pop('target') x_tr, x_val, y_tr, y_val = train_test_split(df, y_train, test_size=0.5, random_state=123) print(x_tr.shape, x_val.shape, y_tr.shape, y_val.shape) model_rfc = RandomForestClassifier(random_state=42) model_rfc.fit(x_tr, y_tr) y_proba_val_rfc = model_rfc.predict_proba(x_val) print(y_proba_val_rfc) roc = roc_auc_score(y_val, y_proba_val_rfc[:,1]) print(roc) (5, 2) (5, 2) (5,) (5,) [[0.29 0.71] [0.92 0.08] [0.7 0.3 ] [0.74 0.26] [0.45 0.55]] 1.0 ------------------------------------------------------------------------- df = pd.DataFrame({ 'f1': [2, 3, 5, 7, 11, 13, 17, 19, 23, 29], 'f2': [30, 28, 26, 24, 22, 20, 18, 16, 14, 12], 'target': ['A', 'A', 'A', 'B', 'B', 'A', 'A', 'A', 'A', 'B'] }) target = df.pop('target') X_train, X_val, y_train, y_val = train_test_split(df, target, test_size=0.5, random_state=0) clf = RandomForestClassifier(random_state=42) clf.fit(X_train, y_train) y_pred = clf.predict_proba(X_val)[:,1] print(y_pred) # 예측값 roc_auc_score(y_val, y_pred) # 정확도 평가 [0.68 0. 0.25 0. 0.26] np.float64(0.25)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경 관련해서 질문드립니다
1분내로 코드를 실행해야 한다는건 알고 있는데요, 이 부분이 시험치면서 직접적으로 어느 부분에 영향을 주나요?? 채점할때 제 코드가 1분내로 실행이 안되면 감점인건가요? 아니면 그냥 제가 문제풀때 1분이 지나면 자동으로 실행결과가 사라지는 부분이 불편한건가요?ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Data Scaling은 Skip하나요?
작업형2-3 문항의 강의를 보면 'id' 항목만 삭제하고학습/검증 Data 분리 後 바로 모델평가로 들어가는데요 수치형에 대한 Data Scaling 이 Skpi되는 이유가 뭔지 궁금해서 MinMaxScaler또는 StandardScaler를 해줘야 하는거 아닌가요?