묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
결정트리 분류 시각화를 위해서 피처 갯수 설정
선생님 안녕하세요. 좋은 강의 해주셔서 재밌게 듣고 있습니다. 다름이 아니라 결정트리 과적합 강의에서 2차원 시각화를 위해서 feature를 2개로 제한하셨는데, 혹시 어떤 feature가 쓰였는지 알 수 있는 것인가요? 갯수만 그렇게 설정해주면 4개의 feature들 중에서 가능한 조합들을 모두 고려해서 성능이 좋은 것으로 나오는 것인가요? 갯수를 제한했을 때 피처가 어떻게 결정되는지, 그리고 EDA과정에서 원하는 feature를 선택할 수도 있는 것인지 궁금합니다. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
선쉥님 df[~cond]말고 drop으로 데이터 삭제하는 법 있을까요?
작업형 1 모의고사 2에서 질문 10이하의 이상치 나이를 제거하기 위해서df=df.drop(cond1) 이렇게 하면 안되는 건가요ㅠㅠ...오류가 나더라구요 판린이 이상 질문 드립니다 수업시간엔 아래처럼 사용하셨씁니다!cond1=df['age']<=0df=df[~cond] 이렇게 사용하셧었는데요!! 제가 drop함수만 기억이 나더라구요!!ㅠㅠ 질문 2.df['age'] == round( df['age'], 0) 이 0의자리? 일의자리인가요?? 이 부분을 제가 모르는 것 같은데 설명 부탁 드립니다!! round가 반올림함수라고 알려주셨는데요. 그런데 36.3은 어떻게 거르나 싶더라구요.36.3의 경우에df['age'] == round( df['age'], 0) 이면...소수 첫째짜리에서 정수까지만 나오도록 돼있는데그러면 36.3은 못 거르는 게 아닌가 싶은데 걸러져있더라구용... 이게 어찌된 것인지 설명 부탁 드립니다!! -판린이 드림-
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
test_size
선생님 안녕하세요!데이터분리를 하실때 test_size = random_state=이거 숫자 기준을 어떻게 설정해야하나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
sort_values 값 저장
내림차순으로 정렬하고 값을 저장한줄 알았는데 계속 초기 값이 나옵니다ㅠㅠ 이 경우에는 저장이 안되는 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 기출유형 질문
선생님 2회 기출유형 강의를 듣다가 헷갈리는 부분이 있어서 질문드립니다.df[:10]과 df.iloc[:10]이 어떻게 다른게 헷갈립니다ㅠㅠ 또한 df.iloc[4:7]이면 4부터 6까지 3개의 데이터 값을 가져오는 거이고 df.iloc[:10]이면 0-9까지 총 10개의 데이터의 값을 가져오는 건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 모의문제 1번 질문 드립니다 ㅜㅜ
안녕하세요 선생님 제가 작업형 1 모의문제 1 강의 시청 전에두 가지 방법으로 풀이를 하였는데, 선생님 풀이방법과 조금 다르지만, 답은 완전히 다릅니다 ㅠㅜㅜㅠㅜㅠ혹시 몰라서 로데이터 CSV도 데이터전처리 요청사항대로 해서 풀었는데, 제 풀이 두 가지와 같은 답안인 3077이 나옵니다..(엑셀에서 데이터 전처리 이후 quantile 함수로 추출함) 혹시, 선생님의 풀이와 저의 풀이에 차이점이나 잘못된 점을 알려주 실 수 있을까요? < 1. 첫 번째 풀이 >< 2. 두 번째 풀이 >< 3. 선생님 풀이 >
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션3 모델링 및 평가(회귀)에서 오류가 떠요
위의 모든 코드들은 정상적으로 실행했고 강의 내용 따라하고 있는 중인데요.오류가 떠서 선생님 답안지로도 코드 실행해보니 이런 오류가 뜹니다..회귀 뿐 아니고 분류에서도 같은 오류가 계속 뜨던이런 경우는 어떤 실수를 한걸까요? ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
그룹바이 관련해서 질문드립니다!!
안녕하세요 선생님 문제를 풀다가 궁금한게 생겨서 질문드립니다.1. .주어진 전체 기간의 각 나라별 골득점수 상위 5개 국가와 그 득점수를 데이터프레임형태로 출력하라df.groupby('Country')['Goals'].sum().sort_values(ascending = False).head(5).to_frame()2. Iris 데이터 세트에서 species 변수 값별로 petal_length 상위 10개행의 평균값을 구한 후 , 평균 값의 합을 계산해라 최종값은 소수점 이하 반올림df.sort_values(['species', 'petal_length'], ascending = False).groupby('species').head(10).groupby('species')['petal_length'].mean().sum()1번에서는 나라별 골득점수를 그룹바이 한 다음에 상위 5개를 출력했는데 2번에서는 먼저 내림차순으로 정렬을 하고 그룹바이를 하더라고요1번처럼 이런식으로 해야 하는거 아닌가요? 둘의 차이점이 궁금합니다!!df.groupby('species')['petal_length'].mean().sort_values(ascending = False).head(5)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
그룹핑을 돌렸는데 결과는 나오는데 문구가 뜨는 원인을 모르겠어요.
<ipython-input-13-53df70509493>:2: FutureWarning: The default value of numeric_only in DataFrameGroupBy.mean is deprecated. In a future version, numeric_only will default to False. Either specify numeric_only or select only columns which should be valid for the function. df.groupby('원두').mean() 잘못된 부분이 있는지 알려주시면 감사하겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의고사1에서 마지막에 확률을 출력해서 파일로 저장하셨는데요.
안녕하세요.작업형2 모의고사1에서 마지막에 확률을 출력해서 파일로 저장하셨는데요. 확률을 구해서 저장한 이유가 있을까요?문제에는 그런 말이 없는 것 같아서 제가 문제를 잘못 이해했을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경살펴보기 강의 내용 질문드립니다.
안녕하세요 시험환경살펴보기 강의 보면서 따라하고있는데요 글자 지우려고 할때 백스페이스가 바로 안먹고 마우스로 지우려는 글자를 드래그한다음 눌러야 지워지는데 원래이런가요?작업형1 풀이하실때 from sklearn.preprocessing import minmax_scaleminmax_scale(df['qsec'])이렇게 푸셧는데요제가 알던것과 코드가 달라서 질문합니다 아래와 같이 작성했더니 에러가 뜨는데 이렇게하면 안되나요? from sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler()df['qsec'] = scaler.fit_transform(df['qsec']) 시험환경 작업형 2 문제가 아래와같은데, 강의영상과는 달리 남자일 확률을 구해야 하는지 여자일 확률을 구해야하는지 설명이 없네요 문제가 잘못된건가요? 아니면 이렇게 나오면 어떻게 풀어야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
선생님 항상 df으로 데이터를 받던데 이유가 있을까요 ?
실기 시험때도 항상 df로 데이터를 받아야 하나 해서요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험시 작업형3질문
실기 시험 응시 할 때 작업형3번에 종속변수랑 독립변수가 무엇인지 문제의 지문에서 알려주나요?ex) 종속변수 : ~~~~ 독립변수:~~~~ 그렇지 않으면 직접 찾아야 하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 출력값 True, False
원핫 인코딩 후 출력값이 True/False로 나오는데 1,0으로 나오는 것과 같은 건가요? 무시하고 계속 진행해도 괜찮은건지 궁금합니다!!! import pandas as pdtest = pd.read_csv("/kaggle/input/dataset/test.csv")train = pd.read_csv("/kaggle/input/dataset/train.csv")c_train = train.select_dtypes(include='O').copy()n_train = train.select_dtypes(exclude='O').copy()c_test = test.select_dtypes(include='O').copy()n_test = test.select_dtypes(exclude='O').copy() c_train = pd.get_dummies(c_train)c_test = pd.get_dummies(c_test)c_train.head()
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2 RandomForest 수행시 문제
다른 모델로 했을때는 강사님께서 하신 결과와 비슷한 값으로 출력되는데 랜덤 포레스트로 했을때는 좀 값이 크게 다른거 같아서 왜 그런지 궁금합니다.r2 : 0.22820072226799604 mae : 66.05190013633266 mse : 37780.327072499626rmse : 194.37162105744662 rmsle : 0.4927575606003991 mape : 45.697109330094285이렇게 나오는데 뭐가 문제일까요?코드의 오류인줄 알고 강의자료를 복붙해서 실행해도 위의 값이 나옵니다.
-
미해결[파이토치] 실전 인공지능으로 이어지는 딥러닝 - 기초부터 논문 구현까지
데이터 엔지니어의 역량을 기르려면 어떻게 해야할까요?
안녕하세요 강사님 ㅎㅎ사실 인공지능 쪽 열심히 공부하려고 강사님의 강의 거의 전부를 구매해서 듣고 있는 학생입니다. 요새 고민이 있어서 질문을 드립니다.. ㅎㅎ 저는 요새 최신논문 모델 구현 같은 경우 턱턱 막히는 부분도 많아서.. 그부분에서 실력의 한계를 많이 느끼는데요..실력을 기르기 위해서 그저 막연하게 캐글 competition expert가 되면 되지 않을까? 생각해서 일단 달성해보자 생각하면서 캐글팁이나 노하우 이런거 공부하고 EDA 스크립트나 common.py 같은 걸 만들며 최근 도전하는 중입니다. 혹시 강사님은 데이터엔지니어의 역량을 기르기 위한 로드맵이나 루틴이 있으신지, 만약 있으시다면 어떤 것들이 있는지 살짝 공유가능하실까요? 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4-1 작업형 예시 질문 있습니다
문제2주어진 데이터에서 결측치가 30%이상 되는 컬럼을 찾고 해당 컬럼에 결측치가 있는 데이터(행)를 삭제 함.그리고 30% 미만, 20% 이상인 결측치가 있는 컬럼은 최빈값으로 값을 대체하고'f3'컬럼의 'gold' 값을 가진 데이터 수를 출력하세요!문제가 지금 이런 형식인데요.제가 궁금한 것은, 결측치의 크기를 판단하는 판단하는 위치입니다.'f1' 칼럼을 dropna 하게되면 다른 행들도 영향을 받아서 결측치가 들어있는 행도 같이 날라가게 되는데각 칼럼별 결측치의 크기를 판단하는 위치는 모든 작업을 수행하기 전에 하는 것이 맞을까요? <제가 푼 코드># your codeimport pandas as pdimport numpy as nppd.set_option('display.max_columns', None)# file loadfile_path = "/content/drive/MyDrive/Colab Notebooks/빅데이터 분석기사/1. 작업형1/"df = pd.read_csv(file_path+"members.csv")check = []# find na over 30%for col in list(df.columns): check.append(df[col].isnull().sum()/len(df))for col, check in zip(list(df.columns), check): if check >= 0.3: df = df.dropna(subset=col) elif check < 0.3 and check >= 0.2: df[col] = df[col].fillna(df[col].mode()[0])print(len(df[df['f3'] == 'gold'])) <강의에서 알려준 코드># 풀이import pandas as pddf = pd.read_csv("members.csv")# print(df.isnull().sum())# print(len(df) * 0.3)# f1 삭제# f3 최빈값# print(df.shape)df = df.dropna(subset=['f1'])# print(df.shape)# print(df.head())df['f3'] = df['f3'].fillna(df['f3'].mode()[0])# print(df.head())# df.isnull().sum()print(sum(df['f3'] == 'gold'))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회기계수 질문입니다.
statsmodels를 사용한 회귀계수와 logisticregression을 사용한 회귀계수의 값이 다른데..무었을 잘못했는지 잘 모르겠습니다.. 원래 다른건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
data.atype.zip(수업노트에서 다운로드)
data_atype.zip(수업노트에서 다운로드) 라고 되어 있는데 수업노트가 어디있나요..? 찾아도 못찾겠어요.맥북 사용하고 있습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
drop을 쓸 때 하나씩만 삭제가 가능한가요?
안녕하세요! drop을 배워서 쓰고 있는데, drop은 하나씩만 삭제가 가능한가요? 여러개 삭제하려면 어떻게 해야하나요?