묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 분리 후 의사결정나무 실행 시 오류
# 의사결정나무 from sklearn.tree import DecisionTreeClassifier dt = DecisionTreeClassifier dt.fit(X_tr[cols], y_tr) pred = dt.predict_proba(X_val[cols]) 강의 순서대로 잘 따라하고 있었는데,y 인자가 없다는 오류가 나옵니다
-
미해결[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]
주피터 노트북 201_REGRESSION_BIKE_SHARING_MODELS 중 질문
안녕하세요 선생님주피터 노트북 201_REGRESSION_BIKE_SHARING_MODELS 중 Model Evaluation Test: LinearRegression 에 관하여 질문드립니다.predict_bikecount함수에서 , y_train 값을 casual_log 와 registered_log로 둔게 아닌 그냥 count 값으로 바로 사용했을때 predict값의 배열중에 음수 값으로 리턴 되는 것들이 있습니다. [코드 예시]X_train = df_train[ml_columns].copy()y_train = df_train['count'].copy()X_test = df_test[ml_columns].copy() LiRe = LinearRegression()LiRe_model = LiRe.fit(X_train, y_train)LiRe_model.predict(X_test) 리턴값 : array([-64.76111758, -55.17545696, -50.25089772, ..., 259.71536368, 271.23511233, 266.73978586])LinearRegression 뿐만아닌 Random Forest Regressor 같은 다른 모델을 사용 할 때도 count값을 log변환 하지 않고 바로 예측하게 되면 음수값이 예측되는데요.."kaggle 에서 rmsle로 scroing값을 제출 해야한다고 규칙이 정해져있어" log로 예측값을 변환한 후 처리하는 줄 알았는데, 그것보다 앞서 이런 회귀모델은 전부 내부적으로 처리될때 그냥 계산을 (로그변환을 하지 않고)하게되면 음수로 나오기 때문에 log처리를 해야하는건지... 정확하게 이해가 되지 않네요어떤 이유에서 바로 count (log처리를 하지 않고) 를 예측하게 되면 음수가 리턴 되는건가요?? - 본 강의 영상 학습 관련 문의에 대해 답변을 드립니다. (어떤 챕터 몇분 몇초를 꼭 기재부탁드립니다)- 이외의 문의등은 평생강의이므로 양해를 부탁드립니다- 현업과 병행하는 관계로 주말/휴가 제외 최대한 3일내로 답변을 드리려 노력하고 있습니다- 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3에 로지스틱회긔모형 질문입니다.
7회때 코딩하던 짬바로 호기롭게 갔다가 광탈했었네요...아무리 dir help 기능 믿고 가더라도 분류, 분석 등 언제 어느 것을 사용해야하는지 충분히 몸에 익혀야되겠더라고요... 7회때 작업형3에서 사용된 로지스틱회귀모형 문제는 강의 중에서는 7회 체험링크와 7회 실제 2번문제에만 있는건가요? 7회부터 다시 복기해보려하니 못 본거 같은 기억이... 나네요.. 다시 강의를 완독해야겠찌만import statsmodels.api as sm logit = sm.Logit(종속변수, 독립변수) 위 방법과 강의의 아래 방법이랑 같은 방법인가요?from statsmodels.formula.api import logit
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1. 문제3
왜 아래와 같이 풀면 총합이 맞지 않는지 알 수 있을까요??import pandas as pd df = pd.read_csv("members.csv") # df.head() df = df.dropna(subset = 'views') df["f3"] = df["f3"].fillna(0) df["f3"] = df["f3"].replace('silver',0).replace('gold',2).replace('vip',3) sum(df["f3"]) 또 어떨 때는 sum(df["f3"])이라고 작성하고 어떨 때는 df["f3"].sum()으로 작성하는지 차이점도 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
디스코드 스터디
디스코드 스터디 링크가 안들어가지는데 마감된걸까요??시험 한달전 참여할 수 있는 스터디는 따로 없는지 궁금합니다참여하고 싶습니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
양측검정, 단측검정 유의수준
안녕하세요~대응표본검정 강의 관련 문의 드립니다.귀무가설 기각여부는 양측검정과 단측검정 모두 유의수준 0.05 를 기준으로 판단하나요? 아니면 양측검정은 0.025, 단측검정은 0.05 를 기준으로 판단해야 하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4-3 type1 7번 문제
혹시 명령어를 다음과 같이 작성해도 될까요?답은 202로 동일하게 나왔습니다.df['mean'] = df.mean(axis=1) print(sum(df.loc[2001] > df.loc[2001,'mean']) + sum(df.loc[2003] < df.loc[2003,'mean']))
-
해결됨[파이토치] 실전 인공지능으로 이어지는 딥러닝 - 기초부터 논문 구현까지
7강 폴더 만들
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 폴더 만드는 부분에서 directory_create('x/x')를 하게 되면 x에 어떤 이름을 넣어도 다 이미 만들어졌다고만 뜨고 실제 드라이브 들어가면 아무것도 폴더가 생성이 안되었는데, 왜 그런건지 잘 모르겠어요. 그리고 현재 디렉토리 위치 설정하는 것도 이런 오류가 발생하는데, 구글 드라이브 마운트 할 때는 잘 됐었는데 이런 오류가 발생하네요..! cd/~ 의 코드를 실행하면 현재 디렉토리를 cd/~에서 ~에 해당하는 디렉토리로 이동해주는게 아닌가요? 아래 사진은 현재 드라이브 디렉토리 경로입니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
구버전 영상은 건너뛰어도 될까요?!
혹시 커리큘럼중에 위의 사진처럼 구버전은 안듣고 건너뛰어도 되는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모의문제 3 훈련율
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 저는 먼저 혼자 풀어보고 강의를 보는식으로 공부를 하는 중입니다. 베이스라인만 작성하여 아무처리 하지않고 데이터 분리후 (test size = 0.15 , random_state=2022) 최대한 영상과 똑같이 모델 훈련을 하였는데요스코어가 roc , auc , f1모두 자꾸 스코어가 1점으로 나와서 훈련율의 문제인가 싶어 런타임을 재실행하거나 그래도 자꾸 1로나오더라구요 그런데 훈련율 파라미터인 max_samples를 0.5로해도 1로 나오던게 0.01로 하니 인강과 비슷한 점수로 from sklearn.metrics import roc_auc_score, accuracy_score , f1_score model = RandomForestClassifier(random_state=2022,max_depth =5,max_samples =0.01 ) model.fit(X_tr,y_tr) pred = model.predict(X_val) pred_proba = model.predict_proba(X_val) print('roc:',roc_auc_score(y_val,pred_proba[:,1]),'\n' , 'accuracy:',accuracy_score(y_val,pred),'\n', 'f1:',f1_score(y_val,pred),'\n')>>>roc: 0.9712121212121212 accuracy: 0.8648648648648649 f1: 0.8717948717948718이렇게 나오더라구요 뭐가 문제인걸까요...? 데이터 전체갯수가 300개가 되지않아 과적합된것같단 생각은있는데 인강에서는 저랑 똑같이 진행했는데도 불구하고 점수가 잘나와서 의문이네요 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이원분산분석 C() 질문 있습니다.
안녕하세요. 강의 수강 중 질문이 있어 글 남깁니다.________________________________________________________첫 번째 질문이원 분산 분석 5분 30초 즈음, 모든 변수에 C()로 감싸주는게 차라리 속 편하다고 하셨는데, 만약 독립변수 중에 범주형이 아닌 수치형 변수에다가도 C()로 감싸주어도 될까요?+ 인프런 AI 댓글을 보고, 결론을 요약해보았습니다.이원 분산 분석에서1. object형 + 범주형 특성 => 앞에 C()를 붙인다.2. int/float형 + 범주형 특성 => 앞에 C()를 붙인다.3. int/float형 + 범주형 특성 X => 앞에 C()를 붙이지 않는다.요약한 내용이 맞을까요?________________________________________________________두 번째 질문또한 이원 분산 분석이 아니라, 일원 분산 분석에서 독립 변수가 범주형 변수면 C()로 감싸주어야 할까요?________________________________________________________세 번째 질문예시문제 작업형3 /로지스틱 회귀 강의 중 7분 12초 즈음에,model = logit("Survived ~ C(Gender) + SibSp + Parch + Fare", data=df).fit()부분에 SibSp 와 Parch는 수치형이지만 범주형 특성을 띄고 있는데, 이 부분에는 C()를 왜 안하는건지 여쭤보고 싶습니다! 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[기출] 공식 예시 문제 (로지스틱 회귀 포함) 예시문제 작업형1에서
민맥스 스케일링 할 때print('MinMax Scale 변환 전: \n',data['qsec'].head())에서\n 부분은 어떤 역할을 하는건가요??그냥 규칙인가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험에서 질문이 있습니다.
시험에 전반적으로 궁금한 점인데요예를 들어 작업형1 모의문제1에서 2번문제 같은경우 주어진 데이터에서 결측치가 30%이상 되는 컬럼을 찾고 해당 컬럼에 결측치가 있는 데이터(행)를 삭제 함. 이런 조건이 있는데요 이런 문제를 풀때 그냥전체 갯수에서 30%에 해당하는 갯수 확인하고isna().sum()이용해서 30% 넘어가는것 갯수확인하고해당하는 column 확인해서 그냥 지정해서 지워주고 이런식으로 풀면 되는건가요? 아니면count=len(df)*0.3 check=df.columns for i in check: if df[i].isna().sum()>count: df=df.dropna(subset=i)이런 식으로 코드 내에 30%를 확인해서 지워주는 부분을포함해야 하는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라벨 인코딩 반복문
수치형 민맥스 스케일링 할때는 반복문을 사용하지 않고 한번에 함수에 넣고 fit_transform하였는데 왜 라벨 인코딩 (문자열)은 한번에 처리 안되고 반복문을 통해서 하나씩 함수에 넣어야 하나요?
-
미해결처음하는 딥러닝과 파이토치(Pytorch) 부트캠프 (쉽게! 기본부터 챗GPT 핵심 트랜스포머까지) [데이터분석/과학 Part3]
test data 의 loss 계산식 문의
10_ADVANCE-EXAMPLE-MILTI-LABEL-CLASSIFICATION 과 11_MILTI-LABEL-CLASSIFICATION-DROPOUT-BATCHNORMALIZATION 강의자료에서 맨 밑부분의 테스트셋 기반 Evaluation 에서 test_loss 를 계산할 때 전체 데이터인 10000으로 나누셨는데, 왜 그러신건지 궁금해서 질문드립니다.train 과 validation 의 loss 계산은 train_batches 와 val_batches 개수(for문 도는 횟수) 만큼만 나누셨는데 test loss 를 계산할 때는 minibatch 가 아닌 전체 데이터로 나누셔서 상대적으로 test data 의 loss 값이 작아보여서요.test_loss = 0correct = 0wrong_samples, wrong_preds, actual_preds = list(), list(), list()model.eval()with torch.no_grad(): for x_minibatch, y_minibatch in test_batches: y_test_pred = model(x_minibatch.view(x_minibatch.size(0), -1)) test_loss += loss_func(y_test_pred, y_minibatch) pred = torch.argmax(y_test_pred, dim=1) correct += pred.eq(y_minibatch).sum().item() wrong_idx = pred.ne(y_minibatch).nonzero()[:, 0].numpy().tolist() for index in wrong_idx: wrong_samples.append(x_minibatch[index]) wrong_preds.append(pred[index]) actual_preds.append(y_minibatch[index]) test_loss /= len(test_batches.dataset)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션4 평가지표 강의 13:50에서
pd.get_dummies(y_true[0])위 코드를 실행하면 강의에서는 0,1로 df이 보여지는데 제 실행결과에서는 True, False로 보여집니다어느 부분에서 차이가 난걸까요?? (이전 셀 모두 실행하기 적용해도 출력이 동일합니다)
-
해결됨비전공자를 위한 진짜 입문 올인원 개발 부트캠프
CRUD에서 CR만 배우는건가요
수정 삭제는 sqlite로 직접 만져야되나요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출 소문제 2-1 궁금합니다!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요알찬 강의 너무너무 감사드립니다!선생님의 강의와 함께 다음달 시험을 위해서 열심히 달려가는 중입니다..😊😊 기출7회의 소문제 2-1에서 상관관계가 가장 높은 변수를 찾으라고 할때7회의 작업형 1처럼df_corr=df.corr().abs()print(df_corr[1:].idxmax()) 값으로 구했는데요!상관관계 값을 보고싶을 때는 어떤 함수를 작성하면 될까요 ?df_corr.sort_values(ascending=False)이렇게 정렬한 다음에df_corr[1]이렇게 확인하는 것이 맞을까요 ?다른 좋은 방법이 있을까요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회기출의 작업형2 인강 관련 궁금한점이 있습니다.
[영상 위치]19분 20초 [문의사항]모델 4가지를 선택해서 불러오고 학습하고 predict 를 한 상황인데요, 영상 기준으로 XG부스터가 가장 예측점수가 높게 나온 상황이고, 마지막에 X_test 를 예측할 때 적용되는 model.predict_proba 에서 바로 위에 있는 XG부스터 모델이 선택된걸로 보면 되는거죠? 요약하자면 로지스틱, 의사결정나무, 랜포의 pred 가 아닌 XGB pred값으로 최종 선택된 상황인게 맞는지 궁금합니다.
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
tiny kitti 데이터로 MMDectection Train 실습에서 클래스 id 질문
기존에 학습된 모델을 가지고 새로운 데이터로 학습하는데, 라벨이 기존 학습된 모델의 라벨과 맞춰져야 하는 거 아닌가요? gt_labels.append(cat2label[bbox_name])에서 'Car', 'Truck', 'Pedestrian','Cyclist' 의 라벨번호가기존 학습된 모델의 'Car', 'Truck', 'Pedestrian','Cyclist'의 라벨번호와 같아야 하는 것이 아닌지 문의합니다.