묻고 답해요
169만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
양측검정, 단측검정 유의수준
안녕하세요~대응표본검정 강의 관련 문의 드립니다.귀무가설 기각여부는 양측검정과 단측검정 모두 유의수준 0.05 를 기준으로 판단하나요? 아니면 양측검정은 0.025, 단측검정은 0.05 를 기준으로 판단해야 하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4-3 type1 7번 문제
혹시 명령어를 다음과 같이 작성해도 될까요?답은 202로 동일하게 나왔습니다.df['mean'] = df.mean(axis=1) print(sum(df.loc[2001] > df.loc[2001,'mean']) + sum(df.loc[2003] < df.loc[2003,'mean']))
-
해결됨[파이토치] 실전 인공지능으로 이어지는 딥러닝 - 기초부터 논문 구현까지
7강 폴더 만들
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 폴더 만드는 부분에서 directory_create('x/x')를 하게 되면 x에 어떤 이름을 넣어도 다 이미 만들어졌다고만 뜨고 실제 드라이브 들어가면 아무것도 폴더가 생성이 안되었는데, 왜 그런건지 잘 모르겠어요. 그리고 현재 디렉토리 위치 설정하는 것도 이런 오류가 발생하는데, 구글 드라이브 마운트 할 때는 잘 됐었는데 이런 오류가 발생하네요..! cd/~ 의 코드를 실행하면 현재 디렉토리를 cd/~에서 ~에 해당하는 디렉토리로 이동해주는게 아닌가요? 아래 사진은 현재 드라이브 디렉토리 경로입니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
구버전 영상은 건너뛰어도 될까요?!
혹시 커리큘럼중에 위의 사진처럼 구버전은 안듣고 건너뛰어도 되는걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 모의문제 3 훈련율
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 저는 먼저 혼자 풀어보고 강의를 보는식으로 공부를 하는 중입니다. 베이스라인만 작성하여 아무처리 하지않고 데이터 분리후 (test size = 0.15 , random_state=2022) 최대한 영상과 똑같이 모델 훈련을 하였는데요스코어가 roc , auc , f1모두 자꾸 스코어가 1점으로 나와서 훈련율의 문제인가 싶어 런타임을 재실행하거나 그래도 자꾸 1로나오더라구요 그런데 훈련율 파라미터인 max_samples를 0.5로해도 1로 나오던게 0.01로 하니 인강과 비슷한 점수로 from sklearn.metrics import roc_auc_score, accuracy_score , f1_score model = RandomForestClassifier(random_state=2022,max_depth =5,max_samples =0.01 ) model.fit(X_tr,y_tr) pred = model.predict(X_val) pred_proba = model.predict_proba(X_val) print('roc:',roc_auc_score(y_val,pred_proba[:,1]),'\n' , 'accuracy:',accuracy_score(y_val,pred),'\n', 'f1:',f1_score(y_val,pred),'\n')>>>roc: 0.9712121212121212 accuracy: 0.8648648648648649 f1: 0.8717948717948718이렇게 나오더라구요 뭐가 문제인걸까요...? 데이터 전체갯수가 300개가 되지않아 과적합된것같단 생각은있는데 인강에서는 저랑 똑같이 진행했는데도 불구하고 점수가 잘나와서 의문이네요 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이원분산분석 C() 질문 있습니다.
안녕하세요. 강의 수강 중 질문이 있어 글 남깁니다.________________________________________________________첫 번째 질문이원 분산 분석 5분 30초 즈음, 모든 변수에 C()로 감싸주는게 차라리 속 편하다고 하셨는데, 만약 독립변수 중에 범주형이 아닌 수치형 변수에다가도 C()로 감싸주어도 될까요?+ 인프런 AI 댓글을 보고, 결론을 요약해보았습니다.이원 분산 분석에서1. object형 + 범주형 특성 => 앞에 C()를 붙인다.2. int/float형 + 범주형 특성 => 앞에 C()를 붙인다.3. int/float형 + 범주형 특성 X => 앞에 C()를 붙이지 않는다.요약한 내용이 맞을까요?________________________________________________________두 번째 질문또한 이원 분산 분석이 아니라, 일원 분산 분석에서 독립 변수가 범주형 변수면 C()로 감싸주어야 할까요?________________________________________________________세 번째 질문예시문제 작업형3 /로지스틱 회귀 강의 중 7분 12초 즈음에,model = logit("Survived ~ C(Gender) + SibSp + Parch + Fare", data=df).fit()부분에 SibSp 와 Parch는 수치형이지만 범주형 특성을 띄고 있는데, 이 부분에는 C()를 왜 안하는건지 여쭤보고 싶습니다! 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[기출] 공식 예시 문제 (로지스틱 회귀 포함) 예시문제 작업형1에서
민맥스 스케일링 할 때print('MinMax Scale 변환 전: \n',data['qsec'].head())에서\n 부분은 어떤 역할을 하는건가요??그냥 규칙인가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험에서 질문이 있습니다.
시험에 전반적으로 궁금한 점인데요예를 들어 작업형1 모의문제1에서 2번문제 같은경우 주어진 데이터에서 결측치가 30%이상 되는 컬럼을 찾고 해당 컬럼에 결측치가 있는 데이터(행)를 삭제 함. 이런 조건이 있는데요 이런 문제를 풀때 그냥전체 갯수에서 30%에 해당하는 갯수 확인하고isna().sum()이용해서 30% 넘어가는것 갯수확인하고해당하는 column 확인해서 그냥 지정해서 지워주고 이런식으로 풀면 되는건가요? 아니면count=len(df)*0.3 check=df.columns for i in check: if df[i].isna().sum()>count: df=df.dropna(subset=i)이런 식으로 코드 내에 30%를 확인해서 지워주는 부분을포함해야 하는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라벨 인코딩 반복문
수치형 민맥스 스케일링 할때는 반복문을 사용하지 않고 한번에 함수에 넣고 fit_transform하였는데 왜 라벨 인코딩 (문자열)은 한번에 처리 안되고 반복문을 통해서 하나씩 함수에 넣어야 하나요?
-
미해결처음하는 딥러닝과 파이토치(Pytorch) 부트캠프 (쉽게! 기본부터 챗GPT 핵심 트랜스포머까지) [데이터분석/과학 Part3]
test data 의 loss 계산식 문의
10_ADVANCE-EXAMPLE-MILTI-LABEL-CLASSIFICATION 과 11_MILTI-LABEL-CLASSIFICATION-DROPOUT-BATCHNORMALIZATION 강의자료에서 맨 밑부분의 테스트셋 기반 Evaluation 에서 test_loss 를 계산할 때 전체 데이터인 10000으로 나누셨는데, 왜 그러신건지 궁금해서 질문드립니다.train 과 validation 의 loss 계산은 train_batches 와 val_batches 개수(for문 도는 횟수) 만큼만 나누셨는데 test loss 를 계산할 때는 minibatch 가 아닌 전체 데이터로 나누셔서 상대적으로 test data 의 loss 값이 작아보여서요.test_loss = 0correct = 0wrong_samples, wrong_preds, actual_preds = list(), list(), list()model.eval()with torch.no_grad(): for x_minibatch, y_minibatch in test_batches: y_test_pred = model(x_minibatch.view(x_minibatch.size(0), -1)) test_loss += loss_func(y_test_pred, y_minibatch) pred = torch.argmax(y_test_pred, dim=1) correct += pred.eq(y_minibatch).sum().item() wrong_idx = pred.ne(y_minibatch).nonzero()[:, 0].numpy().tolist() for index in wrong_idx: wrong_samples.append(x_minibatch[index]) wrong_preds.append(pred[index]) actual_preds.append(y_minibatch[index]) test_loss /= len(test_batches.dataset)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션4 평가지표 강의 13:50에서
pd.get_dummies(y_true[0])위 코드를 실행하면 강의에서는 0,1로 df이 보여지는데 제 실행결과에서는 True, False로 보여집니다어느 부분에서 차이가 난걸까요?? (이전 셀 모두 실행하기 적용해도 출력이 동일합니다)
-
해결됨비전공자를 위한 진짜 입문 올인원 개발 부트캠프
CRUD에서 CR만 배우는건가요
수정 삭제는 sqlite로 직접 만져야되나요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출 소문제 2-1 궁금합니다!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요알찬 강의 너무너무 감사드립니다!선생님의 강의와 함께 다음달 시험을 위해서 열심히 달려가는 중입니다..😊😊 기출7회의 소문제 2-1에서 상관관계가 가장 높은 변수를 찾으라고 할때7회의 작업형 1처럼df_corr=df.corr().abs()print(df_corr[1:].idxmax()) 값으로 구했는데요!상관관계 값을 보고싶을 때는 어떤 함수를 작성하면 될까요 ?df_corr.sort_values(ascending=False)이렇게 정렬한 다음에df_corr[1]이렇게 확인하는 것이 맞을까요 ?다른 좋은 방법이 있을까요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회기출의 작업형2 인강 관련 궁금한점이 있습니다.
[영상 위치]19분 20초 [문의사항]모델 4가지를 선택해서 불러오고 학습하고 predict 를 한 상황인데요, 영상 기준으로 XG부스터가 가장 예측점수가 높게 나온 상황이고, 마지막에 X_test 를 예측할 때 적용되는 model.predict_proba 에서 바로 위에 있는 XG부스터 모델이 선택된걸로 보면 되는거죠? 요약하자면 로지스틱, 의사결정나무, 랜포의 pred 가 아닌 XGB pred값으로 최종 선택된 상황인게 맞는지 궁금합니다.
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
tiny kitti 데이터로 MMDectection Train 실습에서 클래스 id 질문
기존에 학습된 모델을 가지고 새로운 데이터로 학습하는데, 라벨이 기존 학습된 모델의 라벨과 맞춰져야 하는 거 아닌가요? gt_labels.append(cat2label[bbox_name])에서 'Car', 'Truck', 'Pedestrian','Cyclist' 의 라벨번호가기존 학습된 모델의 'Car', 'Truck', 'Pedestrian','Cyclist'의 라벨번호와 같아야 하는 것이 아닌지 문의합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[MOCK EXAM] T2. EXAM template-캐글 모의고사
강사님 안녕하세요 🙂kaggle에 올려주신 모의 고사 문제 풀이 중인데 모의고사 문제 작업형2에서 RandomForestClassifier로 진행하여 예측 csv를 만들었지만 다른 방법도 시도해보고자 XGBoost도 실행해보니 오류가 뜨더라구요 이 문제에서는 XGBoost 모델링이 힘든건가 하여 질문드려요 😢 # XGBoost(오류) from xgboost import XGBClassifier xgb = XGBClassifier() xgb.fit(X_tr,y_tr) pred = xgb.predict_proba(X_val)[:,1] roc_auc_score(y_val,pred)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩 결과 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요. 피쳐 엔지니어링 원핫인코딩 결과 display 해보면 저는 왜 0, 1 값이 아닌 True, False로 나올까요.. ? 아래 코드입니다. display(c_train.head())는 정상적으로 출력됩니다. # 원핫 인코딩 n_train, n_test, c_train, c_test = get_nc_data() # 데이터 새로 불러오기 display(c_train.head()) c_train = pd.get_dummies(c_train[col]) c_test = pd.get_dummies(c_test[col]) display(c_train.head())
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출6회 작업형3에서 데이터프레임 형성시 오류요ㅠㅠ
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요예측값을 구하려고 데이터프레임을 만들고 있었습니다!숫자라 단순히 숫자만 쓰고 넘어가려고 했는데, 위 사진처럼 오류가 나요...이건 왜그러는 걸까요 ?작업형2에서는 문제없이 되었던것 같은데요ㅠㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
윌콕슨 부호 순위 검정에 대해서
안녕하세요.섹션 6 단일 표본 검정에서 데이터가 정규성을 띄지 않을때비모수검정을 진행하셨는데요.윌콕슨 부호 순위 검정은 평균에 대한 검정이 아니라 중앙값에 대한 검정으로 알고 있습니다.그런데 stats.wilcoxon(df['무게']-120, alternative='less')라고 평균값 120을 무게에서 빼서 진행되었는데 120대신 중앙값을 넣어야 되는것 아닌가해서 질문드립니다.문제 상황에서는 중앙값을 알려주지 않았기 때문에 평균값을 쓴것인지 아니면 윌콕슨 부호 순위 검정에서 평균값을 써도 되는 근거가 있는 것인지 궁금합니다.
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
Spark Structured Streaming Gracefully shutdown 질문
안녕하세요. 좋은 강의 재밌게 수강하고 있습니다.Spark Structured Streaming Fault Tolerance 강의에서 아래와 같이 gracefully 하게 스트리밍을 종료할 수 있다고 말씀 주신 부분에서 질문이 있습니다..config("spark.streaming.stopGracefullyOnShutdown", "true")현재 업무에서 Spark Streaming을 사용했을 때 아래 코드와 같이 파라미터에 명확하게 stopGracefully 이 존재하여서 이를 이용하여 스트리밍을 안전하게 종료했습니다.def stop(stopSparkContext: Boolean, stopGracefully: Boolean): Unit 하지만, Spark Strucutred Streaming으로 전환했을 때 이러한 파라미터가 존재하지 않아서, 아래 링크를 참고하여 직접 구현하였습니다. https://stackoverflow.com/questions/45717433/stop-structured-streaming-query-gracefully 강의에서 알려주신 것처럼 아래와 같이 사용하면 동일하게 Structured Streaming도 Gracefully하게 종료할 수 있다고 이해하면 될까요? .config("spark.streaming.stopGracefullyOnShutdown", "true")Gracefully 스트리밍을 종료 한다라는 의미가 현재 처리 중인 마이크로 배치까지는 모두 다 처리 및 체크포인트 작성까지 한 후 스트리밍 종료로 이해하면 될까요?마지막으로, DR 같이 스트리밍 종료가 아닌 클러스터가 모두 비정상적으로 종료되었을 경우 Gracefully 옵션이 적용되지 않는 케이스를 경험 했는데, 이런한 케이스는 현업에서 주로 어떻게 대처하고 있을까요?(예를 들어 체크 포인트 등이 불일치하게 스트리밍이 종료)감사합니다.