묻고 답해요
130만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀모형 질문
문제2. 에버비엔비 가격은?평가: R_Squared, MAE, MSE, RMSE, RMSLE, MAPE문제에서 #데이터 전처리train = train.drop('id', axis=1)test_id = test.pop('id')target = train.pop('price') a = [ 'name', 'host_id', 'host_name', 'last_review' ]train = train.drop(a, aixs=1)test = test.drop(a, axis=1)train[reviews_per_month] = train[reviews_per_month].fillna(0)test[reviews_per_month] = test[reviews_per_month].fillna(0) #라벨인코딩 cols = train.select_dtypes(include='object').columns from sklearn.preprocessing import LabelEncoderle = LabelEncoder() for col in cols: train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) #train_test_splitfrom sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=2022) #랜덤포레스트from sklearn.ensemble import RandomForestRegressorrf = RandomForestRegressor()rf.fit(X_tr, y_tr)pred = rf.predict(X_val) #rmsefrom sklearn.metrics import mean_sqaured_error def rmse(y_val, pred): return mean_squared_error(y_val, pred)**2(질문1)이렇게 했는데 rmse에서 **2까지 입력하면 예측값이 0.xx라고 출력되어야 하지 않나요?**2까지 입력했는데 아무 값도 출력이 안되네요ㅠ그리고 데이터 저장 후에는 price가 406, 160..이렇게 출력됩니다!강사님 풀이에는 295, 155..이던데값이 달라도 괜찮은건가요? (질문2)이후 강의에서 rmse를 from sklearn.metrics import mean_squared_errordef rmse(y_val, pred): return mean_squared_error(y_val, pred)**2로 하시던데 rmsle나 mape도 numpy를 사용하지 않고 간단하게 표현하는 방법이 있을까요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
정밀도와 재현율의 트레이드오프(Trade off) - 01
정밀도와 재현율은 Trade-off관계가 있다고 하였는데, confusion matrix에서 Positive로 예측할 확률이 높아지면 FP와 TP가 같은 비율로 증가하게 되고 결과적으로 임계치가 낮아져 Positive로 분류할 확률이 높아지더라도 정밀도는 동일한 것 같다고 생각이 됩니다. 제 생각에서 잘 못 된 것이 무엇인지 모르겠습니다. 재현율은 당연히 높아지는 데, 정밀도는 왜 감소하는지 이해되지 않습니다. 만약 Positive로 예측할 확률이 높아지는 경우에 FP와 TP가 같은 비율만큼 증가하는 것이 아니라면 반드시 FP증가율이 TP증가율보다 커져서 필연적으로 정밀도가 증가할 수 밖에 없는 것인지도 궁금하며, 이유도 궁금합니다.
-
미해결캐글 Advanced 머신러닝 실전 박치기
# credit_card_balance 데이터셋 피쳐엔지니어링
선생님 안녕하세요 피쳐엔지니어링을 하면서 아래 궁금증이 생겼습니다. 보통 dict aggregation으로 통계변수를 생성할때 (알려주신 루틴이 정말 효율적인 코드를 작성하는데 도움이 됩니다.)min,mean,max를 사용하시는데요 ID는 cnt만 사용하는 것도 이해가 되는데 어떤 경우에는 일수관련한 변수인데 min이 없더라구요 POS_IS_DPD'그리고 어떤 경우에는 sum이 추가되어 있구 (예) DAYS_ENTRY_PAYMENT) 이런 결정은 수차례 실험후 내리신 결정인가요?아니면 어떤 규칙같은것이 있을까요? 강의 내용은 없어서 노하우를 전수받고 싶습니다.(사실 이런부분이 제일 판단하기가 어려워서요, 기본적은 가이드라인을 갖고 피쳐엔지니어링을 하고 싶습니다. )
-
미해결처음하는 딥러닝과 파이토치(Pytorch) 부트캠프 [데이터과학 Part3]
섹션 7-4 당뇨병
당뇨병 문제에서 직접 이상치 제거하는 게 손실 함수 줄이는데 도움이 될거라고 생각했는데 오히려 너무 커져버려서 왜 그런 건지 궁금합니다. 또 직접 제거하는 방식 말고 다르게 이상치 탐지하는 게 딥러닝에는 따로 있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
대응표본검정관련해서
안녕하세요? 대응표본 검정관련해서요 사피로 검정 전에 있는 귀무가설 u>= 0대립가설 u>0 이라고 되어 있는데요. 보통 이런 경우는 대립가설이 u<0 이 되는거 아닌가요?설명을 듣다보면, 귀무가설이 u<=0 이 아닌지?
-
미해결비전공자를 위한 진짜 입문 올인원 개발 부트캠프
Link 적용하기 관련 문의드립니다.
Link 수업 듣는 중에 아래 질문과 같이 동일한 문제가 발생했는데요(상품 클릭 시, 링크 변경은 되는데 페이지 이동이 안되는 현상)https://www.inflearn.com/questions/645148/link-%EC%A0%81%EC%9A%A9%ED%95%98%EA%B8%B0-%EA%B4%80%EB%A0%A8%EC%A7%88%EB%AC%B8 질문 확인하고<React.StrictMode> 을 제거하기 전에는 상품카드를 클릭했을때 url만 변경되고 페이지가 새로고침되지 않았습니다.<React.StrictMode> 제거해야지만 클릭시 url변경 + 페이지 새로고침까지 되었습니다강의와 동일하게 작성하였는데 왜 <React.StrictMode> 제거 후 문제가 해결된걸까요?
-
미해결캐글 Advanced 머신러닝 실전 박치기
초거대 데이터셋을 Submission하려면?
안녕하세요, 캐글 공부하다가 궁금증이 생겼습니다. 제가 참여하고 있는 Closed 대회 데이터가 워낙 커지니 모델의 크기도 그만큼 커지게 되는데, 이때 Kaggle Notebook은 성능이 그닥 좋지 못해서 모델 학습 시간이 너무 오래 걸려 Timeout되거나 OOM이 뜹니다. 이를 해결하는 방법이 어떤 게 있을까요?
-
미해결파이썬을 활용한 머신러닝 딥러닝 입문
tf.data 를 이용한 shuffling and batch 구성 관련 문의
좋은강의 감사합니다.tf.data 를 이용한 shuffling and batch 구성 관련 문의 드립니다.tf.data 를 이용한 shuffling and batch 구성하는 경우의 코드(아래코드)를tf.data 를 이용한 shuffling and batch 구성하지 않는 경우로 변경하는 경우 아래코드를 어떻게 변경해야하나요?-아래-train_ds = tf.data.Dataset.from_tensor_slices((X_train_scaled, y_train_onehot))\.shuffle(10000).batch(128)test_ds = tf.data.Dataset.from_tensor_slices((X_test_scaled, y_test_onehot)).batch(128)..history = model.fit(train_ds, epochs=5, validation_data=test_ds)답변부탁드립니다.2024.3.9
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
시각화 관련하여 문의드립니다.
안녕하세요, 선생님개발 비전공자 수강생입니다.선생님의 sql강의로 sql을 입문하여, 현재 sql은 어느정도 다루고 있습니다.이번에 머신러닝에 관심이 생겨서간단하게 파이썬에 대한 문법정도만 익혀서 머신러닝 강의를 듣고있는데,머신러닝에 대하여 아무것도 모르는 상태로,복습을 하면서 하다보니시각화쪽도 학습해야 할 분량이 많더라구요.머신러닝을 습득하기 위해서는 시각화가 꼭 필수로 알고 넘어가야 할까요?시각화를 제외한 부분을 손에 익인 후에, 시각화를 추후에 학습는 학습은 어떠한가요?머신러닝에 대하여 잘 몰라서, 시각화 부분을 필수로 익히고 넘어가야 하는지 문의드립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
RMSLE 관련 로그 함수관련 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요? 제가 LOG 함수관련해서 조작법이 서툴러서요. RMSLE관련해서 공식을 찾아보니 아래오 같더라구요근데, 강의자료에 작성된 코딩을 보면 11sqrt(np.mean(np.power(np.log1p(y_test) - np.log1p(y_pred), 2))) 와 같습니다. 여기서 np. log1p(t_test) 이 코딩과 위에 공식이 같은건가요. +1이 여긴 반영되어 있는건지 모르겠습니다. 로그관련 설명을 좀 부탁드리겠습니다.
-
미해결딥러닝 CNN 완벽 가이드 - Fundamental 편
학습이 이상하게 됩니다.
당장 문의드리는 것은 CIFAR10_Pretained이지만 다른 예제를 실행해도 같은 에러가 납니다. tr_data_len = tr_images.shape[0]val_data_len = val_images.shape[0]history = vgg_model.fit(flow_tr_gen, epochs=40,steps_per_epoch=int(np.ceil(tr_data_len/BATCH_SIZE)),validation_data=flow_val_gen,validation_steps=int(np.ceil(val_data_len/BATCH_SIZE)),callbacks=[rlr_cb, ely_cb])) 이 셀을 실행시키면, 이런 식으로 홀수만 학습이 되고 짝수는 학습이 안 됩니다.이 학습시킨 것을 그래프로 나타내면 0이 되었다가 정상적으로 되었다가 반복을 하네요.예전에 예제를 실행시켰을때는 이런 오류가 없었는데 버전이 업데이트되면서 안되는것 같습니다.Adam 함수에 매개변수 lr=을 입력할 때도 에러가 나서 learning_rate=로 변경해야하는 식으로 자잘한 문제도 있습니다.많은 예제에서 같은 오류가 나는 것을 보아 업데이트된 캐글 커널 버전에 맞춰서 코드를 전체적으로 수정하셔야할 필요가 있을것 같습니다.감사합니다. Epoch 1/40 /opt/conda/lib/python3.10/site-packages/keras/src/trainers/data_adapters/py_dataset_adapter.py:122: UserWarning: Your `PyDataset` class should call `super().__init__(**kwargs)` in its constructor. `**kwargs` can include `workers`, `use_multiprocessing`, `max_queue_size`. Do not pass these arguments to `fit()`, as they will be ignored. self._warn_if_super_not_called() 10/665 ━━━━━━━━━━━━━━━━━━━━ 12s 19ms/step - accuracy: 0.0987 - loss: 3.5617WARNING: All log messages before absl::InitializeLog() is called are written to STDERR I0000 00:00:1709598886.339819 103 device_compiler.h:186] Compiled cluster using XLA! This line is logged at most once for the lifetime of the process. 665/665 ━━━━━━━━━━━━━━━━━━━━ 31s 30ms/step - accuracy: 0.1981 - loss: 2.1133 - val_accuracy: 0.4116 - val_loss: 1.5764 Epoch 2/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 0s 28us/step - accuracy: 0.0000e+00 - loss: 0.0000e+00 - val_accuracy: 0.0000e+00 - val_loss: 0.0000e+00 Epoch 3/40 7/665 ━━━━━━━━━━━━━━━━━━━━ 12s 18ms/step - accuracy: 0.4141 - loss: 1.5560/opt/conda/lib/python3.10/contextlib.py:153: UserWarning: Your input ran out of data; interrupting training. Make sure that your dataset or generator can generate at least `steps_per_epoch * epochs` batches. You may need to use the `.repeat()` function when building your dataset. self.gen.throw(typ, value, traceback) 665/665 ━━━━━━━━━━━━━━━━━━━━ 13s 19ms/step - accuracy: 0.4451 - loss: 1.4449 - val_accuracy: 0.5769 - val_loss: 1.2619 Epoch 4/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 0s 16us/step - accuracy: 0.0000e+00 - loss: 0.0000e+00 - val_accuracy: 0.0000e+00 - val_loss: 0.0000e+00 Epoch 5/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 13s 19ms/step - accuracy: 0.5782 - loss: 1.1673 - val_accuracy: 0.5975 - val_loss: 1.1887 Epoch 6/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 0s 17us/step - accuracy: 0.0000e+00 - loss: 0.0000e+00 - val_accuracy: 0.0000e+00 - val_loss: 0.0000e+00 Epoch 7/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 13s 19ms/step - accuracy: 0.6474 - loss: 1.0090 - val_accuracy: 0.6819 - val_loss: 1.1508 Epoch 8/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 0s 17us/step - accuracy: 0.0000e+00 - loss: 0.0000e+00 - val_accuracy: 0.0000e+00 - val_loss: 0.0000e+00 Epoch 9/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 13s 19ms/step - accuracy: 0.6889 - loss: 0.8978 - val_accuracy: 0.6689 - val_loss: 1.2804 Epoch 10/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 0s 16us/step - accuracy: 0.0000e+00 - loss: 0.0000e+00 - val_accuracy: 0.0000e+00 - val_loss: 0.0000e+00 Epoch 11/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 13s 19ms/step - accuracy: 0.7189 - loss: 0.8345 - val_accuracy: 0.7216 - val_loss: 1.0568 Epoch 12/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 0s 17us/step - accuracy: 0.0000e+00 - loss: 0.0000e+00 - val_accuracy: 0.0000e+00 - val_loss: 0.0000e+00 Epoch 13/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 13s 19ms/step - accuracy: 0.7289 - loss: 0.8169 - val_accuracy: 0.7328 - val_loss: 1.3400 Epoch 14/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 0s 17us/step - accuracy: 0.0000e+00 - loss: 0.0000e+00 - val_accuracy: 0.0000e+00 - val_loss: 0.0000e+00 Epoch 15/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 13s 19ms/step - accuracy: 0.7646 - loss: 0.7047 - val_accuracy: 0.6892 - val_loss: 1.1569 Epoch 16/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 0s 16us/step - accuracy: 0.0000e+00 - loss: 0.0000e+00 - val_accuracy: 0.0000e+00 - val_loss: 0.0000e+00 Epoch 17/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 13s 19ms/step - accuracy: 0.7645 - loss: 0.7083 - val_accuracy: 0.7511 - val_loss: 0.9342 Epoch 18/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 0s 16us/step - accuracy: 0.0000e+00 - loss: 0.0000e+00 - val_accuracy: 0.0000e+00 - val_loss: 0.0000e+00 Epoch 19/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 13s 19ms/step - accuracy: 0.7857 - loss: 0.6478 - val_accuracy: 0.7740 - val_loss: 0.9626 Epoch 20/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 0s 16us/step - accuracy: 0.0000e+00 - loss: 0.0000e+00 - val_accuracy: 0.0000e+00 - val_loss: 0.0000e+00 Epoch 21/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 13s 19ms/step - accuracy: 0.8012 - loss: 0.6048 - val_accuracy: 0.7763 - val_loss: 0.7990 Epoch 22/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 0s 16us/step - accuracy: 0.0000e+00 - loss: 0.0000e+00 - val_accuracy: 0.0000e+00 - val_loss: 0.0000e+00 Epoch 23/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 13s 19ms/step - accuracy: 0.8056 - loss: 0.5998 - val_accuracy: 0.7719 - val_loss: 0.8663 Epoch 24/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 0s 16us/step - accuracy: 0.0000e+00 - loss: 0.0000e+00 - val_accuracy: 0.0000e+00 - val_loss: 0.0000e+00 Epoch 25/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 13s 19ms/step - accuracy: 0.8196 - loss: 0.5483 - val_accuracy: 0.7731 - val_loss: 0.8920 Epoch 26/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 0s 16us/step - accuracy: 0.0000e+00 - loss: 0.0000e+00 - val_accuracy: 0.0000e+00 - val_loss: 0.0000e+00 Epoch 27/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 13s 19ms/step - accuracy: 0.8313 - loss: 0.5199 - val_accuracy: 0.7960 - val_loss: 0.8204 Epoch 28/40 665/665 ━━━━━━━━━━━━━━━━━━━━ 0s 16us/step - accuracy: 0.0000e+00 - loss: 0.0000e+00 - val_accuracy: 0.0000e+00 - val_loss: 0.0000e+00 Epoch 29/40
-
해결됨비전공자를 위한 진짜 입문 올인원 개발 부트캠프
현재 강의 Express 프레임워크 사용하기 를 듣고 있는데요
이전 강의인 그랩 마켓 서버 구축하기 에서는 node_modules가 없었는데 이번 강의부터는 생성 되어있습니다.생성 과정을 건너뛰셨다면 어디서 확인할 수 있는지는 강의에 포함시켜주시는게 맞는거 같습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측값 채우지관련해서
안녕하십니까? 결측값 채우기 중 최빈값 관련해서,,m = X_train['workclass'].mode()[0] 여기서 mode()과 mode()[0]의 차이는 무엇인지요? 즉 [0]의 쓰임이 무엇인지? 다른 중앙값, 평균 등은 이런게 없는데 왜 최빈값만 이런게 뒤에 붙는지요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 기출문제 풀이
인프런 문제를 열심히 풀고 있습니다.7회 기출문제 풀이는 언제 볼수있을까요?
-
미해결딥러닝 CNN 완벽 가이드 - Fundamental 편
boston import가 안됩니다
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 버전 다운그레이드를 진행햐였음에도 안됩니다 이게 안되면 나머지도 안되서 진행이 안됩니다 ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
라이브러리 및 데이터 불러오기 그리고 EDA 수업내용중에
라이브러리 및 데이터 불러오기 그리고 EDA 수업내용중에15분 36초 경에 보면 남성과 여성의 수를 확인하는데, 그때 남성의 수를 cond_male이라는 변수에 담았기 때문에 len(cond_male) 이렇게만 하면 안되나요? 왜 train[cond_male]이렇게 해주어야 하는지가 궁금합니다. 보통 데이터 프레임 안에서 컬럼을 선택할때 데이터프레임명['컬럼명'] 이런식으로 할때나 사용하는데, 변수로 지정후에도 왜 train으로 감싸나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시계열데이터에서 dt관련
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요? 시계열 자료 강의에서 년월일 등을 추출하는 강의가 있는데요.. 여기서 dt가 갑자기 나와서요.. 이것도 그냥 함수인가요.. 아님 뭐 datetime의 약자 뭐 그런건지요? dt관련해서 이거 뭐하는 함수인지 궁긍합니다.
-
미해결캐글 Advanced 머신러닝 실전 박치기
Library 관련 질문
#Library환경 셋업 pip install "numpy<1.24" pip install lightgbm==3.3.2 pip install --upgrade bayesian-optimization # lgbm 학습 lgb_model.fit(train_x, train_y, eval_set=[(train_x, train_y), (valid_x, valid_y)], eval_metric= 'auc', verbose= 100, early_stopping_rounds= 100) 기존 코드를 구현했을 때, lgbm학습과정에서 early stopping 과 verbose 파라미터 에러가 계속 발생하는데 그 이유는 library버전 이슈었음을 알게 되었습니다. 강의 내용에 해당 내용이 반드시 초기에 반영되면 좋을 것 같아 의견 드립니다. 추가로 kaggle 환경에서 GPU로 iteration은 30번까지 못돌고 중간에 계속 끊기고 있습니다. 해결 방법을 알려 주실 수 있으실까요? 강의중 50분걸린다고 하신 말은 CPU기준인가요?
-
미해결비전공자를 위한 진짜 입문 올인원 개발 부트캠프
expo-cil 설치
안녕하세요. 문의남깁니다.맥에서 expo-cil 설치가 안됩니다." zsh: command not found: npm " 요런 메세지가 나오는데 어떤 방법으로 진행해야하나요?
-
미해결인공지능을 활용한 이상거래 검출 기법
features 수가 작을 경우의 Dense 설정 문의
저의 데이터 컬럼수가 5개인데 여기에 DNN 의 Dense 적용하는 부분에서 위와 같이 설정을 하였습니다. 그랬더니 precision과 recall 수치가 이상하게 나오는데 제 생각은 항목수가 적기 때문에 dense 부분이 굳이 세개가 필요없다는 것과 dropout도 없어도 될 듯 싶은데 어떻해 해야 recall의 수치가 높아질 수 있을까요