묻고 답해요
164만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
링크자료 다운 문제
안녕하세요? 강사님!노트 링크 관련해서 지남주에 질문을 드렸었는데, 말씀하신 대로 사용하던 노트북이 아닌 사무실 PC로 링크를 햿더니 정상적으로 다운이 되었습니다.그런데 가설검정 강의에서는 노트 링크가 되지 않습니다. 이유와 해결 방법이 궁금합니다.수고하십시요.
-
미해결비전공자를 위한 진짜 입문 올인원 개발 부트캠프
안녕하세요 git 설치 오류입니다.
git 설치 이후 vscode에서 터미널 변환이 안될때 git 최신버전 설치 완료vscode 재실행 완료 터미널 1개 추가 후 git bash로 변환시 목록에 안보임
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
첨부자료 다운 문제
첨부에 있는 노트북 자료를 연결해서 코딩을 실시하려고 하는데 연결이 안되고 계속 에러가 나는데, 어떻게 해결해야 하는지요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
파이썬 함수 질문
안녕하세요!! 좋은 강의 재밌게 수강하고 있습니다.아래 이미지와 같이, 최대값-최소값 문제를 접근했는데, 이상한 에러가 발생하네요...문제가 되는 부분이 어디일까요??
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
MeanShift(best_bandwidth) TypeError
'KDE(Kernel Density Estimation)의 이해와 사이킷런을 이용한 MeanShift 군집화 실습' 수강중 12:00 즈음 '최적의 bandwidth 값을 estimate_bandwidth()로 계산 한 뒤에 다시 군집화 수행' 차례입니다.첨부 사진상 ln [16] 아래서 세번째 meanshift= MeanShift(best_bandwidth)를 제거하면 오류없이 강의와 같은 결과 [0 1 2]를 출력하기는 합니다.그런데 이게 meanshift= MeanShift(bandwidth=best_bandwidth)를 삭제 했기 때문에 그 전에 실행한 meanshift= MeanShift(bandwidth=1) 때문에 나온 결과인 것 같습니다.즉, bandwidth=1.689가 아닌 bandwidth=1로 적용된 것 같습니다.이 때문인지 이후 시행되는 '군집별 중심 시각화'에서도 meanshift_label이 0과 1이 switch 되었습니다.또한 meanshift_label 2의 데이터 하나가 0 쪽으로 클러스터링 되기도 했습니다. print(clusterDF.groupby('target')['meanshift_label'].value_counts())의 결과입니다. (target 2의 meanshift_label이 65+1=66이 아닌 66임)target meanshift_label0 0 671 2 672 1 66Name: meanshift_label, dtype: int64오류 없이 meanshift= MeanShift(bandwidth=best_bandwidth)를 제대로 적용하려면 어떻게 해야 할까요? 설치할 때 기억은 잘 안나지만 version을 통일하라 강조하신 것 외 다른 설치 파일은 2023년 4월 설치했기 때문에 version이 다를 수 있습니다. - 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
K-Fold 등의 교차 검증 이후 최종적인 best model은 어떻게 선택하나요?
K-Fold 교차 검증에 대하여 수업을 들었습니다. K-Fold의 목적, 특징, 수행 방법에 대해서는 설명이 이해가 다 되었는데요, 그렇게 해서 최종적으로 어떤 모델을 선택하는지에 대하여서는 전혀 설명이 되어있지 않아서 질문드립니다. N개의 Fold로 데이터를 나누어서 N번의 교차 검증을 하면, N번의 fitting 결과와 각 Iteration에서의 accuracy가 나오게 됩니다. N번의 fitting을 수행하기 때문에 각 iteration에서는 결과적으로 다른 모델이 생성이 될 것입니다.강의에서는 N번의 Iteration의 개별 accuracy를 모아서 평균을 내고, 이 평균값으로 모델의 성능을 평가하라고만 되어있습니다. 그럼 최종적으로 N번의 Iteration에서 나온 N개의 모델 중에 어떤 것을 실제 최적화된 모델로 사용하면 되는 것입니까? GridSearchCV를 통한 하이퍼파라미터 튜닝에서는 수행의 결과로 best_estimator_를 리턴해주기 때문에 이것을 쓰면 되는 것을 알겠습니다만, 일반적인 K-Fold나 cross_val_score() 함수를 통한 교차 검증의 결과로는 best estimator를 얻는 방법을 설명해주지 않고 있습니다. 이 부분에 대한 답변 부탁드립니다.
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
word.txt 파일이 없습니다. 추가 부탁드립니다. ㅎ
질문은 많으시면 많을수록 좋습니다. 가능한 빠른 답변 드리겠습니다.원활한 답변을 위해, 자세한 질문 사항 부탁드려요 :D
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
index 처음부터 끝까지, 한칸 건너뛰기
안녕하세요, 강의를 듣다가 너무 오랫 동안 안 들어서 다시 듣고 있습니다 ㅠ ㅠ.. 데이터 분석을 위한 파이썬 기초2listbox = [2, 4, 6, 8, 10]listbox[::2] 를 하면, 한 칸 건너뛰면서[2, 6, 10] 이렇게 출력이 되는데요.문득 궁금해져서(이게 중요한 게 아닌데!)listbox[:5:2] 이 경우에도[2, 6, 10] 이렇게 출력이 됩니다.그런데 listbox[:-1:2]를 하면[2, 6] 이렇게 나옵니다.이 차이를 알 수 있을까요? -1은 분명히 마지막 값을 가리키니까 2, 6, 10이 나와야할 거 같은데 이상하더라고요. 제가 뭔가 잘못 생각하고 있는 걸까요? (이래서 독학이 위험하긴 합니다..)
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
부트스트래핑 샘플링 질문드립니다
안녕하세요! 강의 잘 듣고 있습니다.부트스트래핑 샘플링에서1차원 데이터로 여러 서브 세트를 만든 부분은 이해가 되었습니다.그런데 생각해보니 랜덤 포레스트 입력으로 들어가는 데이터셋의 형태는 2차원 dataframe입니다.이러한 2차원 dataframe은 어떻게 부트스트래핑 샘플링이 되는지 여쭤보고 싶습니다.1차원에선 개별 데이터가 중첩되는 식이라면, 2차원에선 개별 행이 중첩되는 방식인가요? 감사합니다.^^
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
트리계열 파라미터 max_features 작동 방식
여러 트리 계열 파라미터 중 max_features는 최적의 분할을 고려하여 피처의 개수를 선정한다고 했습니다. 이것의 작동 방식이 궁금합니다.피처의 개수를 선정한다고 했는데, 전체 피처 중 트리계열 학습기를 적용하기 전, 일부만 추출(일부 피쳐 선택)을 하고 적용하는 것인가요?(예시로, max_features= 'sqrt', iris데이터 피처의 개수: 120라고 가정하면, 아이리스 데이터 120개중 랜덤으로 루트120개를 뽑고, 뽑힌 피처들로 알고리즘을 수행) 하는 것인가요? 실제로 Graphviz모듈로 max_features='sqrt'로 실행해보니, 첫번째 노드의 samples 데이터가 120개로 원본 데이터와 같아서 질문드립니다. 제가 잘못 이해한 부분이 어디 일까요..
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
보팅 배깅 부스팅 서브 샘플
학습을 하다가 궁금한 점이 생겼습니다. 보팅 계열의 알고리즘은 전체 데이터에서 여러가지 학습기를 순차적으로 적용한 것이고, 배깅은 하나의 학습기를 부트스트래핑 방식으로 여러가지 샘플 데이터를 만든 다음 적용하는 것으로 이해했습니다. 그렇다면 부스팅은 이 두 가지 방식을 혼합한것인가요? 즉, 하나의 학습기마다 부트 스트래핑 방식으로 서브 샘플들을 뽑은 다음 각각의 서로 다른 학습기들로 학습을 하는 것인가요? 아니면 보팅의 개념을 빌려 전체 데이터에서 가중치를 적용하면서 약한 학습기를 적용하는 것인가요?학습하다가 궁금한점이 생겨 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
에러 발생에 관한 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요강사님!첨부해주신 첨부 자료로 수치형 컬럼과 범주형 컬럼 데이터 나누기 코딩 중 다음과 같은 에러가 발생했는데 어떻게 해결해야 하나요에러 메시지: AttributeError: 'DataFrame' object has no attribute 'select_dtype'
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강사님!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요
-
미해결혼자 공부하는 머신러닝+딥러닝
다중회귀 모델의 데이터량 관련
안녕하세요! 다중회귀 관련 궁금한 점이 있어 문의드립니다.예를 들어 예측 시마다 최근 데이터 40개로 150개의 변수를 가진 다중회귀식을 학습 및 예측하는 방식의 회귀 모델은 활용이 가능할까요(규제모델을 함께 적용은 시킨다는 전제하에서요)예측 시마다 최근 데이터로 재학습을 하는 방식입니다.
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
안녕하세요 선생님 질문입니다!
4:34를 보면서 질문드리고 있는데 이해하고 있는 부분이 맞는지 모르겠습니다 첫번째 300* 300* 3의 이미지가 첫번째 conv를 통과하여 생성된 38*38*512의 feature map에서 3*3 4(anchor box개수)*(pascal data set이라면 20 + 1+ 4: 바운딩박스 좌표)를 해서 마지막 detection 단으로 보내서 학습을 하는 것 까지 이해를 하겠는데, 3*3 과 같은 컨볼루션을 통해 바운딩박스가 학습되는 원리를 모르겠습니다. 여기서 2가지 conv연산이 들어가는데 그 중 하나는 앵커박스를 통하여 바운딩박스를 학습하고 다른 하나는 컨볼루션 연산을 통해서 feature map의 사이즈를 줄이는(정보를 압축?) 하는 쪽으로 하는게 맞는지요..글 주변이 없어서 죄송합니다.
-
해결됨[개정판] 파이썬 머신러닝 완벽 가이드
복습을 하면서 궁금증이 생겨서 올립니다. RMSLE 적용시, -1보다 작은 음수값을 수학적으로 대입할 수 없는데.,..
evaluate_regr(y_test, pred)에 test데이터 세트와 예측 값을 넣는데,y_test의 경우 y_test[y_test < -1] 에 해당하는 값이 없기 때문에, np.log1p에 대입할 수 있지만,pred[pred < -1]에 해당하는 값은 존재하기 때문에, 예측값이 -1이보다 작은 경우에는 np.log1p에 대입할 수 없다고 생각합니다. 그래서, mean_squared_log_error를 호출하여 squared = False로 계산을 하였더니, ValueError: Mean Squared Logarithmic Error cannot be used when targets contain negative values.라고 오류가 뜨더라구요. 결국 -1보다 작은 음수값을 대입할 수 없다는 수학적 오류 때문이겠지요... 하지만, 선생님께서 하신 RMSLEdef rmsle(y, pred): log_y = np.log1p(y) log_pred = np.log1p(pred) ## log1p 랑 expm1은 하나의 쌍임. squared_error = (log_y - log_pred) ** 2 rmsle = np.sqrt(np.mean(squared_error)) return rmsle를 활용한다면 오류가 뜨지 않는데,제가 생각하는 방식에는 어떤 문제점이 있을까요?
-
미해결혼자 공부하는 머신러닝+딥러닝
텐서플로우의 GRU셀의 파라미터 개수에 대한 질문이 있습니다.
강사님 언제나 양질의 강의에 감사드립니다. 강의 덕분에 1회독을 수월하게 끝낼 수 있었습니다.다름이 아니라 텐서플로우의 GRU셀의 파라미터 개수에 대해 질문이 있습니다.538p의 GRU 방식에서는 Wg 뉴런에서 Wh, Wx를 한번에 처리하여 절편이 해당 뉴런에 하나 배정되었던 것으로 이해했습니다. 이전에도 파라미터의 개수를 계산할 때 절편은 뉴런당 하나이므로...의 방식으로 제일 마지막에 절편 개수를 더해왔구요.그런데 540p에서 Wh와 Wx를 계산하는 순서가 분리되어 개별적인 절편이 필요하다는 부분이 조금 이해가 되질 않습니다. 해당 부분을 '별도의 선형 방정식이 추가 된 것'이라고 설명 해주셨는데 추가적인 셀이 생성 된 것은 아니겠지요...?여태 제가 이해한 것이 '뉴런 당 절편 하나' 이어서 그런지 '별도의 선형 방정식이 추가 된 것'이라는 설명이 직관적으로 이해되질 않습니다... 실제로 538p의 Wg셀은 그대로이고 내부적으로 방정식과 별도의 절편만 추가 된 것으로 이해하면 될지, 아니면 Wh라는 별도의 셀이 추가 된 것으로 이해하면 될 지 궁금합니다
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
NMS 및 Confidence Score와 관련하여 질문이 있습니다.
안녕하세요. Mask RCNN으로 프로젝트 진행하던 중 하나의 객체에 대해 영역이 매우 유사한 BBox가 2개씩 나타나는 현상이 생겨 NMS에 관해 다시 공부하던 중 수행 로직과 관련하여 몇가지 궁금증이 생겨 글 남깁니다.우선 Confidence Score란 것이 단순히 박스안에 물체가 있을 확률을 의미하는 것인지, 아니면 박스안에 물체가 해당 Class일 확률을 의미하는 것인지 헷갈립니다. 단순히 물체가 있을 확률만을 의미하는 것이라면, 저의 경우에서 영역이 매우 유사한 BBox간은 IOU가 매우 높으니 제거되어야 하는게 아닌가요?? 만약 해당 Class일 확률을 의미하는 것이라면 NMS 과정이 예측된 Class별로 수행이 되는 것인지(ex. 차에 대한 BBox들끼리 NMS수행) 궁금합니다.학습 과정에서 문제가 생겼을 수 있다 판단하여 모델 전체를 재학습을 진행하고 있긴 합니다만, 위 질문들에 대해 궁금점이 남아 글 남깁니다.
-
해결됨[파이토치] 실전 인공지능으로 이어지는 딥러닝 - 기초부터 논문 구현까지
안녕하세요! 질문이 있습니다
어제 질문 답변 감사드립니다! 궁금한게 해결되었습니다..ㅎ오늘도 질문이 좀 있어서 여쭤보고 싶습니다..! 혹시 augmentation을 한 뒤에 데이터셋을 저장하는 코드를 알 수 있을까요?예를 들어, 1000개의 이미지 데이터가 train_set에 있고, DataLoader에서 transform을 통해 이 1000개를 변형해가며 로드할텐데, 이 로드한 데이터들을 저장하고 싶습니다!다양한 augmentation을 통해서 기존 데이터의 3배정도인 3000개의 변형 데이터들을 저장하고 싶은데 코드를 어떻게 짜야할지 모르겠어서 질문드립니다. 요즘 예전 대회들에 있었던 불균형 이미지 데이터 분류를 연습하고 있는 중인데, 라벨이 총 10개에 어떤 라벨에는 데이터가 600개 가까이 되고, 어떤 라벨에는 데이터가 10개도 안되는 경우들이 있는 불균형이 매우 심한 데이터들입니다. 이 불균형을 weightedrandomsampler에 augmentation을 활용하여 불균형을 해소하고자 하였습니다. validation용으로 원본데이터에서 30%만큼 지정을 해 둔 뒤, train용으로 원본데이터를 weightedrandomsampler를 활용해 원본데이터를 변형하고 가중치를 주어 데이터가 적은 라벨의 데이터를 늘려 학습했습니다. 그 뒤에 아까 분리해 놓았던 validation데이터를 분류했습니다만... 평가기준인 weighted F1 score가 생각보다 낮게 나와서 고민입니다.. 제 생각에는 결국 validation 데이터에는 여전히 라벨별로 불균형이 매우 심한 상태이므로 라벨별로 동등한 양의 데이터로 학습한 모델에서는 제대로 예측을 못한것이 아닐까합니다. 그래서 위에서 질문한 코드를 통해 변형된 데이터에 원본 데이터를 합쳐서 학습을 시키고, 그 다음에 validation을 하면 약간은 나아질까 하는 생각이 듭니다만.. 호형님이라면 어떻게 하실지 궁금해서 여쭤봅니다. 질문이 너무 길고 장황해서 죄송합니다..ㅜ
-
해결됨[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
Segmentation Polyline
안녕하세요, 강사님.CVAT로 Segmentation 커스텀 데이터셋을 만들 때폴리곤을 이용하여 해당 영역을 마스크를 해주었을 때는 결과가 잘 나오는데폴리라인으로 영역을 표시해주고 테스트를 하니 마스크 형태로 영역이 잡혀서 나오더라구요.폴리곤이 아닌 폴리라인을 이용하여서는 segmentation 결과를 얻을 수 없나요?