묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
XGBoost
선생님 강의 덕분에 머리 속에 정리 안되는 개념들이 하나씩 정리되고 있습니다.XGBoost 파트에서 파이썬 래퍼 XGBoost와 사이킷런 래퍼 XGBoost로 나눠지는데 early_stopping_rounds를 설정해서 결과를 보면 파이썬 래퍼의 경우 [0] train-logloss:0.65016 eval-logloss:0.66183 [1] train-logloss:0.61131 eval-logloss:0.63609 [2] train-logloss:0.57563 eval-logloss:0.61144 이런식으로 학습데이터에 대한 logloss와 검증데이터에 대한 logloss값을 확인 할 수 있었습니다. 사이킷런 래퍼의 경우[0] validation_0-logloss:0.65016 validation_1-logloss:0.66183 [1] validation_0-logloss:0.61131 validation_1-logloss:0.63609 [2] validation_0-logloss:0.57563 validation_1-logloss:0.61144 오른쪽에 있는 valiation_1-logloss로 살펴보는데,왼쪽에 있는 valiation_0-logloss는 파이썬 래퍼와 마찬가지로 학습데이터에 대한 logloss인가요? validation_0-logloss는 어떤 경우에 보는지 궁금해서 여쭤봅니다.
-
미해결[개정판] 딥러닝 컴퓨터 비전 완벽 가이드
custom dataset 작성 시 문의
안녕하세요 선생님 "Oxford Pet 데이터로 Train 실습" 강의를 참고하여 제 데이터로 실습을 진행해보고 있습니다.저는 개인 gpu를 이용하기 위해서 vscode & jupyter notebook을 사용해서 코드를 작성 중입니다.config파일을 설정하고 train용 Dataset을 생성하려고 하는데 그림과 같은 메시지가 출력이 됩니다.ann_file에서 txt가 지원이 안된다는 말 같은데.. txt가 지원이 안되는 포맷이 아닌데 왜 이런 메시지가 뜨는지 어떻게 수정해야할지 잘 모르겠습니다. 조언 부탁드립니다.- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
TrainValidationSplit과 randomSplit 사용 질문
안녕하세요. 좋은 강의 감사합니다.TrainValidationSplit 수강 중 질문이 있습니다.TrainValidationSplit를 이용하여 학습과 검증 비율을 trainRatio 파라미터를 이용하여 나누게 되는데, TrainValidationSplit을 사용할 시 randomSplit은 사용할 필요가 없나요? 아니면 사용하는 경우가 있을까요? CrossValidator은 교차 검증 k fold 방식으로 알고 있는데, randomSplit에서 나눈 비율로 교차 검증을 진행하는 걸로 이해하면 될까요?예를 들면 randomSplit 0.8(학습) 0.2(검증) 으로 나누었다면, 해당 비율로 교차검증을 진행하는지 궁금합니다.마지막으로 현재 업무에서 스파크 스트리밍을 사용하고 있고 scala 기반으로 되어 있기 때문에 scala를 이용한 ml 도입을 고려하고 있습니다. 이때 강의에서 진행하는 pyspark과 비교하여 제공하지 않는 기능이라던지 고려해야 할 사항이 있을까요? 감사합니다!
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
하이퍼 파라미터 튜닝 범위에 대해 궁금합니다.
안녕하세요 강의 너무 잘듣고 있습니다덕분에 좋은 강의 들으며 실력이 증가하는걸 느끼고 있습니다.다름이 아니라 제가 캐글에서 데이터를 따와서 프로젝트를 하고 있는데 베이지안 최적화 방법을 통해서 하이퍼 파라미터를 튜닝하고 있는데 오히려 성능이 떨어지는 모습을 보입니다모델은 radomforest, xgboost, lightgbm 이렇게 쓰고 있고 randomforestn_estimators : 1000~2000, 100간격max_depth : 5~15, 1간격min_samples_split : 10~20, 1간격xgboost n_estimators : 1000~2000, 100간격max_depth : 5~15, 1간격learning_rate : 0.01~0.2min_child_weight : 8~20, 1간격lightgbmn_estimators : 1000~2000, 100간격num_leaves : 31~100, 1간격learning_rate : 0.01~0.2min_child_samples : 20~100, 1간격이렇게 해서 돌리는데 randomforest는 성능이 더 떨어지고 나머지 두 모델은 조금은 좋아졌지만 효과가 미비합니다.학습 데이터가 2만 6천개 정도인데 말단 노드가 가지는 최소 개수를 늘려야 할까요??계속 범위를 바꾸면서 하고 있는데 어느정도로 해야하는지 감이 오질 않습니다. 답변해주시면 감사하겠습니다
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
get_cost 함수 w1[0,0]가 들어가는 이유
안녕하세요 강사님 수업 잘 듣고있습니다!파이썬 코드로 경사 하강법 구현하기에서 def get_cost 함수 y_pred = w1[0,0] * X + w0 부분에 질문이 있습니다.현재 코드가 w1와 w0 둘다 shape이 (1,1)이라서 그런지 더욱 헷갈리는 것 같습니다. 왜 w1[0,0]가 들어가고, w0은 전체가 들어가는지 정확하게 이해가 되지 않습니다.y_pred = w1 * X + w0 이렇게 넣어도 반환되는 값은 똑같은데 만약 feature가 여러 개가 있어도 똑같이 w1[0,0]을 넣는 것인지 아니면 그거랑 상관없이 다르게 이해하고 있는 것인지... 잘 모르겠습니다!
-
미해결딥러닝 CNN 완벽 가이드 - TFKeras 버전
다변량 회귀
안녕하세요,다름이 아니라 현업에서 회귀 문제를 다루고 있는데 궁금한점이 있어 질문드립니다. 50개 이상의 피처를 통해 종속변수를 예측하는 업무를 진행하고 있는데 논리/이론적으로 일치하는지 대해 여쭤보고 싶습니다. 50개 이상의 변수에 트리기반의 알고리즘 적용하여 주요 인자 를 몇개 뽑습니다.주요 인자에 대하여 다변량 회귀를 진행하게 된다면, 종속변수를 예측할 수 있는 회귀 방정식을 도출할수 있을까요?
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
실루엣 계수와 실루엣 스코어, 그리고 좋은 군집 판단의 객관적인 기준
안녕하세요 실루엣 계수 및 실루엣 스코어 관련 강의를 들으면서 아래와 같이 궁금한점이 생겨서 질문드립니다!실루엣 계수가 -1~1이고 ,이들의 평균인 실루엣 스코어가 0~1이라고 하셨는데, 범위가 -1~1인 숫자들끼리 평균을 내면 사실 이에대한 결과값인 실루엣스코어의 범위도 똑같이 -1~1이 되어야 할 것 같은데, 범위가 0~1인 이유가 궁금합니다!좋은 군집을 판단하는 기준을 말씀하실 때 실루엣 스코어와 각 군집별 실루엣계수 평균값들의 편차를 동시에 고려해야 한다고 하셨습니다. 다만 위와같은 판단 기준이 다소 애매모호해 보이는데 실무에서는 정확히 어떤 기준으로 위와같은 두 가지 판단기준을 '동시에&복합적으로' 고려하는지 예시가 궁금합니다.ex) 각 군집화 케이스별로 군집별 실루엣 계수의 평균값에대한 표준편차를 산출하고 이를 비교하고, 동시에 각 군집화 케이스별로 실루엣스코어를 산출하여 이 두 가지 값 중 어떤것에 우선순위를 두고 평가하는지 등
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
lightgbm 버전 관련 질문 드립니다!
안녕하세요 선생님:)lightgbm 설치 관련 질문을 드립니다. (우선 저는 mac을 사용하고 있습니다.)제가 lightgbm을 이전에 설치한 적이 있어서 version을 프린트해봤었는데, 3.2.1 버전이 떴습니다.그래서 upgrade를 하고 버전이 업그레이드 되었다는 메시지가 떴는데, 다시 .__version__을 치고 확인해보니 이전과 같이 3.2.1 버전이 뜨네요..수업에 문제가 없는 건지 질문드립니다! 아래에 제가 친 코드와 결과 스크린샷 남깁니다. 감사합니다!
-
미해결처음하는 딥러닝과 파이토치(Pytorch) 부트캠프 (쉽게! 기본부터 챗GPT 핵심 트랜스포머까지) [데이터분석/과학 Part3]
torch.armax에 관한 질문입니다
Multi-Class Classification 딥러닝 적용해보기 강의 8:40 부분에서 사용된torch.argmax(x, dim=차원) 에 관한 질문입니다. torch.argmax 함수의 자세한 실행 방식이 궁금해서 pytorch 공식 문서 등을 찾아보았는데요,'dim' 파라미터에 관한 설명이 다음과 같이 나와 있었습니다.dim (int) – the dimension to reduce. If None, the argmax of the flattened input is returned. 여기서 "the dimension to reduce" 라는 표현이 정확히 무엇을 의미하는지 궁금합니다.
-
미해결처음하는 딥러닝과 파이토치(Pytorch) 부트캠프 (쉽게! 기본부터 챗GPT 핵심 트랜스포머까지) [데이터분석/과학 Part3]
output_dim 에 관한 질문입니다
Multi-Class Classification 딥러닝 적용해보기 강의 5:26 부분에서0, 1, 2 Multi-Label 에 대한 확률값을 구해야 하므로, output_dim은 3이 되어야 한다고 설명해 주셨습니다반면, Binary Classification 강의에서는 0, 1 Label 에 대한 확률값을 구하면서 output_dim을 1로 설정을 하였는데요,Binary Classification 예제는확률값이 0에 가까우면 phishing, 1에 가까우면 legitimate로 분류되므로 그냥 확률값만을 담고 있는 1차원의 열벡터만 필요한 것이고,Multi-Class Classification 예제는3가지 feature에 대한 확률값이 각각 담겨야 하므로 output_dim을 3으로 설정한 것으로 이해하면 되나요??
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
fit_transform(X)의 역할
kmeans.fit_transform(irisDF)를 하면 나오는 결과는150가지의 피처값들(총 4가지 피처)과 각각의 피처에 대응하는 클러스터의 센트로이드 사이의 거리를 4차원에서 3차원으로 줄여서 표현한 것 맞나요?
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
parquet read시 partition 개수
안녕하세요parquet을 read할때, 파티션 개수는 저장할때의 partition으로 고정될까요??parquet을 read 할때 partiton 1개당 size가 너무 커서, partiton 개수를 늘려서 read 하고 싶습니다. 혹시 방법이 있을까용? 감사합니다.
-
해결됨수학 없이 시작하는 인공지능 첫걸음: 기초부터 최신 트렌드까지
커널 관련 질문 드립니다.
CNN 에서 커널이 참 중요 한데 커널 데이터는 누가 어떻게 만들어 주나요
-
미해결유니티 머신러닝 에이전트 완전정복 (기초편)
오류
C:\Users\(사용자)\Desktop\ml-agents-release_17>mlagents-learn config/ppo/3DBall.yaml --env=C:\Users\(사용자)\Desktop\Project\Env\3DBall --run-id=mlagent_test1를 실행하면 Traceback (most recent call last): File "C:\Users\chosun\AppData\Local\Programs\Python\Python39\lib\runpy.py", line 197, in runmodule_as_main return runcode(code, main_globals, None, File "C:\Users\chosun\AppData\Local\Programs\Python\Python39\lib\runpy.py", line 87, in runcode exec(code, run_globals) File "C:\Users\chosun\PycharmProjects\pythonProject\venv\Scripts\mlagents-learn.exe\__main__.py", line 4, in <module> from mlagents.trainers.learn import main File "C:\Users\chosun\PycharmProjects\pythonProject\venv\lib\site-packages\mlagents\trainers\learn.py", line 2, in <module> from mlagents import torch_utils File "C:\Users\chosun\PycharmProjects\pythonProject\venv\lib\site-packages\mlagents\torch_utils\__init__.py", line 1, in <module> from mlagents.torch_utils.torch import torch as torch # noqa File "C:\Users\chosun\PycharmProjects\pythonProject\venv\lib\site-packages\mlagents\torch_utils\torch.py", line 6, in <module> from mlagents.trainers.settings import TorchSettings File "C:\Users\chosun\PycharmProjects\pythonProject\venv\lib\site-packages\mlagents\trainers\settings.py", line 625, in <module> class TrainerSettings(ExportableSettings): File "C:\Users\chosun\PycharmProjects\pythonProject\venv\lib\site-packages\mlagents\trainers\settings.py", line 648, in TrainerSettings cattr.register_structure_hook( File "C:\Users\chosun\PycharmProjects\pythonProject\venv\lib\site-packages\cattrs\converters.py", line 280, in register_structure_hook self._structure_func.register_cls_list([(cl, func)]) File "C:\Users\chosun\PycharmProjects\pythonProject\venv\lib\site-packages\cattrs\dispatch.py", line 57, in register_cls_list self._single_dispatch.register(cls, handler) File "C:\Users\chosun\AppData\Local\Programs\Python\Python39\lib\functools.py", line 855, in register raise TypeError(TypeError: Invalid first argument to register(). typing.Dict[mlagents.trainers.settings.RewardSignalType, mlagents.trainers.settings.RewardSignalSettings] is not a class.이렇게 오류가 뜨면서 실행이 안 돼요.. 정말 완전 초보라 해결을 못 하고 있는데 어떻게 하면 되나요..?
-
미해결혼자 공부하는 머신러닝+딥러닝
k-최근점 알고리즘 질문 입니다.
k-최근점 알고리즘은 데이터셋으로 학습후예측을 할때 거리를 기반으로 정답을 유추하는데이 정답을 유추하는 함수가 내부에선 학습한 모든 점을 다가지고 계산을 하나요? 아니면 데이터에 알맞는 방정식을 가지고 계산을 해서 알려주나요? 모든 점의 위치를 가지고 있다면 모델이 무거워 질거 같아 질문드립니다.
-
미해결비전공자를 위한 진짜 입문 올인원 개발 부트캠프
해당 오류 ERROR in ./src/index.js 5:0-40 를 아실까요 ..?
제가 axios 설치 이후 npm start에서 지속적으로 오류가 나길래 stackflow를 보고 -i npm ~... 무엇을 터미널에서 진행시키고.node_modules 폴더와 package.json & lock.json 파일 삭제후 npm start 다시 했는데 아래와 같이모듈 오류가 지속적으로 뜨네요.모듈 파일명들이 전에는 @로 시작하는 파일들이 다 날라간 것 같구요.모듈 중 Axios 폴더에서 index.d.ts 파일에서 오류가 발견되고 있는 상황입니다.그랩님 조금만 도와주실 수 있을까요
-
해결됨수학 없이 시작하는 인공지능 첫걸음: 기초부터 최신 트렌드까지
레이어 관련 질문 드립니다.
12강 6분 06초 에서 Pooling 된 결과를 쫙 펴서 모델에 넣어준다라고 하셨는데 Pooling 된 결과가 모델의 히든레이어의 Node가 되는 건가요?
-
해결됨수학 없이 시작하는 인공지능 첫걸음: 기초부터 최신 트렌드까지
히든 레이어의 Node 수 관련 질문 드립니다.
FCNet 에서 히든 레이어의 Node 숫자를 128 , 64 로 설정 하는 이유가 뭔가요?
-
미해결차량 번호판 인식 프로젝트와 TensorFlow로 배우는 딥러닝 영상인식 올인원
실습시 파워셀 오류 관련 질문드립니다
안녕하세요, 1강 수업 듣다가 도저히 해결이 안되는 문제가 있어서 질문 드립니다.실습할 때(1강 영상들 보는 중) 파이썬 파일을 파워쉘에서 1s을 쓰신 다음에 해당 폴더에 있는 py파일들 이름을 다 쓰신 다음에 python3 (실행할파일명.py) 이렇게 입력하시던데 어떻게 하는 건가요? 1s을 쳐도 그냥 오류가 뜨고 앞에꺼 안하고 그냥 python3 (실행파일명.py) 치면 아무일도 안 일어나네요ㅠㅠ답변 주신다면 정말 감사드리겠습니다.. 여기서 시간을 너무 많이 잡아먹어서ㅠ-ㅠ
-
해결됨인공지능을 활용한 이상거래 검출 기법
섹션2. DNN 이진분류 part2에서 pos, neg에 대해 질문드립니다.
안녕하세요?강의를 듣다가 궁금한 것이 생겨서 여쭤봅니다.섹션2. DNN 이진분류 part2강의에서정상, 비정상 데이터를 아래 사진과 같이 나타내셨는데비율적인 면에서 neg보다 pos가 먼저와야 하는게 아닌가 싶어서 질문드립니다.모델 훈련 결과에서 큰 차이는 없었지만혹시 위와 같이 neg, pos로 지정하신 이유가 있는지 궁금합니다.감사합니다.