게시글
질문&답변
2024.10.12
데이터 증강
안녕하십니까, 먼저 이미지 augmentation을 최적화하는 왕도는 없는 것 같습니다. 개인적으로 수행하는 방법으로는 가벼운 augmentation 부터 차근차근 적용하면서 점차 다양하게 적용해 보는 것입니다. 기본적으로 horizontal/vertical flip, rotation 등의 이미지 위치관련, 그리고 이미지 밝기, 대조(contrast) 조정으로 부터 시작합니다. 이 정도 수준만 적용해서 어느 정도 성능이 향상 됩니다. 기본 augmentation 이후에 다양한 augmentation을 더 적용해 볼 수 있지만, 최초 성능 향상 보다는 좀 더 덜하게 됩니다. 이후에는 crop, scale, shifting 등의 이미지 위치 관련 및 Blur 등을 적용해 볼 수 있습니다. 이미지 augmentation으로 성능 향상은 일정 수준 이상 어렵습니다. 경험성 가벼운 augmentation 부터 적용해 보면서, 점점 다양한 기법을 적용하다보면 성능 향상이 일정 수준 되다가 더 이상 안되는 수준을 인식하고 해당 수준에서 멈추는 것이 일반적인 augmentation 방식입니다. 보통 augmentation 수행 시 성능이 떨어지는 경우는 특정 augmentation이 과도한 영향을 미치는 경우가 많습니다. 위에서 말씀드린 기본 augmentation외에 다른 augmentation 이 있을 시 이를 제외해보면서 최적화 해보시며 좋을 것 같습니다. 이미지 증강을 사전에 해서 학습 데이터를 늘리는 기법은 크게 활용되는 방식이 아닙니다. 아무래도 많은 이미지를 학습하는 게 더 좋기 때문에 학습 데이터를 늘리기 위해서 사용하기도 하지만, 큰 성능 향상은 어렵습니다. 다만 GAN등을 통해서 기존 이미지를 변형해서 학습 데이터를 늘리는 방식은 꾸준히 연구되고 있으며, 어느 정도 성능 향상도 있는 걸로 보고 되고 있습니다. 감사합니다.
- 0
- 2
- 20
질문&답변
2024.10.11
ML Model Sqauence에 대한 이해
안녕하십니까, 도움이 되었다니, 저도 기분이 좋군요. 여러개 질문이 함께 있는데, 제일 중요한 답변 부터 드리는게 좋을 것 같습니다. Machine learning 이 통계에 기반하고 있지만, ML 모델과 통계 모델의 가장 큰 차이는 ML 기반의 모델에서는 모수집단에 대한 통계적 특성에 대해서 고려하지 않는다는 것입니다. 그래서 confidence interval이나 p value에 대해서는 고민하지 않습니다. ML 모델은 입력된 학습 데이터 자체에만 기반한 모델입니다. 학습 데이터에 기반하여 모델 예측 성능을 높이는데 그 촛점이 있습니다. 모수 집단이라는 개념 자체가 다릅니다. 질문) step 2. 과정에서 standardization scaling 했을 때 정규성 검증은 필요가 없나요?? (e.g. shaprio-wilks test, 각 feature 별 QQ plot) => 하셔도 됩니다만, ML 모델에서는 크게 신경쓰지 않습니다. 질문) step 3. 과정에서 교수님 강의에서는 data scaling 이후 바로 모델 학습/예측/평가를 진행하고, feature 별 회귀 계수를 구하십니다.(경사 하강법)저는 해당 과정에서 다중 공선성 방지를 위해 PCA, ICA를 통한 features extraction으로 training 으로 진행하는 것으로 이해했는데 해당 방식이 틀린 것인지 여쭙고 싶습니다. => PCA 적용은 일반적으로 상관 관계가 높은 Feature 들의 갯수가 많을 때 적용하면 좋습니다. 경험적으로는 백개 이상의 Feature들이 있고, 이들 feature들의 상관 관계가 높다고 판단되면, 적용해 볼만 합니다. 그렇지 않고 무작정 PCA를 적용하면 오히려 성능이 더 저하됩니다. 저도 회귀 모델 처음 배울때는 PCA를 적용하면 좋다고 배웠지만, 실제로 적용해 보면 그렇지 않는 경우가 더 많습니다. 또한 요즘 선형 회귀 모델의 성능이 좋아서 PCA를 적용해서 성능이 좋아지는 경우는 극히 제한적입니다. 더욱이 회귀 트리에서는 더더욱 성능이 좋아지는 경우는 드믑니다. 따라서 근래에는 별로 PCA나 기타 차원 축소를 적용하지 않습니다. 오히려 여러가지 Feature Engineering 을 적용합니다(강의에서 설명드립니다) 질문) 또, 지도 학습 모델인 선형 회귀 모델을 진행하는데 있어 비지도 학습 기법이 사용이 되는 것이 소개가 안된 것 같은데 이부분에 대해서 어떻게 생각하시는지도 궁금합니다.(정확히는 예측 모델을 구현하는 일련의 과정) => 비지도 학습은 이후 강의에서 설명드립니다. 그리고 현재 ML기반 회귀 모델에서 PCA등의 차원 축소로 인한 성능 개선은 드물기에 회귀에서 설명드리지 않습니다. 감사합니다.
- 0
- 1
- 24
질문&답변
2024.10.10
WSGI, ASGI 와 미들웨어 간의 관계
안녕하십니까, 잘 듣고 계시다니, 저도 기분이 좋군요. 네, 전통적으로(?) 시스템 아키텍처 상에서 미들웨어는 말씀하신 게 맞습니다. 그러니까, web이나 client에서 DB로 바로 연결하지 않고 중간에 연결관리 및 비즈니스로직 분산등을 수행하는 시스템을 미들웨어라고 합니다 . 일반적으로 Java 계열에서는 Tomcat, Weblogic 같은 시스템들은 미들웨어에 속합니다. 근데, express라고 node js 기반의 웹 프레임워크에서 미들웨어를 다르게 지칭합니다. 웹 프레임워크의 request 객체에 client의 요청을 전달하기 전에 사전 처리를 가능하게 하는 모듈을 미들웨어로 지칭합니다. 완전 다른 의미로 부르기 시작하면서 미들웨어가 동음이의어가 됩니다. javascript 기반의 웹 프레임워크에서는 미들웨어를 이런 개념으로 통용해서 사용합니다. 그리고 fastapi의 미들웨어도 express의 미들웨어를 본따서 만든 것입니다. 그래서 알고 계시는 시스템 아키텍처 개념의 미들웨어랑은 완전히 다른 개념입니다. uvicorn, guvicorn은 알고 계시는대로 파이썬 기반 HTTP 서버 역할을 합니다. Starlette/FastAPI가 시스템 아키텍처 적으로는 미들웨어 역할을 합니다. 감사합니다.
- 0
- 1
- 28
질문&답변
2024.10.09
max.in.flight.requests.per.connection 의 설명이 조금 헷갈립니다.
안녕하십니까, 사전적으로 kafka 파라미터의 request는 배치 단위입니다. 초창기 kafka 버전은 batch 단위가 전송 단위 였습니다. 성능 개선을 위해서 점차 kakfa에서 전송 단위가 여러개 batch들을 한꺼번에 보낼 수 있도록 기능 개선이 되면서 max.in .flight.requests.per.connection 같은 파라미터가 추가 되었습니다. ( max.in .flight.requests.per.connection 파라미터 이름 자체도 과거와의 호환성을 위해서 좀 헷갈리게 되어 있습니다). 중요한 것 producer가 한번에 보내는 전송 단위입니다. 그래서 해당 강의 영상에서 max.i n.flight.requests.per.connection 사전적 의미가 ack를 받지 않고 연속으로 보낼 수 있는 request의 최대 갯수 이지만 이렇게 이해하시는 것보다는 ack를 받지 않고 한번에 보낼 수 있는 최대 메시지 배치의 갯수로 이해하시는 게 더 직관적이기 때문에 강의에서 그렇게 말씀드린 것입니다. 감사합니다.
- 0
- 2
- 17
질문&답변
2024.10.09
Confidence score가 높을수록 많은 Box가 제거된다?
안녕하십니까, 네, 맞습니다. 제가 confidence score 라고 말씀드린 부분은 confidence score threshold를 의미 합니다(혼돈을 드렸다면 죄송합니다 ^^;;). 그래서 해당 confidence score threshold 아래 값의 confidence score 를 가지는 box는 다 제거 합니다. 감사합니다.
- 0
- 2
- 11
질문&답변
2024.10.08
강의에서 배운 코드
안녕하십니까, 네, 가능합니다. 구직 활동에 도움이 되었으면 합니다. 감사합니다.
- 0
- 2
- 22
질문&답변
2024.10.06
클라우드 굳이 안해도 되나요??
안녕하십니까 로컬 pc 사양이 충분하시면 클라우드 없이 로컬에 설치하셔도 됩니다. 감사합니다
- 0
- 2
- 31
질문&답변
2024.10.05
동영상 재생 오류
안녕하십니까, 저는 windows 환경에서 별 문제 없이 영상 재생 됩니다. 영상 재생은 인프런에서 관리하고 있으니, 조금 있다가(아님 브라우저를 죽이시고) 다시 접속해 보시거나, 그래도 안되면 인프런 메인 페이지의 오른쪽 하단에 있는 문의하기를 통해서 인프런 측에 문의해보셔야 할 것 같습니다. 감사합니다.
- 0
- 1
- 30
질문&답변
2024.10.04
spark 추가 학습 관련 질문
안녕하십니까, 강의를 잘 듣고 계시다니, 저도 기쁩니다. 아래 인프런 AI 인턴이 추천한 2권이 가장 대표적인 스파크 책이라고 생각합니다. 저는 이 중에 Learning Spark를 추천합니다. 개정판이 나와 있습니다. 아래 URL에서 원서를 PDF로 다운로드 받으 실 수 있습니다. https://pages.databricks.com/rs/094-YMS-629/images/LearningSpark2.0.pdf 아마 한글 번역판도 서점에 나와 있는 걸로 알고 있습니다. 이걸 먼저 보시고 부족하다 싶으면 spark the definitive guide를 보시면 좋을 것 같습니다. 이건 근데 개정판이 나왔나 모르겠군요. 암튼 검색해 보시면 pdf도 원서로 찾으실 수 있을 것입니다. 감사합니다.
- 0
- 2
- 18
질문&답변
2024.10.01
로컬 GPU 사용법
안녕하십니까, GPU 가 깔려 있는 서버가 있으신가요? 그렇다면 해당 서버를 활용하시면 됩니다. 다만 Windows 서버보다는 Linux 서버를 활용하시는 게 본 실습 예제를 적용하는데 더 좋습니다. 근데 GPU가 있어도 Cuda 설치 및 Tensorflow, Pytorch 등의 기타 환경을 직접 설치 하여야 합니다. 경험이 있으시면 모르겠지만, 그렇지 않다면 설치가 만만하지 않을 겁니다. 감사합니다.
- 0
- 2
- 23