인프런 커뮤니티 질문&답변

jy.kim20님의 프로필 이미지
jy.kim20

작성한 질문수

딥러닝 CNN 완벽 가이드 - Fundamental 편

CNN의 feature map의 학습과 관련하여 질문드립니다.

작성

·

181

0

권철민 선생님 안녕하십니까?

좋은 강의 열어주셔서 정말 감사합니다. 

일전에 딥러닝 컴퓨터 비전 완벽 가이드를 수강할 때도 그 당시에 진행하던 프로젝트에 아주 큰 도움을 얻었습니다. 비전공자인 저에게는 선생님의 강의가 너무 소중합니다! 

논문 리뷰를 하다보니 CNN에 대해 궁금한 점이 생겨 질문을 올리게 됐습니다.

CNN 기반의 Siamese Network를 활용한 논문 중에 도시의 거리 사진에 대해 사람들이 느끼는 안전성을 예측하는 것이 있었습니다. 도시의 거리 사진이 주어지면 모델이 1(안전하다)/0(안전하지 않다)로 output을 리턴합니다. (사실 이 논문은 Siamese Network로 끝나지 않고 뒤에 ranking loss를 붙이기 때문에 두 사진 사이의 유사도를 넘어 한 사진에 대한 예측값을 구할 수 있습니다.)(그런데 제가 질문드리고자 하는 핵심 부분은 이것이 아니기 때문에 간단히 위처럼 표현해봤습니다!)

우선,, 수업 내용에서 배운 것을 상기해보자면, CNN을 활용하여 image classification 모델을 학습시키는 것은 다수의 class를 잘 구분할 수 있도록 filter의 weight 값을 찾는 것이라 말씀해주셨습니다. 강아지와 고양이 클래스만 존재한다면, 이 둘을 잘 구분해줄 수 있는 feature map의 weight 값을 찾는 것이 트레이닝의 목표라 할 수 있을 것 같습니다. 

제가 위에서 언급한 논문을 읽으며 의아했던 점은,  강아지 그리고 고양이와는 달리 1로 라벨링된 도시의 거리 이미지의 경우 사진이 정말 제각각이라는 점에서 시작이 되는데요 . (물론 강아지 데이터셋도 살펴보면 강아지 종류에 따른 생김새 그리고 포즈 등이 제각각입니다.) CNN을 활용하면, '사람의 눈으로 보기에는' 제 각각인 사진 속에서도 '안전하다'와 '안전하지 않다'를 잘 구분할 수 있는 feature map을 학습시킬 수 있다는 것일까요?

고양이, 강아지, 자동차, 도로의 파손된 부분과 같은 구체적인 물체를 탐지하거나 분류하는 논문들은 익히 접해봤지만, 이와 같은 인지 예측과 관련된 논문을 만나니 약간 혼란스러워 질문을 드리게 됐습니다. 

 

강아지와 고양이도 생김새나 포즈가 제각각이지만 그 둘을 구분할 수 있는 feature map의 wieght을 학습할 수 있듯이 도시의 거리 이미지도 제각각이지만 안전하다/안전하지 않다를 구분할 수 있는 feature map의 weight을 학습할 수 있다.. 이렇게 이해를 해도 괜찮을까요? 

제가 읽은 논문을 바탕으로 질문을 드리는 것이 혹시나 질문할 수 있는 범위를 넘어서는 것일까봐 많이 고민을 했지만, CNN을 이해하는 과정 속에서 너무나 궁금한 부분이라 질문드리게 됐습니다. 

한번 더 좋은 강의 감사드리며 남은 강의도 열심히 듣겠습니다!

답변 3

1

권 철민님의 프로필 이미지
권 철민
지식공유자

논문을 대강 보니 train 데이터가 안전하다/그렇지 않다, 또는 wealth, beauty에 대한 타겟값을 이미 가지고 있는 상태에서 학습을 진행하는 군요. 

그래서 특정 feature map의 형태에 따라서 이 타겟값을 학습을 하는 형태로 되어 있습니다. feature map이 인간이 감정적으로 느끼는 안전하다/그렇지 않다가 아니라 타겟값이 안전하다/그렇지 않다라고 되어 있는 부분을 지속적으로 학습하면서 feature map을 기반으로 안전하다/그렇지 않다를 판별하게 되어 있습니다. 

feature map이 분류에 사용될 때, 특정 feature map의 형태가 '무엇'(가령, 강아지/고양이)이다 라고 판별을 하게 되는 것은 바로 feature map의 특징을 타겟값과 매핑하면서 이 타겟값이 아닌 다른 값을 예측할 경우 손실(Loss)에 대한 penalty를 부여하면서 feature map이 최대한 타겟값을 잘 예측할 수 있도록 만들어 줍니다. 

때문에 타겟값이 있는 학습데이터라면 feature map을 기반으로 안전하다/그렇지 않다를 예측할 수 있을 것 같습니다. 

jy.kim20님의 프로필 이미지
jy.kim20
질문자

선생님! 논문까지 봐주시고 답변 정말 감사합니다! 

1

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까, 

비전공이신데도 Siamese Network 논문을 보실 정도라니 대단하시군요. 

일반적으로 이미지의 feature map은 이미지가 가지는 edge, texture, 형태등을 표현합니다. 그런데 이것만 가지고 feature map이 안전하다/그렇지 않다를 결정하기에는 무리가 있습니다. 

제가 해당 논문을 읽어보지는 못했지만, 아마도 뾰족하거나, 각이 져있는 형태로 되어 있거나 하는 이미지들과 부드럽고, 둥글둥글한 형태들을 학습하면서 안전하다/그렇지 않다를 학습 시킨것 아닌지 모르겠습니다. 

해당 논문 URL을 적어 주시면 제가 좀 더 확인해 보겠습니다. 

0

jy.kim20님의 프로필 이미지
jy.kim20
질문자

권철민 선생님 안녕하십니까? 

소중한 답변 정말 감사드립니다!!

논문 url은 아래와 같습니다.

https://www.semanticscholar.org/paper/Deep-Learning-the-City%3A-Quantifying-Urban-at-a-Dubey-Naik/4aba5d0b70564a87d25067a684b789b94ac22d34

(처음에 글을 작성할 때는 혹시나 부담스러우실까봐 논문 url을 남기지 못했습니다ㅎㅎ. 다시 한번 감사의 인사 전합니다!) 

선생님 답변을 듣고 한번 더 생각을 해봤습니다. 간략히 정리해보겠습니다. 사실 이 논문은 안전성(safety) 뿐만 아니라 wealth, beauty 등 다양한 인지적 요소를 개별 모델로 학습시킵니다(beauty 예측 모델, safety 예측 모델. ...). 아래의 그림을 보면, 'Liveliness'와 'wealth'의 경우 edge, texture 또는 shape을 건물로부터 학습할 수 있지 않았나 싶습니다. 'Beauty'의 경우 나무나 콘크리트 재질로부터 feature map이 학습되지 않았을까 싶습니다.  

 

선생님 소중한 시간 내어주셔서 정말 감사합니다.

이렇게 여쭤볼 곳이 있다는 게 정말 행운인 것 같습니다! 

 

jy.kim20님의 프로필 이미지
jy.kim20

작성한 질문수

질문하기