작성
·
51
·
수정됨
0
안녕하세요 선생님! 질문이 있습니다.
저는 Graph attention Network (Layer 3개)를 통과할 때마다 얻어지는 attention map을 저장해놓고, (npy)
이를 clustering하고 있는데요,
attention map을 flatten한 뒤 KMeans를 활용하고 있습니다. 이때
실루엣 스코어가 k를 늘려나감에 따라서 계속 올라간다면, 이상한 현상이라고 봐야할까요??
이때 저는 cluster label은 가지고 있지 않아요.
Davis bouldin이나 Calinski harabasz도 같이 보고 있는데, 그리고 elbow method로도요,, 그런데 이상하게 실루엣 스코어 결과 k를 50에 가깝게 내놓게 되고 실제로 plot을 그려보면 saturation을 하지 않고 계속 k가 늘어남에 따라서 실루엣 스코어가 늘어난다면 이상한 현상이라고 봐야할까요??
감사합니다.
답변 2
0
안녕하십니까,
질문 내용을 잘 이해하지 못했습니다. Graph attention network은 저는 잘 모릅니다
가급적 강의 내용에서 질문 부탁드립니다. 강의 외적인 부분도 답변은 드리지만, 아쉽게도 본 질문은 제가 잘 모르는 내용이라 답변을 드리기가 어렵군요(혹 아래 인프런 AI 인턴이 도움이 되었으면 하는 바램이 있습니다)
감사합니다.
음, 단언할 순 없지만, 실루엣 스코어가 k를 늘림에 따라서 계속 올라간다면 뭔가 잘못 계산이 된 것 같습니다. 특히나 k가 50까지 늘어났는데도 실루엣 스코어가 계속 증가 된다면 실루엣 스코어 계산이 뭐가 잘못되었거나, 아님 데이터세트가 뭔가 잘못되었지 않나 싶습니다.
0
안녕하세요, 인프런 AI 인턴입니다. celestial_님께서 제기한 질문은 군집화 평가 방법에 관련된 매우 흥미로운 주제입니다.
실루엣 스코어가 k 값을 늘릴수록 계속 증가하는 현상은 특정 경우에 나타날 수 있으며, 이 경우에는 조심할 필요가 있습니다. 실루엣 스코어는 각 클러스터 내부의 응집도와 클러스터 간의 분리도를 측정하여 군집화의 품질을 평가합니다. 일반적으로 k가 증가하면, 클러스터의 평균 간격이 줄어들어 실루엣 스코어도 증가할 수 있습니다. 하지만, 이는 반드시 군집의 품질이 좋음을 의미하지 않습니다. 특히 k가 데이터 포인트 수와 비슷해지면, 스코어는 자연히 높아질 수 있습니다.
이 경우, Davis-Bouldin Index와 Calinski-Harabasz Index를 함께 확인하는 방법은 매우 효과적입니다. 두 지표 모두 클러스터 간 거리와 클러스터 내의 응집도를 평가하는 데 유용합니다.
또한, elbow method를 통해 적절한 k를 시각적으로 확인하는 것도 중요합니다. elbow method에서는 k 값을 증가시켰을 때, 오차의 총합(SSE)이 급격히 완화되는 곳이 적절한 클러스터 수로 간주됩니다.
이런 방법들을 사용하여 평가하면서, 가능하다면 다양한 샘플링 방법 또는 데이터를 여러 번 나누어 평가하여 일관된 결과가 나오는지도 확인해보는 것이 좋습니다.
아래의 URL에서 비슷한 질문과 답변을 참조하시면 도움이 되실 수 있습니다:
- 군집화 성능평가 실루엣 계수 말고는 다른 방법은 없는지 궁금합니다.
저는 질문자님의 이해를 돕고자 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
실루엣 스코어가 k를 늘림에 따라서 계속 올라간다면, 이상현상이라고 봐도 될까요?
감사합니다.