• 카테고리

    질문 & 답변
  • 세부 분야

    데브옵스 · 인프라

  • 해결 여부

    해결됨

Node 장애인경우

20.10.14 01:52 작성 조회수 237

1

안녕하세요

말씀주신 강의를 보고 다시한번 질문올립니다.

https://www.inflearn.com/questions/76720

---

환경 : GKE

NODE : 3개(node1,node2,node3)

pod : node1에 올라가 있는 상태

-----

node1에서 장애가 났다고 가정시

5분동안 gke자체 내에서 복구작업이 이뤄지며, 5분안에 노드가 살아나게 되면

그 노드에 파드가 그대로 생성이 됨.

하지만 5분 이상 장애가 지속이 되면 옵션 NoExecute 의 taint가 장애 발생된 node1에 추가가 됨으로

특정 Tolerations를 지니지 않은 pod는 삭제가 되며, 컨트롤러는 replica 수가 설정 값보다 감소했음으로 pod를 생성하는데, 해당 pod는 Tolerations를 가지고 있지 않음으로 다른 node(node2,3)에 생성이 된다라고 이해를 했습니다.

여기서 3가지 궁금증인데요.

1.  GKE에서 5분 동안 복구 작업한다고 말씀을 주셨는데 복구 시간을 사용자가 직접 조정을 할 수 있는 방법이 있을까요.

2.  1번이 가능하지 않다면 5분동안 노드장애를 지속하고 싶은데, 방법이 있을까요.  

조언을 구하고 싶습니다.

(NoExecute 의 taint가 붙는 경우를 보고 싶습니다.)

3.  그리고 노드 장애인 경우 NoExecute 의 taint가 안붙는 경우도 있을까요. 

이러한 질문들 드리는 이유는

gke를 사용하는 프로덕션 환경에서 node장애가 5분 이상 발생을 한 경우가 있었는데, 

다른 node에 재생성이 되지 않은 경우가 있어서 질문드립니다.

감사합니다.

답변 2

·

답변을 작성해보세요.

1

정보공유)

# kubectl edit pod 

를 통해 5분이란 시간은 조정 가능하네요.

공식문서

https://kubernetes.io/docs/concepts/scheduling-eviction/taint-and-toleration/#taint-based-evictions

참고블로그

https://blog.naver.com/alice_k106/221511412970

0

네 맞습니다. 잘 해결하셌네요.