inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Học Grafana (Grafana Stack) qua thực hành

9.5. Sử dụng tính năng cảnh báo (Alert) của Grafana để phát hiện và xử lý sự cố nhanh chóng

Prometheus 서버가 자꾸 죽습니다.

252

choongwonjeon3237

1 câu hỏi đã được viết

0

질문 답변을 제공하지만, 강의 비용에는 Q&A는 포함되어 있지 않습니다.
다만 실습이 안되거나, 잘못된 내용의 경우는 알려주시면 가능한 빠르게 조치하겠습니다!

[질문 전 답변]
1. 강의에서 다룬 내용과 관련된 질문인가요? [예]
2. 인프런의 질문 게시판과 자주 하는 질문에 없는 내용인가요? [예]
3. 질문 잘하기 법을 읽어보셨나요? [예]
(https://www.inflearn.com/blogs/1719)
4. 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.

[질문 하기]

안녕하세요. Prometheus, Grafana 수강생입니다.

제공해주신 OVA 파일들로 VM을 실행해서 Prometheus와 Grafana를 실행해 실습도 열심히 하고 있습니다.

그런데 어느 정도 시간이 지나면 저절로 Prometheus 서버 pod가 자꾸 죽고 재실행도 안되어서 매우 불편합니다.

pod/prometheus-server-74dbc948cf-vxwpn 1/2 CreateContainerError 0 (7m48s ago)

 

아래 두가지 sh 모두 동일합니다. 왜 잘 실행되던 서버가 아무것도 안했는데 왜 Prometheus만 자꾸 죽는걸까요..ㅜ

sh 등을 변경하거나 그런 것은 전혀 없습니다.

1.prometheus-installer-15s.sh

[root@m-k8s 2.2]# cat 1.prometheus-installer-15s.sh

#!/usr/bin/env bash

# scrape default is 1m

helm install prometheus edu/prometheus \

--set pushgateway.enabled=false \

--set alertmanager.enabled=false \

--set nodeExporter.tolerations[0].key="node-role.kubernetes.io/master" \

--set nodeExporter.tolerations[0].effect="NoSchedule" \

--set nodeExporter.tolerations[0].operator="Exists" \

--set nodeExporter.tolerations[1].key="node-role.kubernetes.io/control-plane" \

--set nodeExporter.tolerations[1].effect="NoSchedule" \

--set nodeExporter.tolerations[1].operator="Exists" \

--set server.service.type="LoadBalancer" \

--set server.service.loadBalancerIP="192.168.1.11" \

--set server.global.scrape_interval="15s" \

--set server.global.evaluation_interval="15s" \

--set server.extraFlags[0]="web.enable-lifecycle" \

--set server.extraFlags[1]="storage.tsdb.no-lockfile" \

--namespace=monitoring \

--create-namespace

1.prometheus-installer-1m-default.sh

#!/usr/bin/env bash

# scrape default is 1m

helm install prometheus edu/prometheus \

--set pushgateway.enabled=false \

--set alertmanager.enabled=false \

--set nodeExporter.tolerations[0].key="node-role.kubernetes.io/master" \

--set nodeExporter.tolerations[0].effect="NoSchedule" \

--set nodeExporter.tolerations[0].operator="Exists" \

--set nodeExporter.tolerations[1].key="node-role.kubernetes.io/control-plane" \

--set nodeExporter.tolerations[1].effect="NoSchedule" \

--set nodeExporter.tolerations[1].operator="Exists" \

--set server.service.type="LoadBalancer" \

--set server.service.loadBalancerIP="192.168.1.11" \

--set server.extraFlags[0]="web.enable-lifecycle" \

--set server.extraFlags[1]="storage.tsdb.no-lockfile" \

--namespace=monitoring \

--create-namespace

 

해결 방법 꼭 알려주시길 부탁드립니다.

감사합니다.

kubernetes grafana

Câu trả lời 1

0

kubernetes

안녕하세요

OVA를 추가하고 위의 말씀해 주신 작업을 진행해 보았는데요. 재현이 되지 않아.

해당 문제를 확인하기 위해서는 다음의 정보가 필요할 것 같습니다.

 

[root@m-k8s ~]# k describe -n monitoring po prometheus-server-<hash 값>

 

[root@m-k8s ~]# k logs -n monitoring -c prometheus-server prometheus-server-<hash 값> 
ts=2024-05-19T02:47:11.640Z caller=main.go:535 level=info msg="Starting Prometheus Server" mode=server version="(version=2.37.0, branch=HEAD, revision=b41e0750abf5cc18d8233161560731de05199330)"
ts=2024-05-19T02:47:11.642Z caller=main.go:540 level=info build_context="(go=go1.18.4, user=root@0ebb6827e27f, date=20220714-15:13:18)"
ts=2024-05-19T02:47:11.642Z caller=main.go:541 level=info host_details="(Linux 3.10.0-1160.90.1.el7.x86_64 #1 SMP Thu May 4 15:21:22 UTC 2023 x86_64 prometheus-server-d94b68f64-8bc29 (none))"
ts=2024-05-19T02:47:11.642Z caller=main.go:542 level=info fd_limits="(soft=1048576, hard=1048576)"
ts=2024-05-19T02:47:11.642Z caller=main.go:543 level=info vm_limits="(soft=unlimited, hard=unlimited)"
ts=2024-05-19T02:47:11.718Z caller=web.go:553 level=info component=web msg="Start listening for connections" address=0.0.0.0:9090
ts=2024-05-19T02:47:11.720Z caller=main.go:972 level=info msg="Starting TSDB ..."
<snipped>

 

참고로 -c 는 멀티 컨테이너 중에서 프로메테우스 서버의 로그를 보기 위해 추가한 구문입니다.

 

부가적으로 다음의 내용도 함께 부탁드립니다.

[root@m-k8s ~]# k get nodes -o wide 
[root@m-k8s ~]# k get po -A
[root@m-k8s ~]# k exec -n monitoring -c prometheus-server prometheus-server-<hash 값> -it -- prometheus --version

 

해당 내용을 제공해 주시면 살펴보고 말씀드리겠습니다.

 

혹은 (다른 랩탑, PC등 에서) 재현 가능한 방법을 알려주시면 그걸 통해서 문제를 파악하도록 하겠습니다.

 

감사합니다.

gateway 생성 후 접속 확인 질문

0

11

1

6.6 히스토그램 관련 질문드립니다.

0

63

2

prometheus-server IP가 pending 상태입니다.

0

72

2

2.11 강의에 그라파나 설치하고 연동하기

0

78

2

프로메테우스에 데이터가 없어도 annotation 지정한 상태를 확인 할 수 있나요?

0

113

1

connection refused The connection to the server 192.168.1.10:6443 was refused

0

219

2

6.4 히트맵 해석

0

179

3

[해결] ch2/2.2 가 없어 수업 진행이 불가능합니다.

0

211

4

선수작업으로 프로메테우스 강의를 들어야할까요?

0

195

1

histogram panel 설정시

0

183

2

sh scripts/vf_net_create_vnet2.sh 에러

0

129

1

launchctl-load-vmware-utility 에러

0

233

1

정확하게 강의 순서를 알려주시겠어요?

0

322

1

tabby에서 cp-k8s 접속 안되는 현상

0

266

1

vagrant up 안됩니다.

0

174

1

Tabby 실행이 안됩니다.

0

804

2

9.9 강의 그라파나 대시보드에 JSON 파일 import 오류

0

386

1

5.7 table 패널 실습문의

0

250

1

metric-server 이중화로 인한 grafana 대시보드 이중 출력 문의

0

520

2

Grafana PromQL 관련 질문

0

288

1

AWS 그라파나에 유용한 메트릭을 소개해주실 수 있나요?

0

505

2

enabled-control-plane-scrape.sh을 통해 변경하는 부분을 aws eks cluster에도 적용할 수 있나요?

0

483

2

그라파나(9.3.8) 버전 기준 slack 으로 이미지 전송

0

738

1

그라파나 알람 리스트 대시보드도 가능할까요?

0

892

1