강의

멘토링

커뮤니티

Cộng đồng Hỏi & Đáp của Inflearn

Hình ảnh hồ sơ của choongwonjeon3237
choongwonjeon3237

câu hỏi đã được viết

Học Grafana (Grafana Stack) qua thực hành

9.5. Sử dụng tính năng cảnh báo (Alert) của Grafana để phát hiện và xử lý sự cố nhanh chóng

Prometheus 서버가 자꾸 죽습니다.

Viết

·

247

0

질문 답변을 제공하지만, 강의 비용에는 Q&A는 포함되어 있지 않습니다.
다만 실습이 안되거나, 잘못된 내용의 경우는 알려주시면 가능한 빠르게 조치하겠습니다!

[질문 전 답변]
1. 강의에서 다룬 내용과 관련된 질문인가요? [예]
2. 인프런의 질문 게시판과 자주 하는 질문에 없는 내용인가요? [예]
3. 질문 잘하기 법을 읽어보셨나요? [예]
(https://www.inflearn.com/blogs/1719)
4. 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.

[질문 하기]

안녕하세요. Prometheus, Grafana 수강생입니다.

제공해주신 OVA 파일들로 VM을 실행해서 Prometheus와 Grafana를 실행해 실습도 열심히 하고 있습니다.

그런데 어느 정도 시간이 지나면 저절로 Prometheus 서버 pod가 자꾸 죽고 재실행도 안되어서 매우 불편합니다.

pod/prometheus-server-74dbc948cf-vxwpn 1/2 CreateContainerError 0 (7m48s ago)

 

아래 두가지 sh 모두 동일합니다. 왜 잘 실행되던 서버가 아무것도 안했는데 왜 Prometheus만 자꾸 죽는걸까요..ㅜ

sh 등을 변경하거나 그런 것은 전혀 없습니다.

1.prometheus-installer-15s.sh

[root@m-k8s 2.2]# cat 1.prometheus-installer-15s.sh

#!/usr/bin/env bash

# scrape default is 1m

helm install prometheus edu/prometheus \

--set pushgateway.enabled=false \

--set alertmanager.enabled=false \

--set nodeExporter.tolerations[0].key="node-role.kubernetes.io/master" \

--set nodeExporter.tolerations[0].effect="NoSchedule" \

--set nodeExporter.tolerations[0].operator="Exists" \

--set nodeExporter.tolerations[1].key="node-role.kubernetes.io/control-plane" \

--set nodeExporter.tolerations[1].effect="NoSchedule" \

--set nodeExporter.tolerations[1].operator="Exists" \

--set server.service.type="LoadBalancer" \

--set server.service.loadBalancerIP="192.168.1.11" \

--set server.global.scrape_interval="15s" \

--set server.global.evaluation_interval="15s" \

--set server.extraFlags[0]="web.enable-lifecycle" \

--set server.extraFlags[1]="storage.tsdb.no-lockfile" \

--namespace=monitoring \

--create-namespace

1.prometheus-installer-1m-default.sh

#!/usr/bin/env bash

# scrape default is 1m

helm install prometheus edu/prometheus \

--set pushgateway.enabled=false \

--set alertmanager.enabled=false \

--set nodeExporter.tolerations[0].key="node-role.kubernetes.io/master" \

--set nodeExporter.tolerations[0].effect="NoSchedule" \

--set nodeExporter.tolerations[0].operator="Exists" \

--set nodeExporter.tolerations[1].key="node-role.kubernetes.io/control-plane" \

--set nodeExporter.tolerations[1].effect="NoSchedule" \

--set nodeExporter.tolerations[1].operator="Exists" \

--set server.service.type="LoadBalancer" \

--set server.service.loadBalancerIP="192.168.1.11" \

--set server.extraFlags[0]="web.enable-lifecycle" \

--set server.extraFlags[1]="storage.tsdb.no-lockfile" \

--namespace=monitoring \

--create-namespace

 

해결 방법 꼭 알려주시길 부탁드립니다.

감사합니다.

kubernetesgrafana

Câu trả lời 1

0

kubernetes님의 프로필 이미지
kubernetes
Người chia sẻ kiến thức

안녕하세요

OVA를 추가하고 위의 말씀해 주신 작업을 진행해 보았는데요. 재현이 되지 않아.

해당 문제를 확인하기 위해서는 다음의 정보가 필요할 것 같습니다.

 

[root@m-k8s ~]# k describe -n monitoring po prometheus-server-<hash 값>

 

[root@m-k8s ~]# k logs -n monitoring -c prometheus-server prometheus-server-<hash 값> 
ts=2024-05-19T02:47:11.640Z caller=main.go:535 level=info msg="Starting Prometheus Server" mode=server version="(version=2.37.0, branch=HEAD, revision=b41e0750abf5cc18d8233161560731de05199330)"
ts=2024-05-19T02:47:11.642Z caller=main.go:540 level=info build_context="(go=go1.18.4, user=root@0ebb6827e27f, date=20220714-15:13:18)"
ts=2024-05-19T02:47:11.642Z caller=main.go:541 level=info host_details="(Linux 3.10.0-1160.90.1.el7.x86_64 #1 SMP Thu May 4 15:21:22 UTC 2023 x86_64 prometheus-server-d94b68f64-8bc29 (none))"
ts=2024-05-19T02:47:11.642Z caller=main.go:542 level=info fd_limits="(soft=1048576, hard=1048576)"
ts=2024-05-19T02:47:11.642Z caller=main.go:543 level=info vm_limits="(soft=unlimited, hard=unlimited)"
ts=2024-05-19T02:47:11.718Z caller=web.go:553 level=info component=web msg="Start listening for connections" address=0.0.0.0:9090
ts=2024-05-19T02:47:11.720Z caller=main.go:972 level=info msg="Starting TSDB ..."
<snipped>

 

참고로 -c 는 멀티 컨테이너 중에서 프로메테우스 서버의 로그를 보기 위해 추가한 구문입니다.

 

부가적으로 다음의 내용도 함께 부탁드립니다.

[root@m-k8s ~]# k get nodes -o wide 
[root@m-k8s ~]# k get po -A
[root@m-k8s ~]# k exec -n monitoring -c prometheus-server prometheus-server-<hash 값> -it -- prometheus --version

 

해당 내용을 제공해 주시면 살펴보고 말씀드리겠습니다.

 

혹은 (다른 랩탑, PC등 에서) 재현 가능한 방법을 알려주시면 그걸 통해서 문제를 파악하도록 하겠습니다.

 

감사합니다.

Hình ảnh hồ sơ của choongwonjeon3237
choongwonjeon3237

câu hỏi đã được viết

Đặt câu hỏi