Prometheus 서버가 자꾸 죽습니다.
251
작성한 질문수 1
질문 답변을 제공하지만, 강의 비용에는 Q&A는 포함되어 있지 않습니다. 다만 실습이 안되거나, 잘못된 내용의 경우는 알려주시면 가능한 빠르게 조치하겠습니다!
[질문 전 답변]
1. 강의에서 다룬 내용과 관련된 질문인가요? [예]
2. 인프런의 질문 게시판과 자주 하는 질문에 없는 내용인가요? [예]
3. 질문 잘하기 법을 읽어보셨나요? [예]
(https://www.inflearn.com/blogs/1719)
4. 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
[질문 하기]
안녕하세요. Prometheus, Grafana 수강생입니다.
제공해주신 OVA 파일들로 VM을 실행해서 Prometheus와 Grafana를 실행해 실습도 열심히 하고 있습니다.
그런데 어느 정도 시간이 지나면 저절로 Prometheus 서버 pod가 자꾸 죽고 재실행도 안되어서 매우 불편합니다.
pod/prometheus-server-74dbc948cf-vxwpn 1/2 CreateContainerError 0 (7m48s ago)
아래 두가지 sh 모두 동일합니다. 왜 잘 실행되던 서버가 아무것도 안했는데 왜 Prometheus만 자꾸 죽는걸까요..ㅜ
sh 등을 변경하거나 그런 것은 전혀 없습니다.
[root@m-k8s 2.2]# cat 1.prometheus-installer-15s.sh
#!/usr/bin/env bash
# scrape default is 1m
helm install prometheus edu/prometheus \
--set pushgateway.enabled=false \
--set alertmanager.enabled=false \
--set nodeExporter.tolerations[0].key="node-role.kubernetes.io/master" \
--set nodeExporter.tolerations[0].effect="NoSchedule" \
--set nodeExporter.tolerations[0].operator="Exists" \
--set nodeExporter.tolerations[1].key="node-role.kubernetes.io/control-plane" \
--set nodeExporter.tolerations[1].effect="NoSchedule" \
--set nodeExporter.tolerations[1].operator="Exists" \
--set server.service.type="LoadBalancer" \
--set server.service.loadBalancerIP="192.168.1.11" \
--set server.global.scrape_interval="15s" \
--set server.global.evaluation_interval="15s" \
--set server.extraFlags[0]="web.enable-lifecycle" \
--set server.extraFlags[1]="storage.tsdb.no-lockfile" \
--namespace=monitoring \
--create-namespace
1.prometheus-installer-1m-default.sh
#!/usr/bin/env bash
# scrape default is 1m
helm install prometheus edu/prometheus \
--set pushgateway.enabled=false \
--set alertmanager.enabled=false \
--set nodeExporter.tolerations[0].key="node-role.kubernetes.io/master" \
--set nodeExporter.tolerations[0].effect="NoSchedule" \
--set nodeExporter.tolerations[0].operator="Exists" \
--set nodeExporter.tolerations[1].key="node-role.kubernetes.io/control-plane" \
--set nodeExporter.tolerations[1].effect="NoSchedule" \
--set nodeExporter.tolerations[1].operator="Exists" \
--set server.service.type="LoadBalancer" \
--set server.service.loadBalancerIP="192.168.1.11" \
--set server.extraFlags[0]="web.enable-lifecycle" \
--set server.extraFlags[1]="storage.tsdb.no-lockfile" \
--namespace=monitoring \
--create-namespace
해결 방법 꼭 알려주시길 부탁드립니다.
감사합니다.
답변 1
0
안녕하세요
OVA를 추가하고 위의 말씀해 주신 작업을 진행해 보았는데요. 재현이 되지 않아.
해당 문제를 확인하기 위해서는 다음의 정보가 필요할 것 같습니다.
[root@m-k8s ~]# k describe -n monitoring po prometheus-server-<hash 값>
[root@m-k8s ~]# k logs -n monitoring -c prometheus-server prometheus-server-<hash 값>
ts=2024-05-19T02:47:11.640Z caller=main.go:535 level=info msg="Starting Prometheus Server" mode=server version="(version=2.37.0, branch=HEAD, revision=b41e0750abf5cc18d8233161560731de05199330)"
ts=2024-05-19T02:47:11.642Z caller=main.go:540 level=info build_context="(go=go1.18.4, user=root@0ebb6827e27f, date=20220714-15:13:18)"
ts=2024-05-19T02:47:11.642Z caller=main.go:541 level=info host_details="(Linux 3.10.0-1160.90.1.el7.x86_64 #1 SMP Thu May 4 15:21:22 UTC 2023 x86_64 prometheus-server-d94b68f64-8bc29 (none))"
ts=2024-05-19T02:47:11.642Z caller=main.go:542 level=info fd_limits="(soft=1048576, hard=1048576)"
ts=2024-05-19T02:47:11.642Z caller=main.go:543 level=info vm_limits="(soft=unlimited, hard=unlimited)"
ts=2024-05-19T02:47:11.718Z caller=web.go:553 level=info component=web msg="Start listening for connections" address=0.0.0.0:9090
ts=2024-05-19T02:47:11.720Z caller=main.go:972 level=info msg="Starting TSDB ..."
<snipped>
참고로 -c 는 멀티 컨테이너 중에서 프로메테우스 서버의 로그를 보기 위해 추가한 구문입니다.
부가적으로 다음의 내용도 함께 부탁드립니다.
[root@m-k8s ~]# k get nodes -o wide
[root@m-k8s ~]# k get po -A
[root@m-k8s ~]# k exec -n monitoring -c prometheus-server prometheus-server-<hash 값> -it -- prometheus --version
해당 내용을 제공해 주시면 살펴보고 말씀드리겠습니다.
혹은 (다른 랩탑, PC등 에서) 재현 가능한 방법을 알려주시면 그걸 통해서 문제를 파악하도록 하겠습니다.
감사합니다.
강사님 Sprint6 은 언제쯤 나오나요?
1
5
1
6.6 히스토그램 관련 질문드립니다.
0
62
2
prometheus-server IP가 pending 상태입니다.
0
72
2
2.11 강의에 그라파나 설치하고 연동하기
0
78
2
프로메테우스에 데이터가 없어도 annotation 지정한 상태를 확인 할 수 있나요?
0
113
1
connection refused The connection to the server 192.168.1.10:6443 was refused
0
218
2
6.4 히트맵 해석
0
179
3
[해결] ch2/2.2 가 없어 수업 진행이 불가능합니다.
0
211
4
선수작업으로 프로메테우스 강의를 들어야할까요?
0
194
1
histogram panel 설정시
0
183
2
sh scripts/vf_net_create_vnet2.sh 에러
0
129
1
launchctl-load-vmware-utility 에러
0
233
1
정확하게 강의 순서를 알려주시겠어요?
0
322
1
tabby에서 cp-k8s 접속 안되는 현상
0
266
1
vagrant up 안됩니다.
0
174
1
Tabby 실행이 안됩니다.
0
797
2
9.9 강의 그라파나 대시보드에 JSON 파일 import 오류
0
386
1
5.7 table 패널 실습문의
0
250
1
metric-server 이중화로 인한 grafana 대시보드 이중 출력 문의
0
519
2
Grafana PromQL 관련 질문
0
287
1
AWS 그라파나에 유용한 메트릭을 소개해주실 수 있나요?
0
502
2
enabled-control-plane-scrape.sh을 통해 변경하는 부분을 aws eks cluster에도 적용할 수 있나요?
0
481
2
그라파나(9.3.8) 버전 기준 slack 으로 이미지 전송
0
735
1
그라파나 알람 리스트 대시보드도 가능할까요?
0
889
1





