Prometheus мониторинг медленных запросов к БД

Форум — Admin

Добрый день!

Подскажите как настроить prometheus.

Есть postgres_exporter ему заданы custom запросы которые долго выполняются.

В прометее для данного postgres_exporter стоит scrape_interval 60 минут, но прометей не может получить данные из postgres_exporter так как последний их долго отдает ( долго выполняются запросы, долго получаем ответ).

При этом если мы браузером идем напрямую в /metrics postgres_exporter данные формируются.

Получается что Prometheus просто не дожидается отдачи.

Какой параметр в сборе метрик прометея можно подкрутить чтоб он дожидался ответа postgres_exporter ?

prometheus

SergHom
(26.10.20 11:08:25 MSK)

3 комментария

Закончилось место на OSD в CEPH, что делать?

Форум — General

Помогите разобраться с CEPH

Для теста развернул на одной машине CEPH. Ставил через ceph-depoy.

В качестве OSD использую директории на диске

Создал 7 директорий:

/opt/osd1
/opt/osd2
/opt/osd3
...
/opt/osd7

поднял rados gateway в итоге получилось 6 пулов:

#ceph osd pool ls
.rgw.root
default.rgw.control
default.rgw.meta
default.rgw.log
default.rgw.buckets.index
default.rgw.buckets.data

Для теста выставил следующие параметры:

osd pool default size = 1
osd pool default min size = 1
osd pool default pg num = 30
osd pool default pgp num = 30

В ходе теста CEPH предупредил что заканчивается место на одном OSD. Я решил, что поможет добавление нового OSD и CEPH сам перераспределит данные ( я был не прав!) Сейчас статус ceph стал таким:

~# ceph -s
  cluster:
    id:     3ed5c9c-ec59-4223-9104-65f82103a45d
    health: HEALTH_ERR
            Reduced data availability: 28 pgs stale
            1 slow requests are blocked > 32 sec. Implicated osds 0
            4 stuck requests are blocked > 4096 sec. Implicated osds 1,2,5

  services:
    mon: 1 daemons, quorum Rutherford
    mgr: Ruerfr(active)
    osd: 7 osds: 6 up, 6 in
    rgw: 1 daemon active

  data:
    pools:   6 pools, 180 pgs
    objects: 227 objects, 2.93KiB
    usage:   23.0GiB used, 37.0GiB / 60GiB avail
    pgs:     152 active+clean
             28  stale+active+clean

место на OSD закончилось и он ушел в статус down:

# ceph osd tree
ID CLASS WEIGHT  TYPE NAME           STATUS REWEIGHT PRI-AFF
-1       0.06857 root default
-3       0.06857     host Rutherford
 0   hdd 0.00980         osd.0           up  0.95001 1.00000
 1   hdd 0.00980         osd.1           up  0.90002 1.00000
 2   hdd 0.00980         osd.2           up  0.90002 1.00000
 3   hdd 0.00980         osd.3         down        0 1.00000
 4   hdd 0.00980         osd.4           up  1.00000 1.00000
 5   hdd 0.00980         osd.5           up  1.00000 1.00000
 6   hdd 0.00980         osd.6           up  1.00000 1.00000

Я понимаю что проблема в моем не понимании работы CEPH, но к сожалению сам найти решение не смог, поэтому прошу помощи. Вопросы на которые я так и не смог ответить:

Как сейчас восстановить работу CEPH, место на диске есть. Создать OSD могу , но как заставить CEPH перераспределить данные с одного OSD на другие ?
Почему CEPH писал данные только на один OSD, я изначально создавал их 7 штук ?

содержимое /etc/ceph.conf:

[global]
fsid = 1ed3ce2c-ec59-4315-9146-65182123a35d
mon_initial_members = Rut4erfor
mon_host = 8.3.5.1
auth_cluster_required = cephx
auth_service_required = cephx
auth_client_required = cephx

osd pool default size = 1
osd pool default min size = 1
osd pool default pg num = 30
osd pool default pgp num = 30
[osd]
osd max object size = 1073741824
osd max write size = 1073741824

ceph

SergHom
(17.07.20 09:10:26 MSK)

11 комментариев

Сообщения SergHom

Prometheus мониторинг медленных запросов к БД

Закончилось место на OSD в CEPH, что делать?