Kubernetes, поды по 5 - ∞ минут в статусе «Pending» после увеличения размера инстанса EC2

Форум — Admin

Добрый день!

Есть kubernetes, развернутый на одной ВМ в AWS. После увеличения инстанса EC2 с t2.xlarge до t2.2xlarge появилась проблема - очень долго стартуют поды. От минут пяти до бесконечности они находятся в статусе Pending.

Версии ПО: kubernetes 1.9.3 Docker 17.3.2 Ubuntu 16.04.6 LTS

Пример эвентов из describe pod:

Events:
  Type     Reason                 Age   From                 Message
  ----     ------                 ----  ----                 -------
  Normal   SuccessfulMountVolume  16m   kubelet, 10.2.4.181  MountVolume.SetUp succeeded for volume "data"
  Warning  FailedMount            15m   kubelet, 10.2.4.181  Unable to mount volumes for pod "stolon-keeper-kzh8z_postgres(b7f1ad9c-b381-11e9-a7be-0667d7155b84)": timeout expired waiting for volumes to attach/mount for pod "postgres"/"stolon-keeper-kzh8z". list of unattached/unmounted volumes=[stolon extend-query stolon-token-kzsvj]
  Normal   SuccessfulMountVolume  15m   kubelet, 10.2.4.181  MountVolume.SetUp succeeded for volume "stolon"
  Normal   SuccessfulMountVolume  15m   kubelet, 10.2.4.181  MountVolume.SetUp succeeded for volume "extend-query"
  Normal   SuccessfulMountVolume  15m   kubelet, 10.2.4.181  MountVolume.SetUp succeeded for volume "stolon-token-kzsvj"
  Normal   Pulled                 15m   kubelet, 10.2.4.181  Container image "sorintlab/stolon:v0.12.0-pg9.6" already present on machine
  Normal   Created                15m   kubelet, 10.2.4.181  Created container
  Normal   Started                15m   kubelet, 10.2.4.181  Started container
  Normal   Pulled                 15m   kubelet, 10.2.4.181  Container image "wrouesnel/postgres_exporter:v0.4.7" already present on machine
  Normal   Created                15m   kubelet, 10.2.4.181  Created container
  Normal   Started                15m   kubelet, 10.2.4.181  Started container

Как видим по эвентам, контейнер Docker запустился и мы в него даже можем зайти (docker exec –it).

Подозреваю, на проблему указывает то, что в описании POD k8s мы видим, что IP отсутствует. Как только он появляется, статус POD изменяется на «Running».

Мы пробовали менять версию Docker на 18.6 - ошибка остается. Kubernetes обновить до 1.9.11 не получается - падает kubeadm с ошибкой по таймауту.

Логи подов в kube-system смотрел, ничего подозрительного не увидел. Есть ноды, которые аналогичны проблемной - на них всё хорошо.

До увеличения размера инстанса EС2 нода выключалась каждую ночь - всё работало без проблем, значит вопрос не в рестарте. Но и с увеличением инстанса я это связать не могу, так как план менялся с t2.xlarge на t2.2xlarge. Судя по документации AWS, было простое увеличение ресурсов.

kubernetes

cyreex
(31.07.19 14:38:25 MSK)

3 комментария

Сообщения cyreex

Kubernetes, поды по 5 - ∞ минут в статусе «Pending» после увеличения размера инстанса EC2