Повторный ввод MaaS в эксплуатацию завершается ошибкой по таймауту

Я развернул MaaS регион + стоечный контроллер и попытался запустить на нем 3 узла.

Первый раз, когда я это сделал, все прошло успешно, все узлы были подключены и введены в эксплуатацию очень быстро, примерно за 10 минут. Потрясающие!

Но потом я удалил один из них и попытался добавить его заново. Снова начался ввод в эксплуатацию, и теперь этот процесс длится вечно.

Я открыл его консоль IPMI и вижу, что хотя процесс загрузки выполняется более или менее успешно, каждый шаг cloud-init занимает примерно 2 минуты.

Большинство запросов от компьютера к MaaS API приводят к статусу 204:

tail -f /var/log/maas/regiond.log

       2019-12-15 19:47:23 regiond: [info] 10.100.70.31 POST /MAAS/metadata/status/xaxfnw HTTP/1.1 --> 204 NO_CONTENT (referrer: -; agent: python-requests/2.18.4)
2019-12-15 19:47:23 regiond: [info] 10.100.70.31 POST /MAAS/metadata/status/xaxfnw HTTP/1.1 --> 204 NO_CONTENT (referrer: -; agent: python-requests/2.18.4)

Что касается сценариев cloud-init, они работают нормально, но в целом занимают ~30 минут (как видно в интерфейсе IPMI):

В качестве отдельной проблемы я часто вижу, как интерфейс MaaS теряет соединение со своим внутренним сервером django и застревает в таком состоянии:

В то же время я подключаюсь через SSH к серверу MaaS, и я уверен, что ssh-соединение в порядке - оно отображает и обновляет regiond.log.

0 ответов

Другие вопросы по тегам