Повторный ввод MaaS в эксплуатацию завершается ошибкой по таймауту
Я развернул MaaS регион + стоечный контроллер и попытался запустить на нем 3 узла.
Первый раз, когда я это сделал, все прошло успешно, все узлы были подключены и введены в эксплуатацию очень быстро, примерно за 10 минут. Потрясающие!
Но потом я удалил один из них и попытался добавить его заново. Снова начался ввод в эксплуатацию, и теперь этот процесс длится вечно.
Я открыл его консоль IPMI и вижу, что хотя процесс загрузки выполняется более или менее успешно, каждый шаг
cloud-init
занимает примерно 2 минуты.
Большинство запросов от компьютера к MaaS API приводят к статусу 204:
tail -f /var/log/maas/regiond.log
2019-12-15 19:47:23 regiond: [info] 10.100.70.31 POST /MAAS/metadata/status/xaxfnw HTTP/1.1 --> 204 NO_CONTENT (referrer: -; agent: python-requests/2.18.4)
2019-12-15 19:47:23 regiond: [info] 10.100.70.31 POST /MAAS/metadata/status/xaxfnw HTTP/1.1 --> 204 NO_CONTENT (referrer: -; agent: python-requests/2.18.4)
Что касается сценариев cloud-init, они работают нормально, но в целом занимают ~30 минут (как видно в интерфейсе IPMI):
В качестве отдельной проблемы я часто вижу, как интерфейс MaaS теряет соединение со своим внутренним сервером django и застревает в таком состоянии:
В то же время я подключаюсь через SSH к серверу MaaS, и я уверен, что ssh-соединение в порядке - оно отображает и обновляет
regiond.log
.