Ubuntu 14.04.1 средняя загрузка простоя сервера 1.00
Царапая мою голову здесь. Надеюсь, кто-то может помочь мне устранить неполадки.
У меня есть сервер Dell PowerEdge SC1435, который некоторое время работал с предыдущей версией Ubuntu. (Я считаю, что это был 13.10 сервер x64)
Я недавно переформатировал диск (SSD) и установил сервер Ubuntu 14.04.1 x64.
В процессе установки все выглядело нормально, но машина зависала при первой загрузке в конце вывода ядра, как раз перед тем, как я ожидал, что экран очистится и появится приглашение для входа в систему. Там не было никаких явных ошибок в конце вывода ядра, которое я видел. (Появилось сообщение о том, что "не используется термодатчик процессора, который ненадежен", но, по-видимому, он существует независимо от того, загружается он или нет)
Я дал ему добрых 5 минут, а затем принудительно перезагрузился. К моему удивлению, оно загрузилось до приглашения входа в систему примерно через 1-2 секунды после публикации BIOS. Я снова перезагрузился, и он, казалось, остановился на несколько дополнительных секунд, где он висел раньше, но перешел к экрану входа в систему. Перезагрузка снова была быстрой снова. Поэтому в этот момент я подумал, что это всего лишь один из тех случайных одноразовых глюков, которые я никогда не объясню, поэтому я пошел дальше.
Я установил несколько пакетов (точно такие же пакеты, установленные в той же версии ОС на другом оборудовании), произвел обновление и dist-upgrade, а затем перезагрузился. Казалось, что он снова завис, поэтому я поехал в центр обработки данных и подключил консоль только для того, чтобы получить пустой экран. Принудительная перезагрузка снова. (также настройте ipmi для удаленной перезагрузки и избавьтесь от ошибки записи grub, чтобы я не ждал нажатия Enter!)
Это было очень поздно прошлой ночью. Я пришел домой, сделал несколько перезагрузок без проблем, поэтому лег спать. Сегодня я снова сделал перезагрузку, чтобы проверить это, и снова он где-то рухнул. Я удаленно перезагрузил его.
В этот момент я начал копать еще немного и сразу заметил что-то действительно странное.
top - 14:18:35 up 8 min, 1 user, load average: 1.00, 0.85, 0.45
Tasks: 148 total, 1 running, 147 sleeping, 0 stopped, 0 zombie
%Cpu(s): 0.1 us, 0.3 sy, 0.0 ni, 99.6 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem: 33013620 total, 338928 used, 32674692 free, 9740 buffers
KiB Swap: 3906556 total, 0 used, 3906556 free. 47780 cached Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
1 root 20 0 33508 2772 1404 S 0.0 0.0 0:03.82 init
2 root 20 0 0 0 0 S 0.0 0.0 0:00.00 kthreadd
3 root 20 0 0 0 0 S 0.0 0.0 0:00.00 ksoftirqd/0
5 root 0 -20 0 0 0 S 0.0 0.0 0:00.00 kworker/0:0H
6 root 20 0 0 0 0 S 0.0 0.0 0:00.00 kworker/u16:0
8 root 20 0 0 0 0 S 0.0 0.0 0:00.24 rcu_sched
9 root 20 0 0 0 0 S 0.0 0.0 0:00.02 rcuos/0
10 root 20 0 0 0 0 S 0.0 0.0 0:00.00 rcuos/1
11 root 20 0 0 0 0 S 0.0 0.0 0:00.00 rcuos/2
Этот сервер полностью не используется и бездействует, но его загрузка в среднем за 1 минуту составляет ровно 1,00? Когда я наблюдаю за другими значениями - 5-минутная и 15-минутная также, кажется, движутся к 1,00, поэтому я предполагаю, что в какой-то момент все они достигнут 1,00. ("1 Бег" - лучший процесс)
У меня никогда не было этого раньше, и, поскольку я понятия не имею, что является причиной сбоя стартапа, я предполагаю, что оба они, вероятно, связаны.
То, что я хотел бы сделать, это определить (и, надеюсь, устранить), что вызывает это среднее значение ложной нагрузки и мою проблему сбоя.
До сих пор я не смог определить, какой процесс может ожидать какой-то ресурс для генерации этого среднего значения нагрузки.
Я был бы очень признателен, если бы кто-нибудь помог мне попытаться отследить это.
top показывает все процессы, почти всегда спящие. Некоторые из них иногда появляются, но я думаю, что это нормально. Загрузка ЦП в основном показывает 100% IDLE, с очень редкими провалами до 99% или около того.
Nmon не показывает мне много. все выглядит без дела.
iotop показывает практически отсутствие трафика. (опять же, очень редкие места доступа к диску)
частота прерываний кажется низкой. намного ниже 100/ сек от того, что я вижу.
Я видел многочисленные обсуждения Google, предлагающие это:
echo 100 > /sys/module/ipmi_si/parameters/kipmid_max_busy_us
..нет эффекта.
Оперативная память на сервере - это ECC и тесты пройдены.
Установка сервера была "минимальной" (опция F4), а сервер OpenSSH отмечен во время установки. Позже установил несколько пакетов, включая vim, bcache-tools, bridge-utils, qemu, общие свойства программного обеспечения, open-iscsi, qemu-kvm, cpu-checker, socat, ntp и nodejs. (Думаю, что об этом)
Я попытался отключить и удалить модуль ядра bcache. нет эффекта. остановил службу iscsi.. безрезультатно. (хотя на этом сервере еще ничего не настроено)
Я оставлю это там, прежде чем это станет безумно долго. Если бы кто-нибудь мог помочь мне попытаться понять это, я был бы очень признателен.
Ура,
Джеймс
1 ответ
Точно такая же проблема здесь. Свежая установка, без программного обеспечения, приложения, установка веб-сайта... без использования сети... нет ничего. Совершенно новая установленная коробка, с большим количеством оперативной памяти и процессора... загрузить avg на 1... но бездействия.
root@web2:~# uname -a
Linux web2.ma-reduc.com 3.13.0-68-generic #111-Ubuntu SMP Fri Nov 6 18:17:06 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux