Ubuntu 14.04.1 средняя загрузка простоя сервера 1.00

Царапая мою голову здесь. Надеюсь, кто-то может помочь мне устранить неполадки.

У меня есть сервер Dell PowerEdge SC1435, который некоторое время работал с предыдущей версией Ubuntu. (Я считаю, что это был 13.10 сервер x64)

Я недавно переформатировал диск (SSD) и установил сервер Ubuntu 14.04.1 x64.

В процессе установки все выглядело нормально, но машина зависала при первой загрузке в конце вывода ядра, как раз перед тем, как я ожидал, что экран очистится и появится приглашение для входа в систему. Там не было никаких явных ошибок в конце вывода ядра, которое я видел. (Появилось сообщение о том, что "не используется термодатчик процессора, который ненадежен", но, по-видимому, он существует независимо от того, загружается он или нет)

Я дал ему добрых 5 минут, а затем принудительно перезагрузился. К моему удивлению, оно загрузилось до приглашения входа в систему примерно через 1-2 секунды после публикации BIOS. Я снова перезагрузился, и он, казалось, остановился на несколько дополнительных секунд, где он висел раньше, но перешел к экрану входа в систему. Перезагрузка снова была быстрой снова. Поэтому в этот момент я подумал, что это всего лишь один из тех случайных одноразовых глюков, которые я никогда не объясню, поэтому я пошел дальше.

Я установил несколько пакетов (точно такие же пакеты, установленные в той же версии ОС на другом оборудовании), произвел обновление и dist-upgrade, а затем перезагрузился. Казалось, что он снова завис, поэтому я поехал в центр обработки данных и подключил консоль только для того, чтобы получить пустой экран. Принудительная перезагрузка снова. (также настройте ipmi для удаленной перезагрузки и избавьтесь от ошибки записи grub, чтобы я не ждал нажатия Enter!)

Это было очень поздно прошлой ночью. Я пришел домой, сделал несколько перезагрузок без проблем, поэтому лег спать. Сегодня я снова сделал перезагрузку, чтобы проверить это, и снова он где-то рухнул. Я удаленно перезагрузил его.

В этот момент я начал копать еще немного и сразу заметил что-то действительно странное.

top - 14:18:35 up 8 min,  1 user,  load average: 1.00, 0.85, 0.45
Tasks: 148 total,   1 running, 147 sleeping,   0 stopped,   0 zombie
%Cpu(s):  0.1 us,  0.3 sy,  0.0 ni, 99.6 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem:  33013620 total,   338928 used, 32674692 free,     9740 buffers
KiB Swap:  3906556 total,        0 used,  3906556 free.    47780 cached Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
    1 root      20   0   33508   2772   1404 S   0.0  0.0   0:03.82 init
    2 root      20   0       0      0      0 S   0.0  0.0   0:00.00 kthreadd
    3 root      20   0       0      0      0 S   0.0  0.0   0:00.00 ksoftirqd/0
    5 root       0 -20       0      0      0 S   0.0  0.0   0:00.00 kworker/0:0H
    6 root      20   0       0      0      0 S   0.0  0.0   0:00.00 kworker/u16:0
    8 root      20   0       0      0      0 S   0.0  0.0   0:00.24 rcu_sched
    9 root      20   0       0      0      0 S   0.0  0.0   0:00.02 rcuos/0
   10 root      20   0       0      0      0 S   0.0  0.0   0:00.00 rcuos/1
   11 root      20   0       0      0      0 S   0.0  0.0   0:00.00 rcuos/2

Этот сервер полностью не используется и бездействует, но его загрузка в среднем за 1 минуту составляет ровно 1,00? Когда я наблюдаю за другими значениями - 5-минутная и 15-минутная также, кажется, движутся к 1,00, поэтому я предполагаю, что в какой-то момент все они достигнут 1,00. ("1 Бег" - лучший процесс)

У меня никогда не было этого раньше, и, поскольку я понятия не имею, что является причиной сбоя стартапа, я предполагаю, что оба они, вероятно, связаны.

То, что я хотел бы сделать, это определить (и, надеюсь, устранить), что вызывает это среднее значение ложной нагрузки и мою проблему сбоя.

До сих пор я не смог определить, какой процесс может ожидать какой-то ресурс для генерации этого среднего значения нагрузки.

Я был бы очень признателен, если бы кто-нибудь помог мне попытаться отследить это.

top показывает все процессы, почти всегда спящие. Некоторые из них иногда появляются, но я думаю, что это нормально. Загрузка ЦП в основном показывает 100% IDLE, с очень редкими провалами до 99% или около того.

Nmon не показывает мне много. все выглядит без дела.

iotop показывает практически отсутствие трафика. (опять же, очень редкие места доступа к диску)

частота прерываний кажется низкой. намного ниже 100/ сек от того, что я вижу.

Я видел многочисленные обсуждения Google, предлагающие это:

echo 100 > /sys/module/ipmi_si/parameters/kipmid_max_busy_us

..нет эффекта.

Оперативная память на сервере - это ECC и тесты пройдены.

Установка сервера была "минимальной" (опция F4), а сервер OpenSSH отмечен во время установки. Позже установил несколько пакетов, включая vim, bcache-tools, bridge-utils, qemu, общие свойства программного обеспечения, open-iscsi, qemu-kvm, cpu-checker, socat, ntp и nodejs. (Думаю, что об этом)

Я попытался отключить и удалить модуль ядра bcache. нет эффекта. остановил службу iscsi.. безрезультатно. (хотя на этом сервере еще ничего не настроено)

Я оставлю это там, прежде чем это станет безумно долго. Если бы кто-нибудь мог помочь мне попытаться понять это, я был бы очень признателен.

Ура,

Джеймс

1 ответ

Точно такая же проблема здесь. Свежая установка, без программного обеспечения, приложения, установка веб-сайта... без использования сети... нет ничего. Совершенно новая установленная коробка, с большим количеством оперативной памяти и процессора... загрузить avg на 1... но бездействия.

root@web2:~# uname -a
Linux web2.ma-reduc.com 3.13.0-68-generic #111-Ubuntu SMP Fri Nov 6 18:17:06 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux
Другие вопросы по тегам