Не удалось запустить демон узла Slurm

Я хочу установить slurm, чтобы правильно управлять своим DIY-кластером. Я хочу использовать кластер (HPC) для параллельного моделирования. У меня есть 3 узла (1 главный 2 подчиненных)Ubuntu Server 20.04

Я следовал инструкциям с nekodaemon.com (сейчас я не могу получить доступ к веб-сайту) в главе «Быстрая установка Slurm для кластера в Ubuntu 20.04», но я удалил последнюю строку, которую они говорят добавить на вычислительном узле.

CgroupMountpoint=/sys/fs/cgroupпотому что выдавало ошибку при запуске старта

      Process: 46877 ExecStart=/usr/sbin/slurmd $SLURMD_OPTIONS (code=exited, status=1/FAILURE)

May 02 10:15:54 ben1 systemd[1]: Starting Slurm node daemon...
May 02 10:15:54 ben1 slurmd[46877]: error: _parse_next_key: Parsing error at unrecognized key: CgroupMountpoint
May 02 10:15:54 ben1 slurmd[46877]: error: Parse error in file /etc/slurm-llnl/slurm.conf line 149: "CgroupMountpoint=/sys/fs/cgroup"
May 02 10:15:54 ben1 slurmd[46877]: fatal: Unable to process configuration file
May 02 10:15:54 ben1 systemd[1]: slurmd.service: Control process exited, code=exited, status=1/FAILURE
May 02 10:15:54 ben1 systemd[1]: slurmd.service: Failed with result 'exit-code'.
May 02 10:15:54 ben1 systemd[1]: Failed to start Slurm node daemon.

После этого я смог запустить мандж и слёрм на главном узле, но на вычислительном узле:

Я бегу:

      sudo systemctl start slurmd 

Я получил:

      Job for slurmd.service failed because the control process exited with error code.
See "systemctl status slurmd.service" and "journalctl -xe" for details.

Затем я бегуjournalctl -xeи я получаю:

      The job identifier is 22481 and the job result is failed.
May 02 10:48:48 ben1 sudo[47959]: pam_unix(sudo:session): session closed for user root
May 02 10:49:04 ben1 multipath[47985]: sdc: can't store path info
May 02 10:49:04 ben1 multipathd[771]: sdc: spurious uevent, path not found
May 02 10:49:04 ben1 multipathd[771]: uevent trigger error
May 02 10:49:05 ben1 multipath[47992]: sdc: can't store path info
May 02 10:49:06 ben1 multipathd[771]: sdc: spurious uevent, path not found
May 02 10:49:06 ben1 multipathd[771]: uevent trigger error

0 ответов

Другие вопросы по тегам