Не удалось запустить демон узла Slurm
Я хочу установить slurm, чтобы правильно управлять своим DIY-кластером. Я хочу использовать кластер (HPC) для параллельного моделирования. У меня есть 3 узла (1 главный 2 подчиненных)Ubuntu Server 20.04
Я следовал инструкциям с nekodaemon.com (сейчас я не могу получить доступ к веб-сайту) в главе «Быстрая установка Slurm для кластера в Ubuntu 20.04», но я удалил последнюю строку, которую они говорят добавить на вычислительном узле.
CgroupMountpoint=/sys/fs/cgroup
потому что выдавало ошибку при запуске старта
Process: 46877 ExecStart=/usr/sbin/slurmd $SLURMD_OPTIONS (code=exited, status=1/FAILURE)
May 02 10:15:54 ben1 systemd[1]: Starting Slurm node daemon...
May 02 10:15:54 ben1 slurmd[46877]: error: _parse_next_key: Parsing error at unrecognized key: CgroupMountpoint
May 02 10:15:54 ben1 slurmd[46877]: error: Parse error in file /etc/slurm-llnl/slurm.conf line 149: "CgroupMountpoint=/sys/fs/cgroup"
May 02 10:15:54 ben1 slurmd[46877]: fatal: Unable to process configuration file
May 02 10:15:54 ben1 systemd[1]: slurmd.service: Control process exited, code=exited, status=1/FAILURE
May 02 10:15:54 ben1 systemd[1]: slurmd.service: Failed with result 'exit-code'.
May 02 10:15:54 ben1 systemd[1]: Failed to start Slurm node daemon.
После этого я смог запустить мандж и слёрм на главном узле, но на вычислительном узле:
Я бегу:
sudo systemctl start slurmd
Я получил:
Job for slurmd.service failed because the control process exited with error code.
See "systemctl status slurmd.service" and "journalctl -xe" for details.
Затем я бегуjournalctl -xe
и я получаю:
The job identifier is 22481 and the job result is failed.
May 02 10:48:48 ben1 sudo[47959]: pam_unix(sudo:session): session closed for user root
May 02 10:49:04 ben1 multipath[47985]: sdc: can't store path info
May 02 10:49:04 ben1 multipathd[771]: sdc: spurious uevent, path not found
May 02 10:49:04 ben1 multipathd[771]: uevent trigger error
May 02 10:49:05 ben1 multipath[47992]: sdc: can't store path info
May 02 10:49:06 ben1 multipathd[771]: sdc: spurious uevent, path not found
May 02 10:49:06 ben1 multipathd[771]: uevent trigger error