amdgpu-pro *ERROR* Ring Ошибка тайм-аута sdma0 на сервере Ubuntu 20.04.1 с установленным стеком HWE
Я использую сервер Ubuntu 20.04.1. (ядро: 5.8.0-34-generic x86_64) с amdgpu-pro для моей установки для майнинга. Через 24-48 часов я получаю следующее сообщение об ошибке, и машина полностью зависает:
[53990.091296] [drm:amdgpu_job_timeout [amdgpu]] *ERROR* ring sdma0 timeout, signaled seq=425102, emitted seq=425103
[53990.098608] [drm:amdgpu_job_timeout [amdgpu]] *ERROR* Process information: process ethminer pid 1106 thread ethminer 1106
[54016.509585] Kernel panic - not syncing: Timeout: Not all CPUs entered broadcast exception handler
[54017.564573] Shutting down cpus with NMI
[54017.580849] Kernel Offset: 0x3000000 from 0xffffffff81000000 (relocation range: 0xffffffff80000000-0xffffffffbfffffff
[54017.585947] Rebooting in 30 seconds..
[54047.310232] ACPI MEMORY or I/O RESET_REG.
После этого требуется хард ресет.
Я установил только amdgpu-pro (20.45-1188099-ubunut-20.04) с
./amdgpu-pro-install --opencl=pal,legacy --headless
и стек HWE.
Поскольку я новичок в Ubuntu (и Linux в целом), я понятия не имею, что вызывает ошибку. Может ли это быть признаком неисправного/старого оборудования? Видеокарты работают уже более 2-х лет (но раньше использовались другие ОС).
Любая помощь или подсказка высоко ценятся. Если нужна дополнительная информация, я с радостью ее предоставлю.
Спасибо