Some GPU cluster VMs crashed

Resolved

Partial outage

Started over 2 years ago15 December, 2023Lasted about 1 hour15 December, 202302:1703:16UTC

Affected

Virtual Machine Hosting

GPUs

Updates

Resolved
15 December, 2023 at 03:16UTC
Resolved
15 December, 2023 at 03:16UTC
This incident has been resolved.
Identified
15 December, 2023 at 02:17UTC
Identified
15 December, 2023 at 02:17UTC
Due to a problem during network maintenance, VMs on the departmental GPU cluster briefly lost access to their disks. This caused some VMs to crash. Affected VMs will be rebooted (if CPU VMs) or shut down (if GPU VMs); the latter can be started again from XO.

University of Cambridge Computer Laboratory - Some GPU cluster VMs crashed – Incident details