实测 32GB 显存被榨干:我在运维 RTX 5090 服务器时遇到的那些“坑”
大家好,我是 Newt。我目前在鹄望云负责后端服务器的运维和技术支持。每天的工作基本就是在和各种报错日志、硬件故障“死磕”。 就在今天(4月20日),后台报警显示一台宿主机下的 RTX 5090 VPS 突然掉线。当我登进VNC控制台一看,好家伙,满屏幕的 nvidia-modeset: ERROR: GPU:0。这通常意味着显卡已经因为某种极端原因“罢工”挂起了。 作为一名天天和硬件打交道的运维,我意识到这不仅仅是一个简单的死机。今天,我就想结合这次实战,和大家聊聊在 5090 上跑 ComfyUI 多模态流时,那些你不曾注意到的“底层硬件”。 一、 案发现场:26GB+ 显存的“极限挑战” 我迅速查看了该 VPS 掉线前的进程状态。通过 ps aux 的快照可以看到,用户正在运行一个 python main.py 的进程,其虚拟内存申请竟然达到了恐怖的 940GB。 进一步通过 lsof 探针分析,我锁定了罪魁祸首——该用户在 ComfyUI 环境下,同时加载了两个重量级模型: Qwen2-VL 多模态大模型…