服务器分享 -

实测 32GB 显存被榨干：我在运维 RTX 5090 服务器时遇到的那些“坑”

by Newt
2026年4月20日2026年4月20日

大家好，我是 Newt。我目前在鹄望云负责后端服务器的运维和技术支持。每天的工作基本就是在和各种报错日志、硬件故障“死磕”。就在今天（4月20日），后台报警显示一台宿主机下的 RTX 5090 VPS 突然掉线。当我登进VNC控制台一看，好家伙，满屏幕的 nvidia-modeset: ERROR: GPU:0。这通常意味着显卡已经因为某种极端原因“罢工”挂起了。作为一名天天和硬件打交道的运维，我意识到这不仅仅是一个简单的死机。今天，我就想结合这次实战，和大家聊聊在 5090 上跑 ComfyUI 多模态流时，那些你不曾注意到的“底层硬件”。一、案发现场：26GB+ 显存的“极限挑战” 我迅速查看了该 VPS 掉线前的进程状态。通过 ps aux 的快照可以看到，用户正在运行一个 python main.py 的进程，其虚拟内存申请竟然达到了恐怖的 940GB。进一步通过 lsof 探针分析，我锁定了罪魁祸首——该用户在 ComfyUI 环境下，同时加载了两个重量级模型： Qwen2-VL 多模态大模型…