未解决
1 Rookie
•
2 消息
0
26
A6000 GPU在R750xa服务器上运行温度过高问题
我司最近购买了r750xa服务器,并安装了a6000*4用以简单的ai训练
机房温度为恒定20°-24°范围
但是当我再满载测试的时候,发现A6000温度会逐步上升直至超过温度墙的限制并且降频!!!这是异常的!A6000一开始可以在满载接近300w的功耗下运行,但是很快,温度超过90°开始降频,直至功耗在150w左右,温度维持在99°(A6000 TDP为300w)
此时我观察系统风扇转速仅为27%(GPU风扇已经满载100%)
我系统中配置的策略是最大性能
是否dell系统并不将gpu的温度纳入计算范围内?仅通过cpu/主板温度来调整机器内部风扇转速?
请告知解决方案。
Ps:
我尝试使用ipmitool手动控制风扇转速,
ipmitool raw 0x30 0x30 0x02 0xff 0x1e
但是提示:Unable to send RAW command (channel=0x0 netfn=0x30 lun=0x0 cmd=0x30 rsp=0xd4): Insufficient privilege level
我也查询了具体的设备信息,貌似系统并未是能gpu温度对系统的反馈?
DELL-Leo
Community Manager
Community Manager
•
7.3K 消息
0
2024年8月27日 03:36
您好!
查了下,A6000 GPU在R750xa上没有使用记录,应该是不兼容,所以导致无法估量其温度及对应的风扇转速。您试试看换一个兼容的GPU在R750xa上跑,看看还会不会出现相同的问题。比如,NVIDIA A100,A10,T4等都在R750xa上有过使用记录。
isZhou
1 Rookie
1 Rookie
•
2 消息
0
2024年8月28日 01:29
@DELL-Leo 问题是我们已经采购了A6000的GPU,我希望使用A6000而不是更换A100之类的卡
DELL-Leo
Community Manager
Community Manager
•
7.3K 消息
0
2024年8月28日 03:11
您好!
A6000可能与R750XA就不兼容,所以导致这些问题。您可以试试看更新一下idrac和BIOS固件,其它没什么办法。