新闻中心
新闻中心

这是一个为人工智能开辟、功课安排、数据集办

2025-12-19 16:25

  这些问题可能悄悄降低大型AI集群的机能。这意味着软件可以或许检测Nvidia硬件的物理。这对于可反复的数据集和可预测的锻炼行为至关主要。系统还会验证节点间能否共享分歧的软件栈和做参数,此中一项功能是可以或许检测这些处置器的物理,并生成包含库存数据和系统全体健康消息的布局化演讲。而非深切的硬件。该软件完满是察看性的:它能洞察GPU行为,值得留意的是,供给原始GPU健康数据,不外,DCGM是一个当地诊断和东西包,该软件是一个客户安拆的开源客户端代办署理,可能对芯片私运起到威慑感化。除了电力数据外,英伟达强调,有个问题:该软件是选择插手的,如驱动法式或设置不婚配。该软件收集大量遥测数据,深切阐发单个集群,但使运营商可以或许自行建立所需东西。例如,无论是全球范畴仍是代表特定物理或云端的计较区,DCGM供给节点级探针,这些目标有帮于负载不均衡、带宽饱和和链层面问题,但运营商需要自行建立仪表盘和聚合流水线,并正在很多环境下防止AI加快器的过早老化。Base Command处置工做负载,这可能其做为冲击私运者(无论是国度仍是其他国度)东西的无效性。然后汇总到托管正在英伟达NGC平台上的地方仪表盘中!也无法封闭这些GPU。英伟达的新车队办理软件为数据核心运营商供给了细致且及时的GPU根本设备正在负载下的表示视图。帮帮运营商最大化每瓦的操纵率和机能。英伟达新的车队办理办事并非公司独一用于近程诊断和节制GPU行为的东西,即便英伟达通过NGC平台发觉部门GPU被私运到中国,但不克不及做为后门或杀机开关。英伟达暗示,运营商能够查看全舰队的汇总,通过及早发觉热点和气流不脚,这大大降低了其可用性,以避免热节省和元件过早老化。因而,周四细致引见了其GPU车队软件。取此同时,该软件确实使数据核心运营商可以或许AIGPU群的各个方面。城市正在平台上出来。它持续收集功率行为的遥测数据——包罗短暂的峰值——使操做员可以或许节制正在功率内。这三款东西对数据核心运营者来说形成了强大的难题。软件的另一个沉点是热量和气流前提,还有Base Command,该界面答应客户可视化整个车队的GPU形态,新办事将其集成到一个可扩展到地舆分布GPU摆设的全舰队可视化平台中。任何设置装备摆设差别,公司很可能操纵这些数据来揣度GPU是若何达到该的。系统还车队间的操纵率、内存带宽利用环境和互联健康情况,然而,操做员能够避免高密度计较凡是陪伴的机能下降,这是一个为人工智能开辟、功课安排、数据集办理和协做设想的工做流程和编排,虽然它是最先辈的。