CNT-Jupiter-S

CNT-Jupiter-S SDN网络控制器
产品特性
产品概述
AI网络管理平台是云融基于端网联动架构和RDMA网络技术、研发的新一代高性能、低延迟、零丢包的无损网络,采用先进的软硬件体系架构,搭载最新的模块化系统,提供便捷的操作和使用体验。开放式网络操作系统支持传统2-3 层模式的网络协议,集成最新的 OpenFlow v1.5/Open vSwitch(OVS) v2.3.0技术,对外提供 OpenFlow 和 OVSDB 接口,全面支持IPv4、IPv6双栈,可以快速、可靠连接各类计算资源,充分胜任各行业、多场景、大规模组网环境下的需求。
系统架构图
南向协议与设备管理
采用OpenFlow协议为核心,兼容HTTP、SSH、Netconf等传统配置协议,构建多协议融合控制平面。通过南向接口动态适配:
AI网络业务编排器:实现安全资源池化,和业务安全路径的灵活编排;
SDN交换机:基于OpenFlow实现流表编程与VxLAN隧道构建;
AI边缘算力网关:通过国密加密隧道实现资源的共享;
安全容器平台:通过RESTful API管理原生/第三方虚拟安全组件(如vFW、vIDS)。
北向开放接口与集成能力
北
北向提供RESTful/HTTP API等标准化接口,供第三方系统调用资源数据、开放WebSocket实时事件推送通道;可以与算力调度平台、运营中心平台无缝对接,实现网络-算力-安全的统一管控界面支持与主流云管平台(OpenStack、Kubernetes)深度集成。
核心功能模块
超大规模组网
云融零缓存网络,通过自研的网络管理平台对AI网络进行统一的配置管理、流表下发与故障定位,大规模组网时,设备表项线性增长,网络故障或设备新增时网络可快速收敛,支持三维Fat tree大规模组网Fabric。
基于RDMA的算法优化
针对目前高性能算力网络高度依赖于无损以太网,而无损以太网中出现丢包会造成网络吞吐率严重降低、PFC的暂停帧会造成死锁、路由协议对多路径负载均衡支持较弱等问题。国内龙头互联网公司目前依然选择从工程和运维经验解决,人工配置反压水线等参数,维持网络无损转发性能。但是手动经验配置只能试用特定场景,且无法规模复制和商用推广。
如果要用以太网实现无损网络并大规模商用,必须将人工经验由算法建模替代,而算法需要大量科研人员和大量时间进行仿真和试错,而国内企业内聚集工程人才,缺少科研人才,预研和首创是个短板。云融无损以太网算法建模和协议优化研发,可以大幅度地降低高负荷下的数据流量转发时间。
流量路径规划
支持基于端网联动和算法优化的拥塞控制机制,支持以可视化界面完成路径规划和端网协同功能的配置与启用。
GPU健康检测
实时监测所有并网GPU卡和GPU服务器的健康状态和连接状态,包括与上行交换机之间的链路质量进行监测,确保GPU服务器始终处于最佳运行状态。
服务质量保障
依据用户指定的紧急程度与重要性程度,为不同业务自动配置精准的服务策略。支持指定关键任务获得高优先级的带宽与资源,满足用户对不同业务的差异化服务质量需求。
网络设备状态巡检
实时性能数据监测功能:呈现网络设备的CPU使用率、内存占用率、磁盘空间等关键指标。
Top N报表功能:列出性能指标最高的N个设备或接口流量报表。
流量数据记录与分析功能:详细记录流量来源、去向、峰值时段等信息。
定期汇总功能:整合网络设备性能数据、光衰和事件记录,全面呈现网络设备的运行概况。
错误检测自动诊断
确保网络中每个设备的全局唯一标识符(GUID)无冲突,支持对网络硬件设施与连接线路进行全面检查,支持审查网络路由表与路径,支持核实网络设备上运行的软件版本,确保系统版本一致性。分析并解决硬件或软件相关的错误、故障与警告,为网络的持续稳定运行提供技术保障。
网络设备兼容适配
支持对第三方网络设备兼容,实现配置统一下发,网络设备统一管理和运维,并完成异构组网。
网络参数自动调优
通过连接测试、数据传输速度测试等一系列性能测试手段,全面评估设备在网络中的运行状态,对网络设备参数进行自动下发和调优,确保智算网络稳定、高效地运行。
故障感知与自动恢复
大模型的训练任务以周/月为周期,千卡甚至万卡同时持续长时间工作。这导致在整个任务过程中会发生各种故障(无故障运行时间大约为120小时)。大模型训练任务,需要关注系统的运维能力和稳定性,以减少训练中断时间和总体成本。基于云融SDN网络感知与分析平台可以有效提高系统的运维能力和稳定性:
l可观测性:训练过程中会出现任务正常运行,但集群的端到端性能下降的情况。可能是集群中某一组件导致,存储系统、RDMA 网络、GPU 卡、聚合通信等都应配备实时可观测性平台,在不中断任务运行的情况下及时判断异常。
l故障诊断能力:配备可观测大盘,实时监控集群组件,输出各个 rank 的集合通信状态和节点状态,快速识别瓶颈点。
l网络容错增强:物理光电端口偶发性故障是不可避免的,针对常见的偶发性故障增加重试机制,确保训练任务运行不中断。
服务链(SFC)基于服务路径的灵活编排算力业务
基于控制面与数据面解耦架构,实现算力服务路径的动态编排与安全策略按需加载,通过流量分类、路径策略化调度及安全组件链式处理,构建“一业务一链”的确定性服务保障体系。
业务敏捷,服务链分钟级编排,业务迭代效率提升,安全资源组件按需加载,资源利用率提升至,统一控制面管理,节省运维人力。
统一可视化运维
作为AI网络的中枢管理系统,实现全域设备统一纳管、业务智能编排与实时可视化监控,覆盖AI网络业务编排器、资源池组件、算力接入服务端及客户端等核心节点,构建端到端智能化运维体系。
提高运维效率,单界面全景可视,故障定位效率提升,新业务上线策略一键下发,业务部署周期缩短至分钟级,统一安全策略引擎,威胁处置效率提升。
超级网络功能支持多种Fabric异构组网
多个交换网络之间想要构建更大的三层互通,就需要在平台上多个交换网络之间进行配置连接IP,配置路由等复杂的配置操作。为了简单这些复杂的配置操作和增强功能,超级网络应运而生。
典型的超级网络(简单模式)组网如上图所示。超级网络就是在交换网络的基础上发展起来的,目的是简化交换网络之间相互连接的配置。主要有如下功能:
网络连接自动发现:可自动发现超级网络内的不同交换网络间的连接,方便添加交换网络间的连接。
三层互通:将多个交换网络添加到超级网络并配置网络连接后,不需要针对连接的交换网络手动配置任何路由,即可实现超级网络内的所有交换网络三层(VLAN接口)地址互通。
指定二层互通:配置超级 VLAN后可实现指定的VLAN二层互通。
路由统一查看和配置:查看:统一查看超级网络内的所有交换网络的路由。配置:在超级网络中配置静态路由后,会自动选择配置到相应的交换网络中。
产品规格
产品名称 | CNT-Jupiter-S 网络控制器平台 |
基础特性 | |
设备规格 | 2U 标准上架机箱 |
网卡 | 2 个 10/100/1000M 自适应网口 |
扩展槽 | 3* PCI-E 3.0 x8、1* PCI-E 3.0 x16、1* PCI-E 3.0 x4 (in x8)、1* PCI-E 2.0 x4 (in x8) |
外设接口 | 1*串口、1*VGA 接口、2*USB3.0+2*USB2.0
2*RJ45 网络接口、1*专用远程管理口 |
软件特性 | |
跨设备 | 支持 |
健康检测 | 支持 |
服务主备 | 支持 |
负载均衡 | 支持 |
流量监控 | 支持任意端口流量监控 |
报文统计 | 支持基于接口的保文统计 |
重要参数 | |
支持 openflow 版本 | v1.0~1.5 |
负载均衡组数量 | 取决于设备支持的流表数量 |
负载均衡组内实例数量 | 取决于设备支持的流表数量 |
集群 | 支持 |
环境特性 | |
重量 | <8.5kg |
尺寸 | 480 x 300 x 89mm (长 x 宽 x 高) |
电源 | 双电源 |
热插拔冗余电源 | 支持 |
功率 | 典型值 500W |
输入电源/频率 | 100 - 240 VAC/ 50 - 60 Hz |
工作温度 | 工作环境: 0℃~60℃;10%~80%(非凝结状态)
存储环境: -20℃~70℃;5%~90%(非凝结状态) |