CNT-Jupiter-S

CNT-Jupiter-S SDN网络控制器

产品特性

产品概述

AI网络管理平台是云融基于端网联动架构和RDMA网络技术、研发的新一代高性能、低延迟、零丢包的无损网络，采用先进的软硬件体系架构，搭载最新的模块化系统，提供便捷的操作和使用体验。开放式网络操作系统支持传统2-3 层模式的网络协议，集成最新的 OpenFlow v1.5/Open vSwitch(OVS) v2.3.0技术，对外提供 OpenFlow 和 OVSDB 接口，全面支持IPv4、IPv6双栈，可以快速、可靠连接各类计算资源，充分胜任各行业、多场景、大规模组网环境下的需求。

系统架构图

图片1.png

南向协议与设备管理

采用OpenFlow协议为核心，兼容HTTP、SSH、Netconf等传统配置协议，构建多协议融合控制平面。通过南向接口动态适配：

AI网络业务编排器：实现安全资源池化，和业务安全路径的灵活编排；

SDN交换机：基于OpenFlow实现流表编程与VxLAN隧道构建；

AI边缘算力网关：通过国密加密隧道实现资源的共享；

安全容器平台：通过RESTful API管理原生/第三方虚拟安全组件（如vFW、vIDS）。

北向开放接口与集成能力

北

北向提供RESTful/HTTP API等标准化接口，供第三方系统调用资源数据、开放WebSocket实时事件推送通道；可以与算力调度平台、运营中心平台无缝对接，实现网络-算力-安全的统一管控界面支持与主流云管平台（OpenStack、Kubernetes）深度集成。

核心功能模块

超大规模组网

云融零缓存网络，通过自研的网络管理平台对AI网络进行统一的配置管理、流表下发与故障定位，大规模组网时，设备表项线性增长，网络故障或设备新增时网络可快速收敛，支持三维Fat tree大规模组网Fabric。

基于RDMA的算法优化

针对目前高性能算力网络高度依赖于无损以太网，而无损以太网中出现丢包会造成网络吞吐率严重降低、PFC的暂停帧会造成死锁、路由协议对多路径负载均衡支持较弱等问题。国内龙头互联网公司目前依然选择从工程和运维经验解决，人工配置反压水线等参数，维持网络无损转发性能。但是手动经验配置只能试用特定场景，且无法规模复制和商用推广。

如果要用以太网实现无损网络并大规模商用，必须将人工经验由算法建模替代，而算法需要大量科研人员和大量时间进行仿真和试错，而国内企业内聚集工程人才，缺少科研人才，预研和首创是个短板。云融无损以太网算法建模和协议优化研发，可以大幅度地降低高负荷下的数据流量转发时间。

流量路径规划

支持基于端网联动和算法优化的拥塞控制机制，支持以可视化界面完成路径规划和端网协同功能的配置与启用。

GPU健康检测

实时监测所有并网GPU卡和GPU服务器的健康状态和连接状态，包括与上行交换机之间的链路质量进行监测，确保GPU服务器始终处于最佳运行状态。

服务质量保障

依据用户指定的紧急程度与重要性程度，为不同业务自动配置精准的服务策略。支持指定关键任务获得高优先级的带宽与资源，满足用户对不同业务的差异化服务质量需求。

网络设备状态巡检

实时性能数据监测功能：呈现网络设备的CPU使用率、内存占用率、磁盘空间等关键指标。

Top N报表功能：列出性能指标最高的N个设备或接口流量报表。

流量数据记录与分析功能：详细记录流量来源、去向、峰值时段等信息。

定期汇总功能：整合网络设备性能数据、光衰和事件记录，全面呈现网络设备的运行概况。

错误检测自动诊断

确保网络中每个设备的全局唯一标识符（GUID）无冲突，支持对网络硬件设施与连接线路进行全面检查，支持审查网络路由表与路径，支持核实网络设备上运行的软件版本，确保系统版本一致性。分析并解决硬件或软件相关的错误、故障与警告，为网络的持续稳定运行提供技术保障。

网络设备兼容适配

支持对第三方网络设备兼容，实现配置统一下发，网络设备统一管理和运维，并完成异构组网。

网络参数自动调优

通过连接测试、数据传输速度测试等一系列性能测试手段，全面评估设备在网络中的运行状态，对网络设备参数进行自动下发和调优，确保智算网络稳定、高效地运行。

故障感知与自动恢复

大模型的训练任务以周/月为周期，千卡甚至万卡同时持续长时间工作。这导致在整个任务过程中会发生各种故障（无故障运行时间大约为120小时）。大模型训练任务，需要关注系统的运维能力和稳定性，以减少训练中断时间和总体成本。基于云融SDN网络感知与分析平台可以有效提高系统的运维能力和稳定性：

l可观测性：训练过程中会出现任务正常运行，但集群的端到端性能下降的情况。可能是集群中某一组件导致，存储系统、RDMA 网络、GPU 卡、聚合通信等都应配备实时可观测性平台，在不中断任务运行的情况下及时判断异常。

l故障诊断能力：配备可观测大盘，实时监控集群组件，输出各个 rank 的集合通信状态和节点状态，快速识别瓶颈点。

l网络容错增强：物理光电端口偶发性故障是不可避免的，针对常见的偶发性故障增加重试机制，确保训练任务运行不中断。

服务链(SFC)基于服务路径的灵活编排算力业务

基于控制面与数据面解耦架构，实现算力服务路径的动态编排与安全策略按需加载，通过流量分类、路径策略化调度及安全组件链式处理，构建“一业务一链”的确定性服务保障体系。

图片2.png

图片3.png

业务敏捷，服务链分钟级编排，业务迭代效率提升，安全资源组件按需加载，资源利用率提升至，统一控制面管理，节省运维人力。

统一可视化运维

作为AI网络的中枢管理系统，实现全域设备统一纳管、业务智能编排与实时可视化监控，覆盖AI网络业务编排器、资源池组件、算力接入服务端及客户端等核心节点，构建端到端智能化运维体系。

图片4.png

提高运维效率，单界面全景可视，故障定位效率提升，新业务上线策略一键下发，业务部署周期缩短至分钟级，统一安全策略引擎，威胁处置效率提升。

超级网络功能支持多种Fabric异构组网

多个交换网络之间想要构建更大的三层互通，就需要在平台上多个交换网络之间进行配置连接IP，配置路由等复杂的配置操作。为了简单这些复杂的配置操作和增强功能，超级网络应运而生。

图片5.png

典型的超级网络（简单模式）组网如上图所示。超级网络就是在交换网络的基础上发展起来的，目的是简化交换网络之间相互连接的配置。主要有如下功能：

网络连接自动发现：可自动发现超级网络内的不同交换网络间的连接，方便添加交换网络间的连接。

三层互通：将多个交换网络添加到超级网络并配置网络连接后，不需要针对连接的交换网络手动配置任何路由，即可实现超级网络内的所有交换网络三层（VLAN接口）地址互通。

指定二层互通：配置超级 VLAN后可实现指定的VLAN二层互通。

路由统一查看和配置：查看：统一查看超级网络内的所有交换网络的路由。配置：在超级网络中配置静态路由后，会自动选择配置到相应的交换网络中。

产品规格

产品名称	CNT-Jupiter-S 网络控制器平台
基础特性
设备规格	2U 标准上架机箱
网卡	2 个 10/100/1000M 自适应网口
扩展槽	3* PCI-E 3.0 x8、1* PCI-E 3.0 x16、1* PCI-E 3.0 x4 (in x8)、1* PCI-E 2.0 x4 (in x8)
外设接口	1串口、1VGA 接口、2USB3.0+2USB2.0 2RJ45 网络接口、1专用远程管理口
软件特性
跨设备	支持
健康检测	支持
服务主备	支持
负载均衡	支持
流量监控	支持任意端口流量监控
报文统计	支持基于接口的保文统计
重要参数
支持 openflow 版本	v1.0~1.5
负载均衡组数量	取决于设备支持的流表数量
负载均衡组内实例数量	取决于设备支持的流表数量
集群	支持
环境特性
重量	<8.5kg
尺寸	480 x 300 x 89mm （长 x 宽 x 高）
电源	双电源
热插拔冗余电源	支持
功率	典型值 500W
输入电源/频率	100 - 240 VAC/ 50 - 60 Hz
工作温度	工作环境: 0℃～60℃；10%～80%（非凝结状态）存储环境: -20℃～70℃；5%～90%（非凝结状态）

彩页下载

CNT-Jupiter-S