云融智算魔方产品矩阵

产品特性

产品概述

云融智算魔方产品，采用多种模型优化技术，大幅降低模型大小适配多种异构GPU卡，构建了从数据中心、工作站到办公终端的全系列智算魔方产品矩阵，具备高性价比优势；集合硬软模一键部署的便捷优势，广泛适用于生成式大模型推理场景。在同等推理效率场景下，成本降低10%以上，便于AI赋能各行各业。

该产品选用原生态组件，依托从底层算力、资源调度、AI框架、镜像管理到模型部署的全栈AI能力，为企业高效构建智能化能力提供有力支持，可以在多个垂直行业领域发挥智能辅助效果：

l在金融风控领域，可实时处理合同文档审计，仅需数分钟即可完成合同审计，生成精准风险评估报告；

l在智能客服方面，能承载百人并发对话，实现录音、文字、关键信息摘要的同步记录；

l在科研教育方面，帮助科研工作者完成海量论文的快速学习，并全面且准确的基于材料回答用户问题，帮助用户快速理解材料；

l在内容生成领域，支持长篇小说、代码项目级别的创作，助力创作效率提升10倍。

产品规格

云融基于新型GPU 高显存、UMA等技术特点，面向不同的业务场景进行模型优化，整合大模型硬件与软件框架，构建高性价比智算魔方产品矩阵，在不同场景下提供对应的解决方案。

产品型号	核心技术	模型规格	精度	适用场景
擎天魔方	高显存，海量记忆能力	671B满血版本	FP8	适合百人团队场景：支持几十人并发的文案写作、合同审计、票据审计、智能客服等场景
炫彩魔方	异构计算，充分利用GPU与CPU的算力	671B满血版本	FP8	适合2-3小团队场景：支持单人并发的文案写作、代码生成等场景
睿捷魔方	动态优化	671B动优版本	FP8~1.75bit动态	适合小企业场景：支持知识库、代码生成、智能客服等场景
先锋魔方	UMA共享内存，高效数据搬移	32B蒸馏版本	FP16	适合单用户场景：支持知识库、代码生成等场景

产品特点

异构计算

图片7.png

CPU与GPU异构计算，CPU和GPU各自承担部分计算，利用DeepSeek模型的混合专家（MoE）架构的稀疏性，将非共享稀疏矩阵卸载至CPU内存处理，同时将稠密部分保留在GPU上，在系统内存和GPU显存各自存放部分模型，利用流水线并行及通信技术，充分利用异构算力，显著降低了显存需求，大幅降低部署成本。

动态优化

动态优化是一种模型优化技术，与静态量化不同，在保证精度损失较小的情况下对模型进行分层优化压缩，适合对精度要求较高且输入数据分布差异较大的场景，能更好地保留模型原始精度。采用动态优化技术处理，实现了 Deepseek 满血版从 720GB 缩小到最低 131GB 。

关键层保持高精度：初始的全连接层、下投影矩阵（down_proj）以及注意力模块等对模型稳定性至关重要的部分，保持较高精度（如 4 位或 6 位）。

MoE 层激进优化：模型中约 88% 的权重位于混合专家（MoE）层，这些层可以容忍较低的优化精度，因此被优化到 1.5 至 2 位。

重要性矩阵校准：根据每一层的特性动态调整优化精度，避免了无限循环或输出无意义结果等均匀优化常见的问题。

软硬件一体化交付

将高性能硬件、预训练的大模型以及全栈开发工具深度集成，封装为一体化设备。极大地简化了部署流程，用户无需自行安装繁琐的硬件驱动、底层框架和复杂的模型推理环境配置，实现大模型开箱即用。

图片6.png