全本小说网 > 武侠修真 > 重回1990:我的科技强国路 > 第343章 悟道云端服务的企业级合约

第343章 悟道云端服务的企业级合约(1 / 2)

请关闭浏览器的阅读/畅读/小说模式并且关闭广告屏蔽过滤功能,避免出现内容无法显示或者段落错乱。

天机云数据中心位於芯谷以北三十公里的一片丘陵地带,占地三百亩,建筑面积八万平方米。四栋数据中心大楼呈田字形排列,每栋楼里有一万两千个伺服器机柜,总计算能力超过每秒两百亿亿次浮点运算。这里是悟道算力平台的核心枢纽,也是未来科技在云计算领域最重的资產。

许承站在数据中心的中控室里,面前是一面由六十四块屏幕组成的电视墙,实时显示著整个数据中心的运行状態。温度、湿度、电力消耗、网络流量、算力利用率,每一个数字都在跳动。当前整体算力利用率是百分之七十一,比三个月前的百分之六十二提升了九个百分点。这个提升来自於悟道算力平台负载调优的三项措施——分区调度、拥塞控制调优、预测模型升级。许承的团队用了六周时间,把这些措施全部落地,把算力利用率从六十二拉到了七十一,距离百分之七十八的目標还差七个百分点。

但今天,许承关心的不是利用率,而是另一件事——悟道云端服务的企业级合约。

悟道算力平台上线两年多以来,主要服务的是未来科技內部的业务——天枢生態的后端、小芯的云端模型训练、天权晶片的仿真验证、追光设备的工艺仿真。外部客户也有,但大多是中小企业和独立开发者,用的是公有云的標准服务,按量付费,没有长期合约。企业级客户——那些需要定製化服务、签署长期合约、对数据安全和合规性有严格要求的大型企业——一直是悟道的短板。

这个短板必须补上。陈醒在两个月前的集团战略会上明確说过:“悟道算力不能只做內部平台,必须走出去。企业级市场是算力需求最大的市场,也是利润最高的市场。不拿下这个市场,悟道就永远是未来科技的成本中心,永远成不了利润中心。”

许承接下了这个任务。两个月来,他的团队拜访了二十多家潜在企业客户,涵盖了金融、製造、科研、医疗、能源五个行业。今天,有三家客户派代表来到天机云数据中心,进行最后的商务谈判和合约签署。

第一家企业是华夏的一家大型国有银行,资產规模超过十万亿,在全国有三万多个网点。他们的代表是一个四十多岁的技术总监,姓刘,穿著一身深灰色的西装,说话语速很慢,每句话都经过深思熟虑。

“许总,我们银行的ai算力需求主要来自三个场景——风控模型训练、反欺诈实时计算、以及智能客服的深度学习。目前这些算力都跑在旧秩序的公有云上,每年的费用超过两亿。但我们一直在寻找替代方案,原因有两个——第一,数据安全。银行的数据不能出境,旧秩序的公有云虽然在国內有节点,但数据回传的链路和审计权限不在我们手里。第二,成本。旧秩序的算力定价每年都在涨,涨幅超过百分之十五,我们受不了。”

许承点了点头。这两个原因,他在过去两个月里听过无数次了。

“刘总,悟道算力平台的优势恰恰在这两点。第一,数据安全。悟道的所有数据节点都在华夏境內,物理上不可出境。我们提供『数据驻留保证』——客户的任何数据都不会离开客户指定的地理区域,这个保证写进合同,违约赔偿是年服务费的十倍。第二,成本。悟道的算力定价比旧秩序低百分之三十,而且未来三年不涨价。我们可以签三年期的价格锁定协议。”

刘总监在笔记本上记了几笔,然后问了一个更具体的问题。

“你们的算力性能和旧秩序比怎么样我们有一个风控模型,在旧秩序的gpu集群上跑一次需要四个小时。如果切换到悟道,时间会更长还是更短”

许承调出了一张性能对比表,投在会议室的大屏幕上。

“悟道算力平台有两种算力形態——gpu集群和天权ai加速卡集群。gpu集群用的是国產的加速卡,性能大约是旧秩序高端卡的百分之八十。天权ai加速卡集群用的是我们自研的悟道晶片,性能比旧秩序高端卡高百分之三十,但只支持天枢生態的软体栈。”

“你们的模型是基於旧秩序框架开发的,移植到天权加速卡上需要做一些適配。我们的工程师可以帮你们做移植,周期大约四到六周。移植完成后,同样的模型,在悟道上的训练时间可以缩短到三小时以內。”

刘总监沉默了几秒。“四到六周的移植周期,我们可以接受。但移植后的稳定性和正確性怎么保证”

许承翻到下一页,是一张测试验证流程图。

“移植完成后,我们会用你们的测试数据集做对比验证。输出结果的误差控制在百万分之一以內,才算通过。验证通过后,移植后的模型会在悟道上跑一个月的並行测试——同时跑旧秩序和悟道,对比每次的输出结果。一个月零误差,才能上线生產。”

刘总监合上了笔记本。“许总,你们的方案比我预想的成熟。我今天是带著签约授权来的,如果我们能在数据驻留保证和价格锁定条款上达成一致,今天就可以签。”

谈判进行了两个小时。最后,双方在数据驻留的具体定义、价格锁定的期限和范围、服务等级协议的响应时间、违约赔偿的计算方式等细节上达成了共识。银行方面承诺首年採购五千万元的算力服务,主要用於风控模型的训练和推理。合同期三年,总金额一亿五千万元。

这是悟道算力平台第一个企业级合约,也是金额最大的一个。

送走银行的代表后,第二家客户进入了会议室。这是一家华夏头部的新能源汽车製造商,年產量超过一百万辆,正在全力推进自动驾驶技术的研发。他们的代表是一个三十出头的技术负责人,姓马,穿著公司文化衫,牛仔裤,运动鞋,看起来不像来签约的,倒像来参观的。

“许总,我们的需求很简单——算力,大量的算力。我们的自动驾驶团队每天要处理超过两百万公里的路测数据,用来训练感知、决策、控制三个大模型。目前我们在旧秩序的云上跑了超过一万张gpu卡,每个月的费用超过三千万。这个成本太高了,我们需要降本。”

许承直接亮出了底牌。

“悟道算力平台可以给你提供两种方案。方案一,用我们的天权ai加速卡集群,每张卡的算力相当於旧秩序高端卡的一点三倍,价格只有它的百分之六十。同样一万张卡的算力,悟道的成本是旧秩序的百分之四十六。每个月从三千万降到一千四百万,一年省近两亿。”

“方案二,混合方案。你们的核心模型跑在天权加速卡上,边缘任务跑在国產gpu上。这个方案的性价比更高,但复杂度也更高,需要你们的算法工程师做一些適配工作。”

马技术负责人听完,没有立刻表態,而是问了一个技术深度的问题。

“天权ai加速卡的软体栈,支持分布式训练吗我们的模型参数规模已经超过一千亿,单卡放不下,需要多卡並行。”

许承调出了悟道算力平台的分布式训练架构图。

“支持。悟道算力平台內置了分布式训练框架,支持数据並行、模型並行、流水线並行三种模式。一千亿参数的模型,我们用两百五十六张天权加速卡,训练时间可以压缩到两周以內。这个性能,和旧秩序的最优方案持平。”

“另外,我们还有一个独有优势——天权加速卡之间的互联带宽是自研的,每卡三百二十吉字节每秒,比旧秩序的互联快百分之四十。大规模分布式训练的时候,通信瓶颈是我们的优势。”

马技术负责人的眼睛亮了一下。“互联带宽快百分之四十,这个数据是真的吗能做现场演示吗”

许承笑了笑。“能。我们去实验室,现场跑一个分布式训练的测试给你们看。”

一行人走进数据中心二楼的实验室,那里有一个小规模的天权加速卡集群,六十四张卡,通过自研的网际网路连接。许承的团队现场启动了一个標准的计算机视觉模型训练,分別在悟道和旧秩序的同等规模集群上跑。十分钟后,结果出来了——悟道的训练速度比旧秩序快了百分之三十七,通信开销低了百分之四十二。

马技术负责人看著屏幕上的数据,沉默了很久。

“许总,我要给公司打个电话。”

他走出实验室,在走廊里打了二十分钟的电话。回来的时候,脸上带著笑容。

“公司批了。首年採购八千万元的算力服务,主要用於自动驾驶模型的训练。合同期两年,总金额一亿六千万。但我们有一个条件——你们要派一个技术团队常驻我们公司,协助我们的算法工程师完成模型移植。周期不超过八周。”

许承点头。“可以。天机云的技术支持团队有三十个人,我可以抽调五个人常驻你们公司。八周內完成移植,逾期的话,合同金额打九折。”

马技术负责人伸出手。“成交。”

第二份合约签完,已经是下午四点。第三家客户是一家科研机构——华夏科学院的一个国家级实验室,研究方向是气候模擬和气象预测。他们的代表是一个五十多岁的教授,姓吴,头髮花白,戴著一副厚厚的眼镜,手里拿著一台老旧的笔记本电脑。

“许总,我们的需求比较特殊。气候模擬需要的是双精度浮点算力,不是ai训练用的半精度或单精度。天权加速卡的双精度性能怎么样”