首页 > 资讯 > 数字化

腾讯云星脉网络提质增效AI大模型

2023/07/05 17:19      C114通信网   


  人工智能技术在近年来不断取得突破,各类智慧化应用不断涌现。而随着以ChatGPT为代表的生成式AI大模型的出现,将AI的发展推向新高度。

  在大众的认知里,AI大模型的训练需要海量算力,但是海量算力从何而来,单台服务器的性能肯定不够,需要由大量的服务器作为节点,通过高速网络组成集群,相互协作完成训练任务,这就对网络提出更高要求。

  这个时候对于提供算力服务的云计算厂商而言,或许购买商用网络设备就可以了,但是腾讯云进一步深化自研能力,并于日前首次对外完整披露自研星脉高性能计算网络,支撑AI大模型的发展。

  腾讯云副总裁王亚晨表示:“星脉网络是为大模型而生。它所提供的大带宽、高利用率以及零丢包的高性能网络服务,将助力算力瓶颈的突破,进一步释放AI潜能,全面提升企业大模型的训练效率,在云上加速大模型技术的迭代升级和落地应用。”

  腾讯云副总裁王亚晨

  AI大模型需要DCN向高性能演进

  “去年国家‘东数西算’战略启动,提出布局算力网络,实际上这就是一个解决大规模集群算力间互相协作的关键技术,那时腾讯云就已经做了很多面向算力网络的技术储备。”王亚晨表示,数据中心网络始终在持续演进,只是AI大模型的出现加速了这一进程。

  回顾腾讯云数据中心网络三代技术演进,都是伴随着业务的升级。第一阶段以C端业务为主,数据中心网络流量主要由用户访问数据中心服务器的南北向流量构成。第二阶段,腾讯云的快速发展,服务器之间的东西向流量逐渐增多,数据中心网络架构逐渐演变为同时承载南北向和东西向流量的云网络架构,

  如今随着AI大模型的出现,DCN网络需要进行新一轮的升级,东西向流量规模更大。与此同时,王亚晨介绍,以前的DCN都是围绕CPU构建,现在需要围绕GPU互联构建,这个时候DCN就要向高性能网络升级。

  王亚晨表示,高性能网络面向AI大模型时,首先不能丢包,其次是时延要求非常敏感,另外带宽利用率要求非常高,这也是DCN网络面临的核心挑战。因为集群一定会影响到GPU的性能,集群越大,产生的额外通信损耗越多。

  具体来看,千亿、万亿参数规模的大模型,训练过程中通信占比最大可达50%,传统低速网络的带宽远远无法支撑。同时,传统网络协议容易导致网络拥塞、高延时和丢包,而仅0.1%的网络丢包就可能导致50%的算力损失,最终造成算力资源的严重浪费。

  深度自研,实现高利用率、信息无损

  面对这些挑战,基于全面自研能力,腾讯云在交换机、通信协议、通信库以及运营系统等方面,进行了软硬一体的升级和创新,率先推出业界领先的大模型专属高性能网络——星脉网络。

  腾讯云数据中心网络总监李翔

  腾讯云数据中心网络总监李翔表示,“打开”星脉网络看它如何支撑AI大模型的训练,可以形象地用道路上行驶的汽车来形容。

  首先,星脉网络基于腾讯的网络研发平台,采用全自研设备构建“高速公路”,也就是网络互联底座,实现自动化部署和配置,同时也能够做到更快的技术迭代和最优的成本控制。

  其次,当我们出门前,都会用导航系统查看哪条路线最优。腾讯云为星脉网络设计了高性能集合通信库TCCL,融入定制化解决方案,使系统实现了微秒级感知网络质量。结合动态调度机制合理分配通信通道,可以避免因网络问题导致的训练中断等问题,让通信时延降低40%。

  第三,当车开起来后,路上总会出现一些不可预料的拥塞和堵塞,这也是最大的困难。为此腾讯云自研的TiTa网络协议,采用先进的拥塞控制和管理技术,能够实时监测并调整网络拥塞,满足大量服务器节点之间的通信需求,确保数据交换流畅、延时低,实现高负载下的零丢包,使集群通信效率达90%以上。

  第四,需要有一套“交通管理系统”,确保道路的高可用。腾讯云自研了端到端的全栈网络运营系统,通过端网立体化监控与智能定位系统,将端网问题自动定界分析,让整体故障的排查时间由天级降低至分钟级。同时,大模型训练系统的整体部署时间从19天缩减至4.5天,保证基础配置100%准确。

  李翔表示,星脉网络具备业界最高的3.2T通信带宽,能提升40%的GPU利用率,节省30%-60%的模型训练成本,为AI大模型带来10倍通信性能提升。基于腾讯云新一代算力集群HCC,可支持10万卡的超大计算规模。

  二十余年积累,成就端到端网络能力

  “整个腾讯网络大概由大大小小几十个组件组成,数据中心网络是其中一个,也是其中最大、历史最悠久的一个。”王亚晨介绍,目前腾讯已经形成ECN、DCI、DCN三大网络架构,把用户和业务服务器连接起来,并且把数百万台服务器连接起来。

  王亚晨表示,腾讯网络的构建历经四个阶段:阶段一是2006年,采用商用设备+人工运维的模式;阶段二是2010年,采用商业设备+工具支撑的模式;阶段三是2015年,采用定制设备+路由控制的模式;阶段四是2019年开始,采用开放设备+SDN/NFV的模式。

  目前,腾讯网络已经在DCI领域、DCN领域、以及HOST主机侧,从设备开放、芯片定制、模块融合,驱动基础网络设备全面、深度自研。包括DCI领域的开放光传输系统,DCN的交换机、光模块,主机侧的智能网卡等都实现自研和可控,共同组成硬件自研体系。

  有了硬件还要配合相应的软件才能发挥作用。腾讯自研网络服务软件,实现商用路由系统向自研分布式路由系统演进,拆分成管控系统、路由系统、转发系统、接入系统,具备架构解耦、弹性扩展、硬件加速、稳定运营等特性。另外,自研网络操作系统覆盖全网多场景、结合自研网管平台实现网络能力简化与定制、网络系统稳定运营。

  “为什么做自研,腾讯云有两个维度的考虑。”李翔表示,第一个维度是硬件成本的角度,商业交换机卖的是“满汉全席”,我们可能只需要10%的功能;第一个维度从质量考虑,希望对软件做减法,实现功能的快速迭代,并实现简单维护、快修复。“未来,腾讯云还将持续投入基础技术的研发。”

  榜单收录、高管收录、融资收录、活动收录可发送邮件至news#citmt.cn(把#换成@)。

相关阅读