小哥揭示腾讯数据处理与存储能力背后的实力考量(批判视角)
随着互联网和数字经济的迅猛发展,数据已经成为了新时代的核心资源之一。
在这一大背景下,企业对于数据处理和存储的需求越来越高,要求也愈发严格。
作为中国互联网行业的领军企业之一,腾讯面临着前所未有的数据处理和存储挑战。
本文将从腾讯的服务器数量出发,探讨其数据处理与存储能力背后的实力考量,并对其进行批判性分析。
一、腾讯的服务器数量与规模
在互联网行业,服务器数量往往被视为企业实力的象征之一。
腾讯作为中国最大的互联网企业之一,其服务器数量自然是庞大到令人惊叹的程度。
近年来,腾讯不断加大对数据中心建设的投入,全球范围内都在扩展其服务器规模。
庞大的服务器数量意味着腾讯具备了强大的数据处理和存储能力,能够更好地应对日益增长的业务需求。
二、腾讯数据处理与存储能力的解读
1. 数据处理能力:腾讯的服务器数量是其数据处理能力的直接体现。
大量的服务器能够处理海量的数据请求,为用户提供更稳定、更高效的服务。
腾讯在互联网领域的广泛应用,包括社交、游戏、金融等,都需要强大的数据处理能力作为支撑。
同时,腾讯也在不断探索和引进新技术,以提高其数据处理的速度和效率。
2. 数据存储能力:随着互联网信息的爆发式增长,数据存储已成为企业面临的一大挑战。
腾讯庞大的服务器规模为其提供了巨大的存储空间,可以存储海量的用户数据和各类内容信息。
同时,腾讯也注重数据的安全性和隐私保护,通过先进的加密技术和严格的管理制度,确保用户数据的安全性和隐私权益。
三、腾讯数据处理与存储能力的批判性分析
虽然腾讯拥有庞大的服务器规模和强大的数据处理与存储能力,但在这一领域仍存在一些问题和挑战。以下是对腾讯数据处理与存储能力的批判性分析:
1. 技术创新与应用滞后:虽然腾讯不断引进和探索新技术,但在某些领域仍存在技术创新与应用滞后的问题。
随着云计算、大数据等技术的不断发展,用户对数据处理和存储的需求也在不断提高。
腾讯需要不断跟进技术发展趋势,加大技术研发投入,以满足用户日益增长的需求。
2. 数据安全与隐私保护问题:虽然腾讯注重数据的安全性和隐私保护,但仍存在一些潜在的风险和挑战。
在互联网时代,数据泄露、黑客攻击等安全问题屡见不鲜。
腾讯需要进一步加强数据安全管理和技术防范手段,确保用户数据的安全性和隐私权益。
3. 服务器扩张对环境的影响:随着服务器规模的不断扩大,能耗和碳排放量也随之增加,对环境造成一定的影响。
腾讯在扩大服务器规模的同时,也需要关注环保问题,采取节能减排的措施,降低对环境的影响。
四、总结
总体来看,腾讯拥有庞大的服务器规模和强大的数据处理与存储能力,能够更好地应对日益增长的业务需求。
但在技术创新与应用、数据安全与隐私保护以及环境影响等方面仍存在一些问题和挑战。
腾讯需要不断跟进技术发展趋势,加强数据安全管理和环保措施,以提高其数据处理和存储能力的综合实力。
同时,也需要不断满足用户需求,为用户提供更稳定、更高效的服务。
腾讯服务器是什么
腾讯服务器是腾讯云的核心组成部分,它凭借腾讯的强大技术实力和丰富的互联网服务经验,为各类用户和企业提供全面的云解决方案。
腾讯云的基石在于其云端部署,覆盖了云服务、云数据存储、云数据库和高性能Web服务等多个领域。
其中,基础云服务如腾讯云服务器、云存储和弹性Web引擎,为用户提供稳定、高效的运行环境。
更进一步,腾讯云还整合了大数据处理能力,例如腾讯云分析(MTA)和腾讯云推送(信鸽),帮助企业挖掘数据价值,提升运营效率。
此外,通过QQ互联、QQ空间、微云和微社区等社交服务平台,腾讯云将云端技术与社交网络紧密相连,为用户打造无缝的互联网体验。
这种集成的、差异化的技术平台,使得腾讯服务器在满足多元互联网应用场景的同时,展现出显著的高品质和优势。
腾讯钟学丹:汽车产业将基于云端定义智能、体验和新商业模式
腾讯智慧出行副总裁 钟学丹
钟学丹认为,中国市场正在引领智能化相关技术的发展和创新,从单车智能到车云一体持续进化。
同时,汽车行业进入到不确定性与合规化发展并存时代,云作为弹性、易拓展的载体,可以帮助企业提升业务韧性,抵抗动荡,安全合规发展。
“云正在成为重要生产力,车云一体化的数据驱动将成为汽车产业的竞争关键。
未来,汽车行业将基于云端去定义智能、定义体验、定义新的商业模式。
”钟学丹表示。
腾讯将以云为核心,为汽车产业提供数据驱动的车云一体化基础设施,通过灵活的部署方式、云原生的开放体系,以及针对汽车行业特性的行业解决方案,助力车企构建围绕厂、店、人、车等不同场景,构建车云一体化的数据驱动闭环。
今年是腾讯布局汽车行业的第五年,数据显示,已经有100多家车企及出行科技公司使用了腾讯云服务,在汽车行业的用云量已超过25万核服务器、汽车行业的存储规模突破100PB。
以下为演讲实录
各位领导、各位嘉宾,媒体朋友们,
大家好!
今年上半年,汽车产业经历了短期的震荡,但并没有影响智能网联汽车长期向好的发展态势。我们看到几大核心的变化:
第一个核心变化,智能电动化正在推动汽车产业结构化的变革。
中国市场正在引领智能化相关技术的发展和创新,从单车智能到车云一体持续进化。
今年一季度统计,L2级自动驾驶在我国乘用车市场的新车渗透率已经达到23.2%。
同时,近期多款新车已经搭载了高算力计算平台、激光雷达等面向L3级以上的硬件配置,并且价格已下探至20-30万元区间。
可以说,2022年或将成为中国准L3自动驾驶量产开端之年。
这背后也伴随着巨大的研发和运营投入。
如何更高效、更低成本的进行数据管理、算法迭代和体验优化,成为摆在大家面前的一大课题。
在这样的背景下,车云一体化、数据驱动的IT基础设施成为必然。
第二个核心变化,用户对于智能科技的付费意愿和要求在不断增长。
如何拓展新的服务模式,创造新的商业增值空间,成为车企的新考验。
德勤的一项调查显示,有90%以上的中国消费者愿意为车联网服务付费。
好的体验不再是堆砌配置,而是要求以用户为导向,以数据为驱动,通过云端能力不断升级迭代,为用户提供按需服务,这背后还有非常多的商业空间值得挖掘。
第三个核心变化,汽车行业进入到不确定性与合规化发展并存时代。
一方面,新冠疫情反复、国际局势动荡等不确定性因素频发,对供应链、销售端都造成了一定的挑战。
另一方面,相关法律法规、行业标准、监管体系密集出台,也正引导汽车产业向更标准、更安全和更有序地发展,对企业的数据合规、自主可控提出了更高的要求。
在这样的背景下,云可以作为一个弹性、易拓展的载体,帮助企业提升业务韧性,抵抗动荡,安全合规发展。
综上变化,我们可以看到,云正在成为重要生产力,车云一体化的数据驱动将成为汽车产业的竞争关键。
基于云端去定义智能、定义体验、定义新的商业模式
一方面,软件占比的大幅提升,也促进汽车研发体系的重新构建。
整车制造研发体系和智能座舱、自动驾驶的研发运营体系是完全不同的系统架构,后者需要构建数据驱动的敏捷研发和运营架构,如何实现大规模、分布式的软件协同效率提升,结合实时感知、场景理解、算法迭代等持续优化运行效率,将是新的核心竞争力。
从用户角度,用户对智能化极致体验是不断刷新的。
用户对汽车的体验要求,不再是买车的时候有什么功能特性,而是在用车的过程中,是否能够及时的获得新鲜的场景体验,最新的数字化内容,不断与时俱进的新交互和功能,以及越来越懂用户的使用体验和服务等。
具体而言,云端协同所带来的核心价值可以概括为三个点:不断优化的研发运营效率,不断革新的汽车服务体验,并随之带来企业业务韧性的不断增强。
优化研发效率
智能化、电动化的发展趋势下,对软件能力提出更高的要求。
研发效率是决胜的重要关键因素之一。
自动驾驶、智能汽车技术更快速的进化,除了车端感知能力、算力平台、控制优化等因素之外,还有一个非常重要的因素,就是云端的数据管理平台和算法训练平台。
工程实践中,获得一个算法模型,大约70-80%的人工时间花费在数据处理上,约70-80%的机器时间用在模型训练上。
由此可见,数据和计算,是驱动研发效能提升的两大关键。
海量的数据存储和访问,如何降低存储成本、提升访问效率?我们基于腾讯云业界领先的存储加速服务———GooseFS,相比传统存储的接入和访问模式,加速性能提高了10倍,可以很好的满足汽车自动驾驶场景对海量数据访问所遇到的瓶颈。
在算法开发方面,我们提供的一站式算法开发、训练框架——TI-One,可以帮助大量节约算法训练的成本。
在模型训练环节,算法开发TCO(总体拥有成本)至少降低50%,进一步节约计算成本,提高训练效率。
针对研发体系繁杂、架构不统一的情况,腾讯还可提供多云管理、多云调度的平台,并提供DevOps、AIOps、低代码平台等一站式的开发基础设施,加速软件开发效率和灵活性。
同时,我们认为,更高效、低成本的上云,一定是“专云专用”、符合行业特定需求的行业云。
为此,我们在上海设立了一个智能汽车云专区,从云专区的硬件选型,到云上组件都是高度结合智能汽车行业特殊需求进行配置和优化。
在智能汽车云上,我们打造了完整的自动驾驶、仿真训练、高精地图、座舱等云上自动化工具链等,为车企带来开箱即用的专有化云端服务,让车企可以更专注于算法优化和体验改善。
革新汽车服务体验
通过基于云端的互联服务,我们还在帮助拓展汽车服务新模式,探索创新的服务增值空间。
出行是一个场景驱动服务的体验模式,及时感知场景的变化和需求,为用户提供恰当的服务选择,可以极大的提升用户驾乘体验,而服务的碎片化、本地化需要有一个好的云端框架可以更便捷的将互联网服务快捷上车,方便用户无需下载安装,就可以更即时地、按需地获取这些丰富的内容和服务。
当然,好用的服务不在于多,而在于精。
如何更好的结合用户具体的用车场景,解决用户当下所需呢?通过腾讯新一代的场景引擎,可以将车端对场景的实时感知,与云端的AI和数据能力相结合,让用户更清楚地获知身处何地、周边有什么、我想要的服务在哪里。
我们重点围绕诸如停车、充电、etc等用户普遍关注的用车场景,去打磨的智能场景化的能力,帮助提升车载服务的活跃度。
现在,腾讯也开放了场景引擎和智能推荐体系,助力车企打造自主可控的云端场景引擎一体化平台。
在自动驾驶场景和高级别辅助驾驶场景下,我们推出新一代智能驾驶地图,通过云端实时连接和一体化的数据架构,我们首创性地实现了高精地图、ADAS地图、SD地图的数据同源“一张图”,可以针对人工驾驶、辅助驾驶和自动驾驶的不同驾驶模式自动切换地图形态,从车道级精度到路径级精度,多种比例尺无缝切换。
这种车-图-云一体化的形态,可以助力解决目前行业内普遍存在的各种地图之间数据不匹配,智能驾驶系统人工接管频率高,地图更新频率难以统一等制约智能驾驶功能实际应用等问题。
同时,通过多模态的交互方式,为用户提供更沉浸、更鲜活的导航探索体验。
通过极致体验的打造和持续运营,腾讯愿与车企共创订阅制的商业模式,基于腾讯用户运营的经验,结合车企构建的车辆和用户数据闭环,助力车企打造和培养用户不但愿意使用,也愿意为体验付费的商业模式。
增强业务韧性
车云一体化带来的第三个价值,是增强业务韧性。
汽车产业目前正在经历结构性的变化,也进入到强监管、安全合规发展的时代,对企业的安全建设、数字化的运营能力,实时地事故处理能力,提出了更高的要求。
随着联网车辆的不断增长,如何构建更健壮和弹性的网络架构体系,及时解决接入、数据处理、扩容、灾备等问题,都是需要面对的新挑战。
云具备更加弹性灵活、开放兼容、可持续运营的特性,可以成为汽车企业在提升业务韧性的过程中的常规标配,助力车企随时应对突发的业务,提升业务敏捷性,有效降低整体运营成本。
在这方面,我们基于云和数字化实践的经验,结合汽车行业的业务特点,可以借助云平台的数字底座,实现研发智能化、生产智能化、管理智能化、运营智能化,持续助力汽车产业增强业务韧性。
腾讯为汽车产业提供“车云一体化”的基础设施
在车云一体化的趋势下,腾讯将以云为核心,为汽车产业提供以数据驱动的车云一体化基础设施,通过灵活的部署方式、云原生的开放体系,以及针对汽车行业特性的业务解决方案,助力车企构建自己的数字化底座和完整的业务服务能力。
首先,腾讯基于自身敏捷的云原生体系,打造沉淀出坚实的底层云基础设施,通过灵活部署的IaaS,以及云原生、Devops、开放的云上工具平台,帮助车企和合作伙伴灵活、快速、低成本的构建起车云一体化的基础,支撑汽车行业数智创新和快速变革。
在底层智能汽车云作为核心底座的基础上,向上连接起汽车产业链研发-生产-销售-服务等核心场景,实现车云一体化的数据驱动、场景闭环。
帮助车企在软件定义汽车时代,构建新生产力。
基于开放强大的智能汽车云平台,通过中间的IPaaS应用集成连接器、IDaaS账号连接器、微搭低代码应用连接器等,可快速支撑厂、店、人、车等多端的不同场景,通过端云一体化实现数据驱动的新场景,创造汽车行业新生产力。
为100家车企和出行科技公司提供云服务
今年是腾讯发力汽车赛道的第五年,目前,已经有100家车企及出行科技公司使用了腾讯云服务。
面向汽车行业,一方面,我们持续夯实云底座能力。
目前,腾讯云在汽车行业的用云量达到25万核服务器、汽车行业的存储规模突破100PB,帮助车企增量超过70%。
同时,在腾讯云底座之上,我们还面向汽车行业各环节的特殊需求进行专有化定制开发,围绕智能汽车云、数字营销、办公一体化、工业制造等场景,联合600+生态合作伙伴,推出了130+个云上行业解决方案。
站在汽车产业结构升级的重大时期,腾讯坚持做好数字化助手角色,专注自身所长三个领域:第一,深耕云、图为核心的基础设施;第二,发挥好C2B连接价值;第三,共建开放生态。
从单车智能到车云一体,再到智慧交通、智慧城市,腾讯将充分发挥好以上三个维度的能力,将人、车、路、云都能够连成一张网,在云端实现人车路的实时计算,让交通运营管理体系之间信息畅通,让企业一体化管理和运营效率更高,让用户服务更及时、更极致。
易车App提供销量、热度、点评、降价、新能源、实测、安全、零整比、保有量等榜单数据。
如需更多数据,请到易车App查看。
置身事内:腾讯的造芯之路
事后想来,芯片验证工程师Lynda觉得进腾讯有点“草率”了。
作为一个在半导体行业工作过多年的资深工程师,Lynda第一次看到腾讯发布芯片岗位需求时,略感到一丝惊讶。
2019年1月她带着好奇加入这家互联网大厂,准备撸起袖子,大干一场。
面试时,主导芯片设计工作的Henry给她打过一剂预防针:“我们是从零开始做芯片。”Lynda试图代入鹅厂一贯的低调来理解这句话,但随即便在第一天上班时被跟同事的对话震到了:
-“我们的仿真工具呢?” -“没有,还在谈。”
-“验证环境怎么说?” -“还……没有。”
-“那……验证流程呢?-“这个……也没有。“
对于一个芯片验证工程师来说,仿真工具、验证环境、验证流程就是必备的生产力工具。
Lynda想全程参与芯片研发业务,倒不怕从头开始,只不过没想到连这些必备品都能 “三无”。
当一家互联网公司投身半导体时,工具的欠缺还不是最紧要的。
“造芯”不仅是业务的简单延伸,它往往意味着更复杂的产业链、更耗时的人才沉淀、以及更迥异的生态文化和技术理念。
比如芯片研发不像软件开发尚可后期不断改bug,设计问题没被前期验证发现,一旦流片就只能沦为一块“砖头”。
而Lynda所担任的验证工程师,就是防止前期努力打水漂的守门员。
这个岗位的重要性不言而喻,设计工程师与验证工程师的比例在很多芯片公司会达到1:3。
但Lynda入职后环顾四周,发现不仅自己只有一个并肩作战的同事,连验证的代码也一行都没有。
这时候,Lynda才开始明白Henry口中的“从零开始”意味着什么,以及她面临着怎样一场艰难的战役。
雄关如铁,出师未捷
在腾讯云副总裁、云架构平台部总经理谢明看来,“从零开始”的背后还有更多的曲折故事。
谢明所在的云架构平台部,站在腾讯各类前端应用的身后,是腾讯海量业务数据冲刷的前线,有效支撑了QQ、邮箱、微信、微云、流媒体视频等一个又一个的国民级应用。
2013年,QQ相册已经发展成腾讯最大的一个存储类业务。
让用户访问相册的速度更快、体验更顺滑,成了一个很急迫的需求。
转化成相应的技术问题,就是图片能否更快地转码?能否在不损画质的情况下压缩?能否以更低的成本存储?
他们反复地追问。
团队深刻地明白底层技术创新对上层应用的放大价值。
软件架构上固然要永远不停歇地进行自我超越,但他们敏锐地察觉到,只有在硬件上也作出创新,才能实现更深层次的突破。
问题是:一个做软件出身的团队,怎么去做硬件?
一圈研究之后,他们决定先拿FPGA(可编程阵列逻辑)试水。
跟我们平时电脑和手机里的通用芯片相比,FPGA是一种专用集成电路(ASIC),能够实现灵活的“半定制”开发。
FPGA相比起芯片容错率高,但在吞吐率、延迟、功耗和灵活性等维度上都很平衡。
尤其是在处理海量数据时,FPGA相比GPU具有超低延时的显著优势,很适合用在特定的业务场景。
事实验证了这种判断。
2015年,团队集中力量研发的图片编码FPGA,取得了比CPU编码和软件编码更高的压缩率和更低的延时,也帮助QQ相册很大程度上降低了存储成本。
他们看到了在FPGA方向 探索 和深入的可能性。
2016年前后,由Alpha Go引爆的AI热潮更把FPGA拉入了主流视野。
团队通过FPGA对深度学习模型的CNN算法进行加速后,处理性能达到通用CPU的4倍,而单位成本仅为1/3。
FPGA效果虽好,但技术门槛比较高,“如果把FPGA云化,是不是一个能够扩大应用的解决路径?”
带着这样的期待,2017年1月20日,腾讯云推出了国内首款FPGA云服务器,希望以云计算的方式,将FPGA能力推广到更多企业。
从效果上来说,在FPGA云服务器上进行FPGA硬件编程的企业,确实能将性能提升至通用CPU服务器的30倍以上,而只需支付相当于通用CPU约40%的费用。
以一家著名的基因检测公司为例,传统用CPU需要检测一周的基因序列,FPGA可以压缩到数小时完成。
然而云化后的FPGA,没能如预期般迅速席卷整个行业。
一方面,FPGA毕竟是一种“半定制”的电路,许多企业还是无法独立胜任FPGA开发,需要更加上层的服务;另一方面,通用芯片成本的迅速下降,也让FPGA的性价比优势逐渐丧失。
云端商业化的受挫泼来一盆冷水,把团队的热情从巅峰一下子打到了谷底,同时也把两个问题赤裸裸地抛到整个团队的眼前:FPGA对业务的价值究竟有多大?FPGA还能继续做吗?
受此打击,团队在2018年也近乎分崩离析,人员开始集中式地离开。
腾讯在“造芯”上的第一次 探索 ,画上了一个遗憾的逗号。
柳暗花明,“蓬莱”问世
在FPGA云服务器受挫后,腾讯需要重新思考硬件之路要怎么走下去。
在团队几乎解散的2018年,中国芯片行业迎来暖春:中美贸易摩擦给全民普及了芯片的重要性,科创板的设立为半导体企业上市开启大门,而国家资金的进场更是让大江南北一片热火朝天。
但是,对于互联网公司来说,做芯片跟做云计算、数据库、存储系统等一样,需要有具体的业务场景支撑,不能“为了做而做”。
在经历过一场不算成功的 探索 后,腾讯要等待下一个真实需求带来的机会。
时间进入2019年。
那是人工智能规模化应用的元年,内外部业务都提出了对AI芯片的强烈诉求。
AI芯片,要不要做?
这个问题被提出来的时候,腾讯的管理层有过反对的声音,担心技术人员只是头脑发热,只是为了追逐热点。
但同时,管理层也给了足够的灰度,没有明令禁止小团队级别的 探索 。
以小规模、低成本、特定应用场景的方式先行试水,成了大家的共识。
云架构平台部将第一款芯片敲定AI推理方向,取名“蓬莱”,希望这款芯片能像中国古代神话里的海外仙山一样,稳固地立于汹涌波涛之上。
这支硬件突围小分队,也被正式命名为“蓬莱实验室”。
有了FPGA 探索 时积攒的经验,蓬莱实验室对硬件编程语言已经相当熟练,也在标准接口、总线等方面积累了一些平台化的设计。
然而,两者的研发要求,不可同日而语。
如果说做FPGA是搭现成的积木,那么做芯片就是直接从伐木开始来着手来制造积木。
FPGA出了问题可以重新编程,而芯片只有一次流片机会,一旦出错,所有的努力便付诸东流。
此外, FPGA的资源是现成固定的,芯片的资源却是由自己定义的。
一个字,就是要“抠”:用最小的资源做最大的事。
芯片架构工程师Rick用“装修”改“重建”来形容整个蓬莱项目。
一开始,团队以为能把之前FPGA的技术较为简单地转成芯片。
做着做着发现,以为终归只是以为——FPGA架构在芯片中能直接复用的并不多,团队只能把原来的架构整个拆掉,重写的代码量高达85%。
像DDR存储器这样的重中之重,芯片厂商通常会有专门的验证人员负责,而刚起步的蓬莱实验室没这个条件,只能靠抢时间把功课补回来。
Lynda后来回忆道:“我恨不得一天有48个小时”。
2020年1月,蓬莱芯片流片完成,被合作方快递到深圳。
新冠疫情刚刚在全国范围内暴发,公司已经开启集体远程办公。
项目负责人Henry戴着手套取到快递,用酒精仔细消毒后,带到空空荡荡的办公楼,大开着窗户和风扇,在一片消毒水味中,他和几个同事一起开始了至关重要的点亮操作。
所谓点亮,就是给芯片上电,首先看有没有短路冒烟,接着就是测试一些基本功能。
是芯片还是“砖头”,成败在此一举。
结果,芯片的时钟频率一直没出来。
要知道,时钟频率是芯片的“节拍器”,没有时钟频率,芯片的不同模块等于没对好表,就无法协同工作。
是不是这块芯片的问题?实验人员换了一块芯片,依然没有信号输出。
再换一块,还是没有。
现场鸦雀无声。
实验人员已经不敢动手了。
有人忍不住开玩笑,是不是该回家改简历了。
但除了沮丧,大家心里更多的是疑惑。
因为项目虽然人少、资源少,近乎是白手起家,但蓬莱团队从设计人员到验证人员都有信心说:每一步都做好了。
到底是哪里不对呢?
在无比凝重的气氛中,他们继续放板、上电、读取信号……
第四块芯片,亮了。
剩下的所有芯片,也都没问题。
真相其实很简单。
28纳米工艺的芯片不良率只有3%,但偏偏随机测试的前三片都是坏片,小概率事件就恰好让他们全赶上了。
这让他们把“生一胎”的紧张情绪,体验到十足。
在虚惊一场后的拍手相庆中,腾讯第一款芯片,宣告问世。
更上一层,“紫霄”凌云
量产后的蓬莱芯片,实战表现也不负众望,助力腾讯推出中国第一台获准进入医院临床应用的智能显微镜,实现自动识别医学图像、统计细胞数目并直接显示在视野上,性能表现完全符合设计要求。
这一扫当年FPGA云服务器项目的阴霾,说明在制造造出直面应用、性能卓越的芯片,这条路,腾讯走得通。
终端芯片蓬莱的问世,只是完成了从0到1的任务。
团队已经迫不及待向要从1到N,向着大规模云端芯片进军。
蓬莱实验室负责人Alex将大芯片申请立项戏称为“A轮融资”。
初试锋芒之后,团队需要向公司说明,为什么需要用更大的投入去做大规模芯片?在短期和长期能否保持领先性?如何与内外部业务结合创造价值?
腾讯这次面临的决策,要容易做得多。
首先是蓬莱实验室的成熟。
通过一边行军一边成长,蓬莱实验室完成了一次次蜕变,建立起完整、严谨、规范的芯片研发体系和流程。
这已经是一支具备硬核气场的“正规军”。
更重要的是,团队证明了腾讯做芯片的优势和站位。
谢明解释说,从行业来看,做芯片除了要考虑技术和工艺,最大的难点在于对芯片的“定义”。
传统芯片厂商的优势在于前者,但芯片做出来之后再去匹配需求,在很多场景下真实性能是损失的。
Google、腾讯这类 科技 企业的优势在于自身就是需求方,对需求的理解和洞察最深刻、最透彻。
方向没有问题,技术和工艺也没问题,腾讯高级执行副总裁、TEG(技术工程事业部)总裁卢山给予了全面支持,并通过总办争取到了更多的headcount和资金。
有了公司战略的支持,团队志气满满奔赴更大的战场。
蓬莱实验室副总监Austin决定兵分两路,在AI推理和视频编解码上并行推进。
AI小分队继续做蓬莱的2.0版“紫霄”。
这是《封神演义》里鸿钧老祖所居宫殿的名字。
在稳固的仙山上牢筑“紫霄”,代表了新的野心:
这次,他们将目标直接定为业界第一。
紫霄所有的架构都围绕着有效算力去做。
团队优化片上缓存设计,并摒弃竞品常用的GDDR6内存,采用先进的2.5D封装技术,把HBM2e内存与AI芯片合封在一起,从而把内存带宽提升了近40%。
技术迭代一日千里。
紫霄立项后,业内最高性能表现又被竞品刷新。
虽然紫霄的设计性能相比这个最高表现还足够“安全”,但团队还打算继续加码。
经过研究,他们在芯片内部增加了计算机视觉CV加速器以及视频编解码加速器,可创新性地大幅减小AI芯片和x86 CPU之间的交互和等待。
即便因此而增加了两个复杂的自研模块,团队仍然在计划的6个月时间里完成了从架构确定到验证以及流片的全部流程。
2021年9月10日,紫霄顺利点亮。
在图片和视频处理、自然语言处理、搜索推荐等应用场景下,这款芯片打破了制约算力发挥的瓶颈点,最终在实际业务场景性能表现达到了业界标品的2倍。
独立自研,“沧海”一笑
AI小分队给自己芯片取名“紫霄”,而视频编解码则取名“沧海”,颇有海天相接之意。
不同于蓬莱和紫霄主打AI,沧海是一款视频转码芯片。
如果说当年QQ相册图片的转码问题是蓬莱团队做硬件的最早契机,那视频编解码小分队在这个方向上的继续 探索 ,正是完成了一次对初心的呼应。
不同的是,“沧海”的应用场景已经远超当年的范畴。
当多媒体业务从图片时代进化到音视频直播时代,天量的4K/8K超高清的数字内容如潮水一般持续冲击着云计算基础设施。
每增加一个比特的数据,都会带来相应的转码算力和CDN带宽成本。
这是一道直观而严峻的数学题,而沧海小分队的解题目标也非常清晰,那就是要做一款业界最强的视频转码芯片,把压缩率发挥到极致。
好在,腾讯丰富的多媒体应用场景,以及腾讯云覆盖的众多直播互动头部客户,为沧海的研发提供了得天独厚的分析和验证条件。
团队先是推出了沧海的核心自研模块——硬件视频编码器“瑶池”,并决定在沧海完成研发之前给瑶池一次大考。
这个大考就是2020年的MSU世界编解码大赛,该大赛由莫斯科国立大学(MSU)主办,十多年来一直是全球视频压缩领域最具影响力的顶级赛事,吸引了包括英特尔、英伟达、谷歌、华为、阿里和腾讯在内的国内外知名 科技 企业参与。
结果是,瑶池实现1080P@60Hz的视频实时编码,力压群雄获得了SSIM (结构相似性)、PSNR(峰值信噪比)和VMAF(视频多方法评估融合)等各项客观指标评测第一名,以及人眼主观评价第一的好成绩,相比第二名领先了一个身位。
经此硬仗,沧海在技术上得到了充分检阅。
2022年3月5日,Derick和他带领的视频编解码小分队收到流片回来的芯片“沧海”,又正逢深圳因疫情而全面远程办公。
他们申请特批进入空空荡荡的办公楼。
这情景,和两年前点亮蓬莱时何其相似。
不曾想到,点亮蓬莱时的一波三折,同样重现。
克服了一些调试中的意外,在一片欢呼中,腾讯的第三款芯片、同时也是完全自主研发的第一款芯片沧海成功点亮。
化沧海为一粟。
沧海最终实现以更小的数据量、更小的带宽提供相同质量的视频,压缩率相比行业最佳表现还提高了30%以上。
从蓬莱到紫霄再到沧海,从28纳米工艺到12纳米工艺,从8个人发展到100多人,从仿真工具一无所有到“天箭验证平台”正式落成,从努力跟上合作伙伴的节奏到独立做完全SOC。
两只小分队胜利会师。
蓬莱团队,完成了一场“芯”路进化。
“100G”时代,双木参天
躬身跳进造芯大潮的,不是只有云架构平台部。
在多媒体、AI处理积极求变的同时,底层的云服务器也面临着相似的问题:当软件优化带来的性能提升无法让产品拥有区别于竞品的明显竞争力时,如何让性能突破现有天花板?
2019年,腾讯迎来云计算业务上的里程碑——云服务器规模突破了100万。
腾讯云副总裁、腾讯网络平台部总经理邹贤能敏锐地观察到,随着服务器接入带宽不断提升,服务器用于网络处理的CPU资源也越来越多。
能否以更低成本的方式来实现服务器网络处理,同时还提供更高的网络性能?腾讯的网络平台部也将目光投向了软硬协同与硬件加速。
面对这样“既要、又要”的挑战,邹贤能决定给服务器做个减法:“把网络数据处理的负担从CPU卸载出来”。
“智能网卡”的想法就这样诞生了。
所谓智能网卡,一方面像普通网卡一样肩负起服务器的对外网络访问,实现不同服务器和数据中心之间的网络互联。
另一方面,它额外带有CPU/FPGA/内存等智能单元,能分担一部分服务器的虚拟化计算任务,实现服务器整体网络和存储性能的加速。
换句话说,网络平台部要做的事,是要在网卡里新装一个服务器。
一开始,团队希望找到一款现成的商用板卡降低工作量。
网卡硬件负责人Hayden牵头开展方案论证和调研,但商用芯片的加速引擎不支持私有协议成为当时直面的第一大挑战,也是最大的障碍。一些著名的网卡设备商听了腾讯的要求就摇头:
“现在网卡的功能很简单,你们这个要求太复杂了,很难实现的。”
还有些直白地质疑:“网卡数量这么多,可靠性要求高,你们自己搞得定吗?”
难道智能网卡项目刚起步就要流产?
邹贤能给团队指明了方向:“既然智能网卡是云数据中心追求极致性能与成本的关键部件,如果市面上没有满足腾讯需求的产品,那我们就自己造一个。”
方向明确之后,路线也很快清晰起来:先从基于FPGA自研智能网卡起步,再开展智能网卡芯片研发。
2020年9月,腾讯第一代基于FPGA的自研智能网卡正式上线,命名为“水杉”,寄寓着团队希望产品可以像这种珍稀乔木一样适应性强、快速生长。
疫情期间各种突发需求砸来,初生的水杉没有被挑战压弯。
Hayden回忆道,一个大客户本身采用了UDP音视频协议,在属性上是“不可靠”、允许丢包的,极大地依赖网络吞吐和稳定性,却要求高并发、高质量的音视频传输效果。
水杉智能网卡迎难而上,通过大幅提升服务器的网络性能,帮助该客户完成了24小时零丢包的极限压力测试,稳定上线运行,交出了一份漂亮的答卷。
水杉投入应用后,第二代智能网卡“银杉”的研发工作也紧锣密鼓地启动,并于2021年10月正式上线。
这一代智能网卡的网络端口翻了一番,达到了2*100G。
在又一颗参天大树的支撑下,腾讯云对外推出了业界首款自研第六代100G云服务器。
它的计算性能提升最大220%、存储性能最大提升100%。
单节点接入网络带宽相比上一代最大提升4倍,延时下降50%。
“两棵树”在网络硬件卸载上取得的巨大收益,令团队兴奋不已。
当FPGA路线逐渐逼近性能和功耗的瓶颈,网络平台部决定再一次把主动权掌握在自己手里。
腾讯的第四款芯片,也是首款智能网卡芯片应运而生,它也有一个 “仙气十足”的名字——“玄灵”。
“玄灵”乍现,芯事未完
按照计划,这款7纳米工艺的芯片将在2022年底流片。
Hayden受命快速组建起了玄灵芯片研发团队,不断挑战多个“mission impossible”。
从性能指标来看,玄灵支持设备数量将提升到10K以上,相对商业芯片提升6倍。
同时,它的性能相对商业芯片也可提升4倍,通过将原来运行在主机CPU上的虚拟化、网络/存储IO等功能卸载到芯片,可实现主机CPU的0占用。
这颗短小精悍的芯片,充分诠释了面向未来极致性能的“玄”,与面向各类业务需求灵活加速的“灵”。
目前,玄灵项目正在紧锣密鼓地进行智能网卡流片前的验证和测试,打造腾讯云下一代高性能网络基础设施;
蓬莱实验室的AI推理芯片紫霄和视频转码芯片沧海则将量产,与腾讯业务深度融合应用;
还有一些新的芯片项目也在酝酿成长,继续 探索 有需要的技术方向,丰富这一本“山海经”。
腾讯海量业务面临的全新挑战,以及云计算高速发展的必然要求,“倒逼”腾讯走上了这条造芯之路。
这些从业务需求出发的芯片,必定会深入现实应用来证明自身的价值。
“我们不是无中生有、拍脑袋要去做芯片。
我们一开始就知道,腾讯的需求足够大,足够我们去做这件事。
”卢山说道。
从2010年起,腾讯就开始以云服务的方式对外开放自身的数字技术与连接能力,奔赴这场产业数字化转型升级的时代大潮。
躬身入局,腾讯看到深度的数实融合正在引领全真互联的技术趋势。
而在腾讯之外,中国的 科技 公司们正在向创新的深水区挺进,突破瓶颈的努力显得愈发重要。
无论是数实融合还是上游创新,硬 科技 的海面上一片百舸争流,它们都在 历史 的浪潮奋楫中流。
在这场大潮中置身事内,腾讯的芯事必然在星辰大海中得到回响。