介绍
机器学习 (ML) 已成为现代世界不可或缺的一部分,从个性化推荐到复杂科学模拟,其应用无处不在。随着 ML 模型变得越来越复杂,对其计算能力和数据吞吐量的需求也在迅速增长。InfiniBand (IB) 是一种高速网络技术,专为满足现代 ML 工作负载的这些要求而设计。
InfiniBand 的优势
- 高带宽:InfiniBand 提供高达 200 Gb/s 的带宽,比传统以太网快几个数量级。
- 低延迟:InfiniBand 的延迟极低,通常在微秒范围内,使 ML 模型能够以最快的速度进行通信和处理数据。
和模型。
案例研究
亚马逊云科技 (AWS) 使用 InfiniBand 加速其 ML 工作负载,将模型训练时间减少了高达 50%。谷歌使用 InfiniBand 为其 TensorFlow ML 框架提供支持,大幅提升了性能和可扩展性。
结论
InfiniBand 是一种强大的技术,能够为机器学习应用提供所需的性能和可扩展性。其高带宽、低延迟和 RDMA 功能使其成为加速数据分析和模型开发的理想选择。随着 ML 继续改变各个行业,InfiniBand 肯定会成为推动这一革命的核心技术。
云知声 Atlas 超算平台: 基于 Fluid + Alluxio 的计算加速实践
云知声是一家专注于物联网人工智能服务的公司,其AI技术栈涵盖了信号、语音、图像、文本的感知和表达能力,以及知识、理解、分析、决策等认知技术,致力于多模态人工智能系统的发展。
云知声的Atlas超算平台作为底层基础设施,支持AI领域的模型训练与推理服务的开展。
平台借助Kubernetes架构进行核心功能的研发,构建了一套浮点处理能力超过10 PFLOPS(一亿亿次/秒)的AI超级计算服务平台,兼容主流机器学习架构,支持语音、语言、大数据、多模态等核心技术的高效研发,并向中小微企业和院校机构开放算力与存储资源,提供定制化计算服务。
Atlas计算平台采用计算与存储分离的架构,其存储服务器、计算服务器之间以及计算与存储服务器之间的底层网络架构由100GB的InfiniBand进行互联。
平台模型训练数据存储系统由多套PB级的高性能分布式文件系统Lustre组成,Lustre系统兼容POSIX接口,多种深度学习框架能够直接进行数据读取。
然而,平台在数据访问效率低与底层存储带宽瓶颈等问题上遇到了挑战,如存储宽带瓶颈、海量小文件问题、数据种类多以及数据冗余等。
为应对存储总带宽瓶颈和减少元数据服务器的压力,云知声进行了探索与研发,包括限制每个计算节点的客户端带宽以及每个用户的UID/GID限制带宽、聚合大文件、任务调度器重构和多级缓存等早期解决方案。
然而,这些方法在灵活性和充分利用GPU计算能力方面存在局限性。
为解决存储瓶颈和数据访问效率问题,云知声开始调研Alluxio,并通过测试发现Alluxio能够满足当前需求,解决平台存在的几个痛点。
Alluxio引入了一层缓存层,将底层存储压力转移到各个计算节点的内存或本地硬盘中,用户任务可享受本地存储带来的速度提升优势,同时兼容分布式文件系统与本地硬盘优势。
Alluxio与Fluid的结合为云知声提供了全新的数据集管理方式,缓存数据集与云原生资源一样,能够被Kubernetes进行相应的分配与调度,有效解决了早期缓存与Kubernetes使用方式独立的问题。
最终架构采用Alluxio作为Fluid的缓存加速引擎,负责底层分布式文件系统到计算节点本地缓存介质的数据迁移以及缓存管理,为应用程序提供数据加速功能,而Fluid负责缓存与应用的编排,将缓存操作转移到平台层进行智能化处理。
引入Alluxio和Fluid架构后,云知声在自研的模型训练任务提交工具atlasctl中集成了Fluid功能,为用户屏蔽了一些复杂的概念,用户只需通过atlasctl cache create并指定添加一些参数信息即可创建缓存数据集,从而简化了用户的使用体验。
在具体场景适配方面,云知声解决了权限控制、数据挂载、多个挂载点支持、透明命名机制以及缓存预热等问题,并对Alluxio提供了hostpath与nonroot支持,多个挂载点支持,透明命名机制和缓存预热功能,这些特性极大地提高了集群的GPU利用率,减少了首次缓存时的元数据同步耗时,并优化了参数调优,为业务测试提供了显著提升。
通过引入Fluid+Alluxio新架构,云知声平台取得了显著的收益,未来将继续与社区紧密合作,深入研究包括高性能计算、分布式文件存储、分布式缓存等领域的技术,以持续优化和提升平台性能。
全球医药研发效率是如何实现指数级提升?
蓝海大脑深度学习液冷服务器研究人员表示:在 NVIDIA 针对医疗行业的全栈加速计算平台的赋能下,来自全球的药物研发企业,正在跨越曾经的计算鸿沟,实现研发效率的指数级提升:AI 制药公司 Entos 在 Clara Discovery 的帮助下,利用自主开发的 OrbNet 深度学习架构将蛋白质和候选药物之间的化学反应模拟速度提高 1000 倍,从而在三个小时内就完成了原本需要超过三个月时间的工作量。
现已加入 NVIDIA 的初创公司 Parabricks 在对序列基因组中的关键标志物和异常值检测时,使用 NVIDIA DGX 人工智能超级计算机将遗传信息分解成微小的单独碎片进行处理,成功把原先需要几天完成的工作缩短到半小时以内,效率提升超过 50-80 倍。
全球化学模拟软件开发领导者 Schrödinger 通过采用 NVIDIA DGX 系统提升计算药物研发平台的速度和准确性,实现对数十亿分子快速、准确的评估,加速新的治疗方法的开发。
生物技术公司 Recursion 通过部署基于 NVIDIA DGX SuperPOD 参考架构的超级计算机 BioHive-1 ,使其能够在一天内便能运行完成深度学习项目,而之前使用他们已有的集群完成该项目需要一周以上。
初创公司 Peptone 使用基于 NVIDIA DGX 系统、BlueField-2 DPU 和 NVIDIA InfiniBand 网络构建的 NVIDIA DGX SuperPOD 集群 Cambridge-1 超级计算机,能够在几个小时内,针对数百万种蛋白质并行地执行高吞吐量推理 ,并基于这些计算结果,研发针对特定 IDP 的专有创新药。
初创企业 PrecisionLife 借助 NVIDIA GPU ,可以在短短几个小时内分析 10 万名患者的数据,这在以前是不可能实现的, 这使得其可以在大型患者群体中识别具有匹配疾病驱动因素、疾病进展和治疗反应的亚群,帮助研究人员选择正确的药物研发目标、为个人选择正确的治疗方式并为临床试验选择合适的患者。
以 AI 驱动的生物医药科技企业英矽智能在 NVIDIA 加速计算平台的帮助下,仅用时不到 18 个月,就实现了从靶点发现、分子生成和设计、体内体外疗效确认及安全性评估、到提名临床前候选化合物的早期药物发现过程,相比传统方法所需的四年半左右的耗时,节约了三分之二的时间,及花费成本也远低于传统的方式。
“AI+ 冷冻电镜” 驱动的新型药物研发企业水木未来在使用冷冻电镜预处理图像时,借助 NVIDIA GPU 计算平台,样品筛选、样品质量监控和数据采集的效率提升高达 10 倍以上,大大降低了药物研发的成本。
新一代机器学习+生物技术初创企业燧坤智能借助 NVIDIA GPU 计算平台,使其开发的 AI4D 线上服务平台的计算效率和模型训练速度有超过 10 倍的提升,对靶点的定向分子进行生成与筛选、分子的类药性及成药性预测效率均有巨大帮助,大幅缩减了药物研发后期投入,提高了药物临床及上市成功率。
凭借数据中心级别的全栈能力,NVIDIA 针对医疗健康领域也拥有丰富的的全栈加速计算方案,除了 Clara Discovery,NVIDIA 还有针对医疗设备、医学影像、基因组学和患者看护需求的 Clara Holoscan、Clara Parabricks 以及 Clara Guardian 等针对不同医疗应用场景的解决方案。
从传统医药巨头到初创企业,越来越多的全球医疗企业选择 NVIDIA 加速计算平台来提升AI生产力,降低研发成本。
Million-X 百万倍计算性能飞跃的愿景,已经在医疗健康以及更多关乎人类未来褔祉的领域落地生根。
未来,只要人类探索科技,发现未知的脚步还在继续,加速计算的梦想就永远不会停息。
谈谈Google TPUv4处理器的硬件结构、计算范式与SuperPod互连拓扑--部分细节对比Nvidia
TPU v4架构解析:设计思想与计算范式TPU v4的硬件设计旨在加速机器学习任务,特别针对嵌入式硬件优化。
其官方论文提供了详细信息。
历代TPU处理器的演进,从TPUv1到TPUv5,展现出对AI计算范式、算力调度和集群开销的深入理解。
TPU v4的硬件结构针对AI计算范式进行优化。
从推理到训练,TPU v4在硬件层面更加关注并行化规模和性能。
TPU v2引入了激活管道的改进,将非线性运算单元从专用硬件改造成可编程的向量单元,与矩阵乘法单元直接相连,提高了编译器和开发者的工作效率。
TPU v2还改变了内存架构,将DDR3内存更改为与向量内存和HBM直连,以适应训练任务的数据读写需求,提高了速度并减少了延迟。
HBM介质的使用,使得参数读写速度比DDR3快了20倍。
此外,通过增加更多的互联用于TPU之间的连接,构建更大的Pod,显著优化了性能。
TPU v4i(TPUv4 Lite)芯片专注于推理任务,尽管面临兼容性问题,但在推理优化上达到了极致,并提出了一些经典优化策略。
硬件设计与软件栈的结合,使得TPU v4能够高效地加速Transformer等MLP密集型计算。
TPU v4的硬件架构针对Transformer等ML模型的计算特性进行了优化,包括内存访问模式、张量大小、数据重用结构、算力密度、片内/片外I/O互连拓扑及互连开销。
TPU v4在设计时考虑了Transfomer结构的适配与优化,增加了针对MLP和嵌入式工作负载优化的组件。
TPU v4中的SC稀疏核心(SparseCore)提供了针对嵌入层的专用架构,支持稀疏计算模式,极大提高了并行灵活性。
每个SC核心还包含Flush单元,用于在反向传播过程中高效写入参数,优化了数据流和计算效率。
TPU v4 SuperPod互连拓扑的优化,使其在大规模并行计算和TCO成本方面表现出色。
TPU v4可以在单个Pod内扩展到4096颗芯片,实现高达1126 ExaFLOP的计算能力。
对比Nvidia的算力密度和网络成本,TPU v4展现出更高的性能与成本效率。
TPU v4的光互连网络(OCS)提供了低延迟、高带宽的互连解决方案,使得在大规模集群中实现高效通信成为可能。
与Nvidia的Infiniband相比,OCS网络在吞吐量、功耗和成本方面表现出优势,优化了算力密度和网络成本。
在设计TPU v4时,Google考虑了硬件与软件的协同优化,通过自研的光路开关芯片(Palomar)实现了数据中心级的可配置光互连。
这种设计在吞吐量、功耗和成本方面带来了显著提升,使得TPU v4在性能与TCO成本方面具备竞争力。
总结,TPU v4通过硬件优化、专为AI计算范式设计,以及高效的互连拓扑,实现了在AI工作负载上的性能和成本优势。
这展示了Google在AI基础设施领域对系统级设计的深入理解与创新。