云服务器和量子计算是两项快速发展的技术,它们有潜力改变科学发现的方式。通过结合云服务器的按需可扩展性和量子计算的强大计算能力,科学家们可以解决以前无法解决的复杂问题。
云服务器
云服务器是一种虚拟服务器,存储在远程数据中心中。与本地服务器不同,云服务器可以按需访问,并且用户只需为他们使用的资源付费。这使得云服务器成为需要大量计算能力却不想投资昂贵硬件的科学家的理想选择。
量子计算
量子计算是一种利用量子力学原理进行计算的技术。与传统计算机使用比特表示信息不同,量子计算机使用量子比特,它可以同时处于 0 和 1 的状态。这使得量子计算机
从顶会层面看量化!计算机顶级会议大盘点(下)
对于刚入门的科研工作者来说,选择合适的研究方向并学习必要的背景知识是进行创新的基础。
实时了解研究进展是跟上总体步伐的关键,因此阅读顶级会议的优秀论文是研究的前奏。
本期将聚焦相对传统领域的计算机方向。以下列出了几个顶级会议,以供有需求的读者选择学习:
这些顶级会议覆盖了计算机科学的多个领域,为研究者提供了展示创新、交流思想的平台。
了解这些会议,有助于科研工作者把握各自领域的发展前沿,推动学术与技术进步。
Google深度揭秘TPU:一文看懂运算原理,以及为何碾压GPU
发布TPU论文后,Google在谷歌云官方博客上再次发文,详细阐述了TPU的运算处理过程,并对比了其与CPU、GPU和核心的差异。
量子位编译了这篇文章的要点,原文/blog/b…李林 舒石 编译整理量子位 报道 | 公众号 QbitAIGoogle提供的服务,如搜索、街景、照片、翻译等,都采用了TPU(张量处理器)来加速背后的神经网络计算。
△ 在PCB板上的Google首款TPU和部署了TPU的数据中心去年Google推出TPU并在近期对这一芯片的性能和架构进行了详细的研究。
结论是:TPU与同期CPU和GPU相比,可提供15-30倍的性能提升,以及30-80倍的效率提升。
这意味着,Google的服务可以大规模运行于最先进的神经网络,同时把成本控制在可接受的范围内。
以下内容将深入解读Google TPU中的技术,并讨论如何实现更出色的性能。
通往TPU之路早在2006年,Google就开始考虑为神经网络构建专用集成电路(ASIC)。
2013年,这一需求变得更加紧迫,当时Google意识到快速增长的计算需求可能导致数据中心数量翻番。
通常而言,ASIC的开发需要耗时数年。
但TPU从设计到验证、构建和部署到数据中心仅需15个月。
TPU ASIC采用28nm工艺制造,主频700MHz,功耗40W。
为了快速将TPU部署到现有服务器中,Google选择将其作为外部扩展加速器,然后插到SATA硬盘插槽中使用。
TPU通过PCIe Gen3 x16总线与主机相连,有效带宽为12.5GB/s。
用神经网络预测要说明TPU的设计思路,需先简介神经网络的计算。
这是一个TensorFlow Playground的例子。
用于训练神经网络以对数据进行分类,估计缺失数据,或推断未来数据。
对于推断,神经网络中的每个神经元都进行如下计算:△ 神经网络将输入数据与权重矩阵相乘,并输入激活函数例如,对于有三个输入数据和两个全连接神经元的单层神经网络而言,需要将输入和权重进行六次相乘,并得出两组乘积之和。
这个乘法和加法序列可以写成一个矩阵乘法,然后通过激活函数进一步处理矩阵的输出。
在更复杂的神经网络架构中,乘法矩阵通常是计算量最大的部分。
实际业务中需要多少次乘法运算?2016年7月,Google团队调查了六个有代表性的神经网络应用,结果如下表所示:如上表所示,每个神经网络中的权重数量从500万到1亿不等。
每一个预测都需要许多步的输入数据和权重矩阵相乘,并输入到激活函数中。
总而言之,计算量超大。
作为优化的第一步,Google应用了一种称为量化的技术进行整数运算,而不是在CPU或GPU上对所有数学工作进行32位或16位浮点运算。
这能减少所需的内存容量和计算资源。
神经网络中的量化通常而言,神经网络的预测不需要32位或16位浮点计算精度。
通过一些方法,可以用8位整数对神经网络进行预测,并保持适当的准确度。
所谓量化,就是一种使用8位整数来近似预设的最小值和最大值之间任意数值的优化技术。
△ TensorFlow中的量化量化是降低神经网络预测成本的利器,同时带来的内存减少也很重要,特别是对于移动和嵌入式部署。
例如,在Inception中应用量化后,这个图像识别模型能从91MB压缩到23MB,成功瘦身四分之三。
使用整数而不是浮点计算,大大减小了TPU的硬件尺寸和功耗。
一个TPU包含65,536个8位整数乘法器。
云环境中使用的主流GPU通常包含数千个32位浮点乘法器。
只要能用8位满足精度需求,就能带来25倍以上的性能提升。
RISC,CISC和TPU指令集可编程性是TPU的另一个重要设计目标。
TPU不是设计用来运行某一种神经网络,而是要能加速许多不同类型的模型。
大多数当代CPU都采用了精简指令集(RISC)。
但Google选择复杂指令集(CISC)作为TPU指令集的基础,这一指令集侧重于运行更复杂的任务。
我们来看看TPU的结构图。
TPU包括以下计算资源:为了控制MUX、UB和AU进行计算,Google定义了十几个专门为神经网络推理而设计的高级指令。
以下是五个例子。
简而言之,TPU设计封装了神经网络计算的本质,可以针对各种神经网络模型进行编程。
为了编程,Google还创建了一个编译器和软件栈,将来自TensorFlow图的API调用转化成TPU指令。
△ 从TensorFlow到TPU:软件堆栈矩阵乘法单元的并行计算典型的RISC处理器提供简单计算的指令,例如乘法或加法。
这些是所谓的标量(Scalar)处理器,因为它们每个指令处理单一运算,即标量运算。
即使主频千兆赫兹的CPU,仍然需要很长时间才能通过一系列标量运算来完成大型矩阵的计算。
改进的方法就是矢量(Vector)运算,同时针对多个数据元素执行相同的操作。
GPU的流处理器(SM)就是一种高效的向量处理器,单个时钟周期内可以处理数百到数千次运算。
至于TPU,Google为其设计了MXU作为矩阵处理器,可以在单个时钟周期内处理数十万次运算,也就是矩阵(Matrix)运算。
TPU的核心:脉动阵列MXU有着与传统CPU、GPU截然不同的架构,称为脉动阵列(systolic array)。
之所以叫“脉动”,是因为在这种结构中,数据一波一波地流过芯片,与心脏跳动供血的方式类似。
如图所示,CPU和GPU在每次运算中都需要从多个寄存器(register)中进行存取;而TPU的脉动阵列将多个运算逻辑单元(ALU)串联在一起,复用从一个寄存器中读取的结果。
MXU中的权值阵列专门为矩阵乘法运算进行了优化,并不适用于通用计算。
△ 脉动阵列中,输入向量与权值矩阵相乘△ 脉动阵列中,输入矩阵与权值矩阵相乘MXU的脉动阵列包含256 × 256 = 65,536个ALU,也就是说TPU每个周期可以处理65,536次8位整数的乘法和加法。
TPU以700兆赫兹的功率运行,也就是说,它每秒可以运行65,536 × 700,000,000 = 46 × 10^12次乘法和加法运算,或每秒92万亿(92 × 10^12)次矩阵单元中的运算。
△ TPU中的MXU我们对CPU、GPU和TPU的每周期算术运算量进行一下对比:这种基于复杂指令集计算(CISC)的矩阵运算设计,实现了出色的性能功耗比:TPU的性能功耗比,比同时期的CPU强83倍,比同时期的GPU强29倍。
极简&确定性的设计极简这一点,在Google之前发布的TPU论文第8页提到过。
与CPU和GPU相比,单用途的TPU就是一个单线程芯片,不需要考虑缓存、分支预测、多道处理等问题。
TPU的设计之简洁,从冲模平面图上就能看出来:△ 黄色代表运算单元;蓝色是数据单元;绿色是I/O,红色是控制逻辑单元。
与CPU和GPU相比,TPU的控制单元更小,更容易设计,面积只占了整个冲模的2%,给片上存储器和运算单元留下了更大的空间。
而且,TPU的大小只有其他芯片的一半。
硅片越小,成本越低,良品率也越高。
而确定性,是单用途带来的另一个优势。
CPU和GPU需要考虑各种任务上的性能优化,因此会有越来越复杂的机制,带来的副作用就是这些处理器的行为非常难以预测。
而用TPU,我们能轻易预测运行一个神经网络、得出预测需要多长时间,这样,我们能让芯片以吞吐量接近峰值的状态运行,同时严格控制延迟。
以上面提到的MLP0为例,在同样将延迟控制在7毫秒之内的情况下,TPU的吞吐量是CPU和GPU的15到30倍。
△ 各种处理器上每秒可运行的MLP0预测下面,是TPU、CPU、GPU在六种神经网络上的性能对比。
在CNN1上,TPU性能最为惊人,达到了CPU的71倍。
总结如上文所述,TPU性能强劲的秘诀,是因为它专注于神经网络推断。
这使得量化选择、CISC指令集、矩阵处理器和最小设计成为可能。
神经网络正推动计算模式的转变,Google预计未来几年中,TPU将成为快速、智能和价格实惠的重要芯片。
作者:Kaz Sato(谷歌云Staff Developer Advocate)Cliff Young(谷歌大脑软件工程师)David Patterson(谷歌大脑杰出工程师)
量子计算的再现危机:马约拉纳费米子
寻找马约拉纳信号的实验是通过将纳米线放入能够将其冷却到接近绝对零度的稀释冰箱中进行的。
资料来源:HGA Architects and Engineers 探测一种新型量子粒子马约拉纳费米子(Majorana fermion)的竞赛蒙上了阴影。
这种量子粒子可以为量子计算机提供动力。
作为一个在这个领域工作的人,我开始担心,在一系列错误的开始之后,马约拉纳领域的很大一部分是在欺骗自己。
几个声称已经探测到马约拉纳粒子的关键实验,最初被认为是突破,但还没有得到证实。
最近的一个案例以高调撤回《自然》(见《自然》591,354-355;这是我和同事文森特·穆里克共同发起的,他是澳大利亚悉尼新南威尔士大学的物理学家。
我们在从原始实验中获得了未纳入论文的额外数据后提出了担忧。
这事关重大。
马约拉纳粒子理论上是它们自己的反粒子,意大利物理学家埃托雷·马约拉纳(Ettore Majorana)在1937年就预测到了这一点。
计算机巨头微软公司希望利用马约拉纳粒子来建造一台可靠的量子计算机:这些粒子可以制造出异常稳定的量子比特。
围绕它们的科学兴奋不亚于引力波和希格斯玻色子。
在实验上,研究人员对马约拉纳岛是否已经被探测到存在分歧,更不用说它们是否是量子计算的资产了。
随着对这种说法的怀疑逐渐蔓延至鉴赏家之外,该领域正面临着声誉受损的风险,尽管其前景尚未被开发。
在实验室中生产马约拿鱼非常困难。
实验结合了纳米技术、超导、设备工程和材料科学等前沿领域。
在最先进的方法中,研究人员必须首先培育出一个纳米线晶体——这本身就是一项壮举——以产生一个直径为100纳米(人类头发宽度的千分之一)的原子柱。
然后,他们必须将电线连接到一个足够灵敏的电路上,以测量通过它的单个电子。
整个实验必须在绝对零度以上大约百分之一度的温度下,在一个磁场是地球磁场倍的环境中进行。
在这些极端情况下,当导线中所有的电子都被磁化时,马约拉纳粒子就会从导线两端出现。
理论上是这样。
超过100个组织已经尝试过了。
据报道,有24人在马约拉纳岛示威。
它们通常以特征电子信号的形式出现:随着纳米线上电压的变化,电流会出现一个狭窄的峰值。
我是第一批观察到这个现象的团队的成员之一,那是在2012年。
不久,更多的报纸出现了。
对电流量子化值的探测,先是在理论上预测,然后在2017年的《科学2》(Science2)和2018年的《自然3》(Nature3)上发表的实验中报告,被许多人解释为马约拉纳岛存在的最终证据。
2020年,在进行了重复实验后,这些观察结果受到了仔细审查。
《科学》杂志发表了一项由宾夕法尼亚州立大学研究人员在大学公园领导的实验,与2017年的报告相矛盾。
我的团队复制了2018年《自然》研究中的图案,但证明它们不一定来自马约拉纳岛。
我们交叉检查了同一根纳米线的两端,但发现只有一端有电流峰值。
这违背了马约拉纳人总是成对出现的理论的基本预期。
反驳的速度正在加快:研究人员还无法证实两篇声称在纳米线中发现马约拉纳机制的独立论文的发现。
一种新的铁基超导体,Fe(Te,Se)的当前峰值的报道,被科学和自然通讯杂志上的Majoranas10-12所引用,在今年的物理评论快报发表之后,将需要变得更加细致。
教训:马约拉纳粒子并不是产生当前峰值信号的必要条件。
至少从2014年起,我们已经知道了一些更普通的解释,比如其他非Majoranas14的量子态,由纳米线缺陷引起的意外信号,或者是令人着迷但之前 探索 过的众多电子的合作行为(见“混合信号”)。
然而,积极的文件不断出现,甚至没有提到其他解释,造成的印象是马约拉纳的乐观主义者和悲观主义者之间的激烈辩论。
作为一个发表过和评论过积极和消极的马约拉纳主张的人,我感觉到了一个更广泛的问题。
这场争论已经开始削弱人们对让电流通过量子物体的基本实验方法的信心,尽管这项强大的技术已被用于许多重大发现,包括获得诺贝尔奖的超导性观察、量子霍尔效应和隧道效应。
它已经开始影响我了。
未来的研究生会问我是否要停止马约拉纳的研究。
Grant审稿人认为是方法论而不是选择性的数据报告导致了这个领域的混乱。
在我看来,通常被称为“量子传输”的基本方法并没有错。
我觉得有选择性的数据展示是主要问题。
如果所有的论文都包含完整的或至少是适当选择的数据集,量子物理学家就可以给出正确的解释,不管马约拉纳岛或不。
但我认为,研究人员是在挑三拣四——把注意力集中在与马约拉纳理论一致的数据上,而把不一致的数据放在一边。
一个很好的例子是:《科学》杂志(Science)在2020年发表的一篇关于Fe(Te,Se)的论文中报告了电流的量化行为,在评估的60个漩涡中,作者在单个漩涡中看到了这种行为。
我认为,一些可能不够严格的期刊和审稿人可以支持数据选择研究人员。
(当被问及2020年的论文时,《科学》杂志的一位发言人表示,结果和结论,包括解释所观察到的量化的替代机制,都被仔细地介绍了出来。
)我和其他审稿人一次又一次地主张,期刊不要基于选择性的数据展示发表论文,而只看到它们出现在其他(有时是同一种)期刊上。
有时候,如果一个图表能够说明全部情况,那么就没有必要呈现所有的数据。
但是,对于马约拉纳粒子来说,仅仅通过数据搜索来确定正确高度的峰值是不够的,尤其是在存在替代理论的情况下。
选择偏见很容易在假设驱动的实验研究中占据主导地位。
“最好的”数据通常被认为是那些符合理论的数据。
因此,偏差很容易被排除为实验或人为错误,从而被排除。
另一个问题是,审查马约拉纳主张所需的同行审查范围太广。
在任何多学科领域,审查都是困难的。
裁判往往是某一学科的专家,很难评判其他学科,这就留下了空白。
例如,一个理论物理学家可能对评估计算很满意,但对实验过程却不满意,而一个了解如何生长纳米线的材料科学家可能会跳过理论部分。
但要正确评估这项研究,需要对整个研究的整体观点。
这是一个再熟悉不过的故事。
《自然》杂志对化学、生物学、物理学、工程学和医学科学的“再现性危机”进行了调查(见《自然》533,452-454;(2016年),选择性报告结果是罪魁祸首。
几十年来我们都看到过这种情况。
物理学家罗伯特·米利根(Robert Millikan)在一个多世纪前的油滴实验中遗漏了一些著名的数据点。
他确实接近了电子电荷的实际值——但科学不能依赖于这种侥幸。
由于数据的选择方式,一些马约拉纳岛的论文被证明是不可靠的。
整个浓缩物质物理学界的行为规范需要更新。
只有一个解决办法,那就是全面加强问责制。
以下步骤将有助于马约拉纳岛的研究和其他领域。
公开数据。
科学家应该在存储库中公开所有数据,并遵守共享标准,比如公平(可查找性、可访问性、互操作性和可重用性)15。
有些管理是不可避免的。
现代物理实验室收集的数据量很高:计算机脚本控制设备,可能一天24小时运行。
一种补救方法是清楚地解释用于执行任何数据选择的协议——这样其他人可能会重用或审查它。
记住,数据选择是数据处理的一种形式。
期刊、资助方(包括公司)、研究实验室和大学应该要求这样的开放数据实践,就像他们在临床试验、基因组学、地球科学和其他一些学科中所做的那样。
共享数据可以提高可靠性,促进协作并加速进展。
例如,高能物理社区可以教会其他人如何分享研究协议,从而使每一篇论文都是可重复或再现的。
虽然这并不广为人知,但许多出版政策和政府研究行为守则已经要求获得进一步的数据。
值得注意的是,与其他在研究上投入巨资的国家相比,美国没有全国性的法规。
需要进一步努力才能使这种共享自动进行,而不是“应要求”进行。
正如《自然》杂志最近撤回的那篇关于马约拉纳岛的论文所表明的,看到完整的数据对于评估一项实验是至关重要的。
批评者会反驳说,简单地分享数据并不能捕捉到实验室里发生的一切,经验和洞察力——手艺——具有协议无法描述的价值。
我认为,可靠的、有用的科学是建立在可靠的过程之上的,这些过程可以被反复考察、验证和重新审查,只要有必要。
开放的过程。
审稿人需要对不寻常的主张提出更多的质疑。
结果好得令人难以置信吗?是否提供了足够的数据?是否考虑过其他解释?应该进行交叉核查,这样就更难证明一个不可靠的主张。
对于马约拉纳物理学来说,这就像比较电流峰值的磁场和电场依赖性与理论上的预期一样基本。
如果坚持这样做,这将挫败许多错误的主张。
但即使是最严格的审查也可能被忽略。
如果论文被拒绝,作者可以不理会所有的输入,将他们的手稿发送到另一个期刊。
我曾见过一些马约拉纳岛的论文,因为科学原因受到了多次负面评论和拒绝,但在另一份备受瞩目的期刊上发表的论文只有微小的改动。
开放出了名的不透明的出版程序是减少糟糕研究扩散的关键。
编辑应该承担责任:他们是做决定的人,即使他们对某篇论文的主题缺乏深入的专业知识。
每一篇被录用的论文都应该附上编辑的名字。
对于每次撤回,编辑都应该提供他们对所发生的事情的看法。
所有的期刊,特别是高影响力的期刊,都需要得到社区的监督。
编辑撤回应该被广泛应用,因为等待作者自己撤回论文可能需要很长时间。
目前,大多数期刊甚至没有能力对其论文中的错误进行自己的调查。
它们应该在研究界的帮助下建设这种能力。
马约拉纳岛的研究呢?它仍然是可行的和重要的。
但是,在我看来,关键的发现还没有被发现。
现在需要集中精力改进我们的纳米线材料、实验技术和数据分析,以及梳理出其他解释。
需要可靠的证明,粒子确实是自己的反粒子,与我们的眼睛在完整的数据。
只有到那时,我们才能准备好开发马约拉纳量子计算机。
自然592,350-352 (2021)doi:- 021 – – 8