当街做爱-人体艺术摄影 黄仁勋2万字演讲:东说念主工智能、机器东说念主和加速谋略的改日
  • 你的位置:当街做爱 > 色色 > 人体艺术摄影 黄仁勋2万字演讲:东说念主工智能、机器东说念主和加速谋略的改日

人体艺术摄影 黄仁勋2万字演讲:东说念主工智能、机器东说念主和加速谋略的改日

发布日期:2025-07-06 12:04  点击次数:108

人体艺术摄影 黄仁勋2万字演讲:东说念主工智能、机器东说念主和加速谋略的改日

人体艺术摄影

作家|AI职责坊

来源 | AI深度研究员  管千里着磨蹭慧AI+

征询合作| 13699120588

著述仅代表作家本东说念主不雅点

宽恕来到 GTC。果然了不得的一年。

咱们想在英伟达(NVIDIA)来作念这件事,是以,通过东说念主工智能的奇妙魅力,咱们要把你带到英伟达总部。我想我正在把你带到英伟达总部。你认为呢?这等于咱们职责的地方。已往这一年太精彩了,我想让你们知说念,我当今站在这里是莫得演讲稿,莫得提词器,而且我得讲好多内容。那就让咱们运转吧。

来源,我要感谢通盘赞助商,感谢通盘与会的特出东说念主士。险些每一个行业皆有东说念主参加:医疗保健行业在这里、交通行业、零卖行业,天然还有谋略机行业——每一家谋略机行业连接的企业皆在这里。是以相配相配欢喜见到你们通盘东说念主,也感谢你们对大会的赞助。

GTC 的着手是 GeForce

一切皆从 GeForce 运转。今天我在这里拿着一块 GeForce 5090。5090,难以置信,距离咱们运转研发 GeForce 照旧已往 25 年了。25 年以后,GeForce 在全球皆卖断货。这等于 90,也等于 Blackwell 这一代产物。和4090比较,你望望它的体积裁汰了 30%,散热遵守晋升了 30%,性能也极其苍劲,险些无法比较。而这背后的原因等于东说念主工智能。GeForce 把 CUDA 带给了全国,CUDA 让 AI 成为可能,而 AI 当今又回及其来澈底变革了谋略机图形学。

你当今看到的是及时谋略机图形,100% 后光跟踪。每一个像素皆经过了后光跟踪,然后东说念主工智能推断剩下的 15 个像素。联想一下:对于咱们用数学方式真实渲染出的每一个像素,东说念主工智能会推断另外 15 个像素。它必须以极高的精度来完成这一历程,让画面看起来正确,而且还要在时候维度上保执准确,这意味着在上前或向后播放时——毕竟这是谋略机图形——画面皆必须在帧与帧之间保执时候上的清静。果然不可想议。

东说念主工智能取得了杰出的进展

只是已往 10 年费力。咱们商酌 AI 的时候稍长一些,但 AI 委果进入大众视野节略是 10 年前的事情,最先从感知 AI 运转——谋略机视觉和语音识别。然后是生成式(AI)。已往 5 年里,咱们主要关注的是生成式 AI,教会 AI 如安在不同模态之间进行迁移,比如文本到图像、图像到文本、文本到视频、氨基酸到卵白质、物性到化学物资……咱们可以用 AI 生成千般内容。

生成式 AI 从根蒂上改变了谋略的方式——从"检索式谋略模子"变为了"生成式谋略模子"。已往,咱们险些通盘职责皆是事前创建内容、存储多种版块,然后在需要时去获取相应的版块。而当今,AI 能领悟高下文,领悟咱们在问什么,以及咱们苦求的含义,然青年景它所"领悟"和"知说念"的内容。要是需要,它还会检索信息来补充领悟,终末生成谜底;不再只是是检索数据,而是径直生成谜底。这从根蒂上改变了谋略的方式。

在已往几年里,谋略的每一个端倪皆被澈底鼎新。已往两三年,出现了要紧打破,也等于东说念主工智能的根人性飞跃——咱们称之为 "agentic AI"(具备自主性的 AI)。agentic AI 的兴味是,AI 领有"主动性"(agency)。它能感知并领悟面前环境的高下文,很紧迫的一丝是它能进行推理,能想考如何酬报或科罚问题,还能制定并实施筹备。它可以使用用具,因为它当今领悟多模态信息;它可以走访网站,稽查网站的文本和视频景色,致使可能播放视频,然后从该网站学到内容,领悟之后,再带着这份新常识回来完成任务。

agentic AI 的基础是推理,这在已往黑白常新的智商。接下来的一波波浪照旧在发生,咱们今天会要点商酌——那等于机器东说念主学。机器东说念主由"物理 AI"鼓吹,而"物理 AI"则是领悟物理全国的 AI。它能领悟摩擦力、惯性、因果关系、物体的"永久性"——当它看到一个物体拐到拐角处并消亡于视野除外,并不代表阿谁物体就从全国上消亡了,只是暂时看不到费力。对物理全国、三维全国的这种领悟将开辟 AI 的新纪元,咱们称之为"物理 AI",它将使机器东说念主变得可行。

每一个阶段、每一波波浪皆为咱们通盘东说念主带来新的阛阓契机,让更多新的合作伙伴加入 GTC。因此,如今的 GTC 可以说是爆满。想要容纳更多东说念主参与,就怕咱们得把圣何塞扩建了。咱们正在接力,咱们有饱胀的地盘来推广圣何塞,好让 GTC 越办越大。

我当今站在这里,但愿你们能看见我所看到的征象。咱们当今处在一个通顺场里。客岁是咱们初度回顾线下,其时的场合就像一场摇滚音乐会,那次 GTC 被称为 AI 界的"伍德斯托克"嘉会。而本年它被称为 AI 界的"超等碗"。唯一的区别在于,在这场"超等碗"里,每个东说念主皆是赢家。每年皆有更多东说念主加入,因为 AI 能科罚更多行业、更多企业的千般瞻仰问题。本年咱们会肃穆探讨 agentic AI 和物理 AI。

三大中枢问题:数据、调查和推广

从本色上说,每一波、每个阶段的 AI,皆触及三大根蒂问题。第一,如何科罚数据问题。这之是以紧迫,是因为 AI 是一种数据驱动的数据科学步调,需要用数据来学习,需要数字化的教导来学习、获取常识。第二,如安在莫得东说念主工参与的情况下进行调查。因为东说念主工骚扰是有极限的,而咱们想要 AI 能以超越东说念主类的速率来学习,险些是及时的,而且边界要大到东说念主类无法企及。是以第二个问题是:如何调查模子。第三,如何进行推广(scale)。若何找到一个算法,使得你提供越多的资源(无论是什么资源),AI 就变得越灵敏。这被称为"scaling law"(推广定律)。

已往这一年,险些总共全国在这方面皆看走眼了。AI 的谋略需求及其推广定律其实更具韧性,致使可以说是超加速。由于 agentic AI、由于推理的出现,如今咱们所需的谋略量比一年前的预期至少跳跃 100 倍。让咱们来评释一下为什么。

来源,从 AI 能作念什么运转,逆推且归:agentic AI 的中枢是推理。咱们当今已有能进行推理的 AI,它能把问题明白为若干法子。也许它会同期尝试几种方式来科罚问题,然后选拔最好谜底;也许它会用不同的步调去求解团结个问题,终末进行斥逐个致性检查;或者,它在得出谜底后,还会把斥逐从头带回方程检查一遍,比如带回二次方程望望是否真的是正确谜底,而不是像以前那样一次性简单给出一个谜底。两年前,当咱们运转使用 ChatGPT 时,天然它照旧相配神奇,但好多复杂问题或通俗问题它也经常答错,这可以领悟——它只作念了一次性输出。它笔据预调查数据(它在预调查数据中看到或学到的东西)进行一次性"输出",就像随口说出来一样。而当今咱们有了能迟缓推理的 AI,它利用"Chain of Thought"(想维链)、取多种解法里最优的和一致性检查等多种时间,一步一景色明白问题,进行推理。

色狼

由此可以想见,AI 所生成的 token数目会急剧增多。AI 的底层时间本色仍是笔据上一个 token 来预测下一个 token。不同的是,当今"下一个 token"对应的是推理的某个法子。AI 先生成第一步的一连串 token,然后把这一步的输出再次输入给 AI,用来生成第二步、第三步、第四步的推理。这样一来,AI 不再只是逐字逐句地往外"吐"token,而是生成一大段翰墨来露出推理的法子。最终产生的 token 量会大大加多,我会在稍后展示这一丝。很收缩就可能跳跃已往的 100 倍。

那么"100 倍"具体意味着什么?也许是生成了 100 倍的 token,如我刚才所说;或者,模子本人更复杂,只生成 10 倍的 token,但咱们要是想让模子具备交互性、及时性,不想等它"想考"太久让东说念主失去耐性,咱们就要把谋略速率再提高 10 倍。这样,10 倍的 token、10 倍的速率,就很是于需要 100 倍的谋略量。因此在接下来的演讲中,你们会看到推理所需的谋略量远超以往。

接下来的问题:如何教 AI 像我刚才形色的那样进行推理?如何让 AI 实施"chain of thought"?在调查中,咱们濒临两个根人性难题:1)数据从那处来?2)如何幸免"东说念主工参与"带来的截至?因为东说念主类能提供的示例数据是有限的。最近两年最要紧的打破等于"强化学习"和可考据斥逐。也等于说,当 AI 一步一景色尝试科罚问题时,咱们可以使用强化学习对它进行奖励,让它越作念越好。

例如来说,东说念主类历史上照旧科罚了许多问题,咱们知说念谜底,比如二次方程的解法,毕达哥拉斯定理,还有好多数学、几何、逻辑以及科学定理。另外咱们还有一些益智类游戏,能提供逼迫条目,比如数独 等等。咱们少见以百计的这种问题边界,可以生成数以百万计的不同例子,让 AI 少见以百计的契机去迟缓求解。通过强化学习,它会陆续获取奖励,从而发达越来越好。

因此,你把上百种不同的课题、几百万个不同的例子、再乘以上百次尝试、而每一次尝试皆要生成漫山遍野的 token,把这一切加起来就达到了数万亿的 token,用来调查模子。当今有了强化学习,咱们就能够利用"合成数据生成"的步调,以雷同"机器东说念主"的方式来教 AI。这两方面的结合给总共行业带来了巨大的谋略挑战,而你能看到总共行业也正在全力支吾。

Hopper 与 Blackwell:基础设施的爆发式增长

我接下来要展示的是 Hopper 的出货量——仅限于四大 CSP(云做事提供商):亚马逊、Azure、GCP 和 OCI。这四大 CSP 领有人人云业务。我说的还不包括任何 AI 公司、不包括初创企业、不包括企业级用户,也不包括许多其他群体。只是这四家,能让你对比 Hopper 的峰值出货量和 Blackwell(译者注:NVIDIA 新一代架构)在第一年出货的对比数据。由此你可以看出,AI 的确正在阅历一个拐点:它变得更苍劲、更具推明智商,也因此被更多东说念主使用。你可以从 ChatGPT 的使用体验看出来,当今每次绽放 ChatGPT,似乎恭候时候皆变长了,这响应了好多东说念主在使用它,而且用得很灵验。而调查这些模子、在推理中使用这些模子所需的谋略量也随之飙升。只是在一年之内——而 Blackwell 刚运转出货——你就能看到 AI 基础设施的惊东说念主增长。

这种增长也体当今总共谋略边界。这张图里,紫色的部分是分析师们给出的预测:从当今到 2030 年,全球数据中心(包括 CSP 与企业数据中心等)的老本开销会出现大幅增长。我以前就说过,我预测数据中心的开发最终会达到万亿好意思元边界,而我相配确信咱们很快会达成这一主张。这里有两个能源在同期发生:第一,绝大多数增长很可能皆是加速谋略,咱们早就知说念通用谋略照旧走到相当,需要新的谋略方式。全球正在阅历一场从"手动编写软件跑在通用 CPU 上"到"机器学习软件跑在加速器和 GPU 上"的平台鼎新。以这种方式来进行谋略,目下照旧过了拐点,咱们正看到数据中心开发的全面爆发。第二,人人也越来越意志到,软件的改日需要老本干与。这是一个相配要紧的理念鼎新。

已往咱们的模式是:先编写软件,再把软件放到谋略机上运行。而改日,谋略机本人会为软件生成 token。因此,这台谋略机更像是一台"生成 token 的机器",而不是通俗的"检索文献的机器"。也等于从"检索式谋略"向"生成式谋略"的鼎新,从已往传统方式建造数据中心,变为新的基础设施形态。我把它称为"AI 工场",因为它唯唯独个功能,等于生成这些惊东说念主的 token,然后咱们再把这些 token 重组成音乐、文本、视频、研究数据、化学配方或者卵白质……千般不同形貌的信息。全全国不仅会建造更多数据中心,还会改变数据中心的构建方式。

并非通盘谋略皆只为 AI,但一切皆将被加速

我想在这里说一丝。你们看到的这张幻灯片对我来说兴味要紧,因为多年来,你们一直在 GTC 上听我先容这些库,其实整场 GTC 讲的也等于这些。这张幻灯片等于 GTC 的中枢。事实上,节略 20 年前,咱们唯唯独张雷同的幻灯片,上头列出一个又一个库。你没法单单只加速软件,就像咱们需要 AI 框架智力创建 AI,然后对这些 AI 框架进行加速一样;对于物理、生物、多物理场、量子物理等边界,咱们也需要特殊的库和框架。咱们称之为 Cuda X 库,这些是各个科学边界的加速框架。

Ariel 是咱们针对 5G 的库,将 GPU 变成 5G 无线电。为什么不成呢?信号处理本等于咱们的刚劲。有了这个之后,咱们还能在上头重叠 AI,称为 "AI RAN"。下一代无线电聚荟萃深度融入 AI。为什么咱们要受限于信息论?频谱资源就那么多,若何打破?可以通过整合 AI。cuOpt 是用于数学优化的库,险些百行万企皆需要它,用于安排航班座位和航路、料理库存和客户、工场劳能源援助、司机和乘客配平等等,皆有多种逼迫和变量,需要在时候、收益、做事质料、资源利用率等方面作念优化。咱们英伟达也用它来作念供应链料理。cuOpt 相配苍劲,可以把已往需要数小时的职责降到几秒钟完成,这是很紧迫的,因为这样咱们就有饱胀的时候去探索更弘远的空间。咱们告示要将 cuOpt 开源。险些通盘东说念主皆在用 Gurobi、IBM CPLEX 或 FICO 等用具,咱们和这些公司皆有合作,业内对此相配兴盛——咱们行将为总共行业带来大边界加速。

PairBricks 用于基因测序和基因分析;MONAI 是全球率先的医学影像库;Earth-2 是多物理场库,用于在极高诀别率下预测局部天气;cuQuantum 和 cudaQ 则是量子谋略连接的库。咱们在这届 GTC 初度诞生了"Quantum Day",与险些通盘量子生态系统玩家皆有合作,匡助他们研究量子架构、量子算法,或者构建"经典+量子"异构体系,相配令东说念主兴盛。cu Equivariance、Tensor 并行压缩、量子化学……好多好多。这些等于在 Cuda 之上又构建了一层又一层的库,整合进千般生态系统、软件和基础设施,最终完结 AI。

我这里还有一个新的要告示:cuDSS,这是咱们的稀罕求解器,对谋略机辅助工程(CAE)很是紧迫。已往一年里发生了一件大事:咱们和 Cadence、Synopsys、ANSYS,还有一些作念系统的公司进行了合作,使险些通盘紧迫的 EDA 和 CAE 库皆能被加速。相配了不得。想想看,直到最近,英伟达还一直用运行在通用 CPU 上的那些超等慢的软件来遐想咱们我方的加速谋略机,因为咱们我方莫得针对 EDA 的高效加速软件。当今咱们终于有了,是以总共行业在向加速谋略迈进时,将被大幅提速。

cuDF 是一个面向结构化数据的 DataFrame 库。咱们当今照旧完结了对 Spark 和 Pandas 的"零改换加速"。还有 Warp,这是一款针对物理模拟的 Python 库,用于 Cuda 加速,稍后我会有个紧迫公告。以上只是加速谋略所需要的库的一个缩影。加速谋略不仅是 Cuda,咱们为 Cuda 感到骄矜,但要是莫得 Cuda 以及它弘远的装机基础,这些库对开发者就毫无兴味。使用这些库的开发者来源能获取惊东说念主的加速和可推广性;其次,因为当今 Cuda 的装置基础相配平常,险些每家云做事商、每个数据中心、每家谋略机公司皆提供 Cuda,遍布全球。因此,你若使用这些库,你的优秀软件就能被通盘东说念主使用。至此,咱们可以说加速谋略照旧过了"引爆点",是 Cuda 带来了这种可能。而这一切,也离不开在座诸君以及总共生态系统的孝敬,这等于 GTC 的兴味所在。为此,咱们作念了一个轻便的视频送给你们。

AI 的运转

AI 的确是从云运转的,这是有兴味的,因为 AI 需要基础设施——这是"机器学习"。要是科学叫"机器学习",那就需要"机器"来作念这门科学。而云数据中心巧合领有所需的基础设施,也汇聚了顶尖的谋略机科学和研究力量,是 AI 在云表迅速升起的完好环境。云做事提供商(CSP)自但是然成为早期的主要阵脚。但 AI 不会只局限在云表,它会随地吐花。接下来咱们会从多个角度探讨 AI。

云做事商天然心爱咱们的顶端时间,他们也心爱咱们领有完整的"全栈"——因为加速谋略如前所述,不是唯独芯片,也不啻有芯片和库,还需要编程模子,以及在其之上千般复杂的软件堆栈,每一层库皆像一个 SQL(IBM 在存储谋略边界立异性的东西)那样紧迫。而在 AI 边界,这样的库更多,堆栈愈加复杂。云做事商还心爱这样一丝:NVIDIA CUDA 开发者也经常是云做事商的潜在客户,因为他们最终要把软件部署在云上头向全国,是以弘远的开发者生态对 CSP 至关紧迫。

当今咱们要把 AI 带到全国的其他边际,而全全国在系统设立、操作环境、边界专用库、用例等方面皆有巨大各别。当 AI 进入企业、制造业、机器东说念主、自驾驶汽车等等边界时,需求又会不同。还有一些新兴的 GPU 云公司,节略 20 家傍边,皆是在 NVIDIA 崛起期间成立的,他们就干一件事:托管 GPU,称我方是"GPU 云"。咱们的优秀合作伙伴之一 CoreWeave 正准备上市,咱们也为他们感到自大。这些 GPU 云各有各的需求。

我个东说念主相配兴盛的一个处所是边缘端。今天咱们告示,想科、NVIDIA、T-Mobile(全球最大的电信公司之一)、Cerebras、ODC,将在好意思国构建一个面向无线电聚集的完整堆栈。这会成为咱们告示的第二条堆栈。这个全新的堆栈将 AI 带到边缘端。要知说念,每年节略有上千亿好意思元投资在无线聚集和连接数据中心中,而我深信,这些聚集的改日毫无疑问是领悟 AI 的加速谋略。AI 可以更好地顺应陆续变化的无线环境和流量状态,毫无疑问咱们会用强化学习去完结这一丝。Massive MIMO(大边界多入多出)本色上就像一个巨大的无线机器东说念主,有了 AI,天然能在信号援助上作念得更好。

咱们天然会提供连接功能,AI 笃定也会纠正通讯边界。你看 AI 是若何改变视频处理的,也看到了我之前讲的对 3D 图形的改变,同理可得咱们也会这样作念在边缘端。我对今天告示的这件事感到相配兴盛:T-Mobile、Cisco、Nvidia、Cerebras、ODC 将合作构建一整套堆栈。

AI 将进入百行万企:自动驾驶为例

AI 会进入通盘行业,早期比较典型的是自动驾驶。自从我见到 AlexNet(咱们在谋略机视觉边界已种植许久),那一刻让我深受启发、激动陈词,于是咱们全力干与自驾车时间研发。到当今咱们照旧作念了 10 多年。咱们构建的时间险些被每一家自动驾驶公司给与——他们可能只用咱们的数据中心产物(例如 Tesla 在数据中心里用好多 NVIDIA GPU),或者像 Waymo、Woven Planet既在数据中心也在车端使用 NVIDIA 的谋略机;也有少量数只在车端使用,但相配荒僻。也有东说念主把咱们总共软件栈皆用上了。

咱们和汽车行业的合作方式黑白常活泼的,看车企需求如何。咱们提供三种谋略机:调查谋略机、仿真谋略机、自动驾驶谋略机,以及它们之上的整套软件栈、模子和算法。这和咱们在前边其他行业所作念的一样。

"今天,我相配欢喜告示,通用汽车(GM)照旧选拔与英伟达 (NVIDIA) 合作,打造他们改日的自动驾驶车队。自动驾驶车辆的期间照旧到来。咱们期待与 GM 总共在三个边界中诈骗 AI:第一,用于制造——他们可以纠正分娩方式;第二,用于企业级——他们可以澈底改变他们的职责模式、遐想车辆和模拟车辆的方式;第三,用于车载——咱们将为 GM 构建并部署 AI 基础设施。对此我相配兴盛。

对于汽车安全 (Automotive Safety)

我至极自大的一丝在于汽车安全边界,尽管它很少被关注。咱们公司里面称之为 "Halos"。要完结安全,需要从芯片到系统,再到系统软件、算法以及步调论皆整合到位。从千般性到确保千般性监控,再到透明性与可评释性,通盘这些不同的理念皆必须深度镶嵌到系统及软件开发的每一个要道。我信赖咱们是全国上第一家让每一转代码皆通过安全评估的公司——有 700 万行代码经受了安全评估。不仅是代码,咱们的芯片、系统、系统软件以及算法皆要进行第三方安全评估,对方会逐行审查代码,阐发系统是在保证千般性、透明性和可评释性的前提下遐想的。咱们还在这个历程中提交了一千多份专利。在本届 GTC 中,我也相配饱读吹你们去参加 "Halos Workshop",亲眼望望为了确保改日汽车既安全又能完结自动驾驶,需要整合几许不同的因素。我为此感到相配自大,但它经常很少被商酌,是以这一次我就多花些时候来先容一下,这等于 NVIDIA Halos。

自动驾驶示例:科罚数据、调查、千般性

你们皆见过自动驾驶汽车,比如 Waymo 的 Robo-Taxi 相配了不得。咱们作念了一个视频来展示咱们所用的一些时间,如何科罚数据、调查、千般性等问题,以便利用 AI 的神奇力量,去创造新的 AI。

NVIDIA 正通过 Omniverse 和 Cosmos 来加速自动驾驶系统的 AI 开发。Cosmos 的预测与推理功能,支执 ‘AI-first’ 的自动驾驶系统,从端到端完结可调查。它通过新的开发步调——模子蒸馏、闭环调查以及合成数据生成来完成。

来源,模子蒸馏将 Cosmos 的驾驶常识,迁移为一个较小、更快的学生模子来在车内推理。老师  的政策模子会示范出最好的行驶轨迹,而学生模子领悟过屡次迭代来学习,直到它的发达险些与老师模子一样好。蒸馏历程为政策模子提供了初步的 ‘斟酌’,但复杂场景仍需进一步优化。这就需要闭环调查来微调政策模子。日记数据会被迁移为 3D 场景,并使用 Omniverse 的物理级神经重建,让模子在模拟环境中进行闭环驾驶。然后在这些场景的不同变体中测试模子的轨迹生成智商。Cosmos 的行为评估器会对模子生成的驾驶行为进行打分,从而预计其性能。重生成的场景及其评估斥逐,网罗成弘远的数据集,用于闭环调查,匡助自动驾驶系统更稳健地支吾复杂场景。终末,3D 合成数据生成时间能让自动驾驶系统顺应千般化环境。从日记数据中,Omniverse 通过领悟舆图和图像来构建高精度的四维驾驶环境,并生成真实全国的数字孪生,结合对每个像素的语义分割来辅助 Cosmos。Cosmos 会生成准确而千般化的场景,以扩大调查数据边界,进一步裁汰仿真与现实的差距。Omniverse 和 Cosmos 让自动驾驶系统得以学习、顺应并完结智能驾驶,为更安全的出行奠定基础。"

NVIDIA 是作念这件事的完好东说念主选,天呐,这险些等于咱们的宿命:用 AI 来再创造 AI。你在视频中看到的那些时间,和咱们带给你的数字孪生全国的时间很像。

咱们来谈谈数据中心 (Data Centers)

让咱们谈谈数据中心吧。Blackwell 照旧全面进入量产,这等于它的姿色。实在是不可想议。不少东说念主看到它会认为:对咱们来说,这是一种好意思的盛景,对吗?这若何可能不好意思呢?

因为咱们在谋略机体捆绑构上完结了一个根蒂鼎新。三年前,我给你们看过一个版块,叫作念 "Grace Hopper",阿谁系统叫 "Ranger"。Ranger 的体积大要是这个屏幕一半宽度——那是全球首个支执 NVLink 32 的系统。三年前咱们展示 Ranger 时,它实在太大了,但处所完全正确。咱们想科罚的是 "scale up" 的问题。

散布式谋略 (scale out) 是让好多谋略机协同职责来科罚一个巨大的问题;但咱们仍然需要 "scale up",在推广 (scale out) 之前先进行纵向推广 (scale up)。二者皆很紧迫,但你想先把单机/单系统的边界尽量扩大,然后再作念散布式推广。但是,"scale up" 十分费劲,莫得什么捷径可走。你不可能像 Hadoop 那样,把一堆普通做事器用聚集连起来,搞一个弘远的散布式存储谋略。Hadoop 在已往如实带来了立异,让超大边界数据中心能够用通用硬件处理海量数据,但当今咱们要科罚的问题要复杂得多。要是络续用那种方式,只会过度猝然电力和能耗,深度学习也就不会出现。

因此咱们必须先 "scale up"。我不会把它举起来,因为它有 70 磅重。它是咱们上一代的系统架构 "HGX"。HGX 澈底纠正了咱们的谋略方式,也纠正了东说念主工智能:它含有 8 块 GPU,每一块 GPU 就像手里这个(指向手中的 Blackwell GPU 模组)。这里面履行上是两个 Blackwell GPU 封装在一块芯片上。是以,一台 HGX 里有 8 块这样的东西。它们通过 "NVLink 8" 互联。而这上头还会联结一个 CPU 机箱(CPU shelf),里面有双路 CPU,用 PCIe 和 HGX 连接。然后再通过 InfiniBand 把好多这样的节点连起来,就形成了一台所谓的 "AI 超等谋略机 (AI supercomputer)"。这等于已往咱们的步调——通过这样的方式先作念 "scale up",再作念散布式推广(scale out)。可咱们还想把 "scale up" 作念得更大。

我曾提到 Ranger:它把 HGX 再推论了四倍,于是就有了 NVLink 32,只不外整机体积太大了。咱们必须对 NVLink 及其拓扑进行要紧纠正,智力络续扩大边界。

作念法是:把 NVLink 交换机 (switch) 拆分出来 已往,NVLink 交换机嵌在主板里,但咱们当今要把它拆出来,放到机架中央。它是全球性能最强的交换机,使得通盘 GPU 可以同期以全带宽互联。咱们把这些交换机拆分出来,蚁集放在机架中央。有 18 个这样的交换机,散布在 9 个交换机托盘中。然后,谋略节点就位于机架的四周相对于交换机而言,这样咱们就能把这一切皆作念成 "完全液冷"。通过液冷,咱们可以在一个机架里塞进通盘这些谋略节点。这等于总共行业的大鼎新:从集成式 NVLink 转向解耦式 NVLink,从风冷转向液冷,从每台谋略机节略 6 万个元件变为每个机架 60 万个元件、功耗达 120 千瓦,全部给与液冷。斥逐等于——咱们可以在一个机架里完结 1 exaFLOPS的谋略智商。太不可想议了!

新的谋略节点

这等于新的谋略节点,很是于以前那台 8-GPU 的 HGX,再加上 CPU 的合体。当今它就能装进一个机架里。整机分量达 3000 磅,约有 5000 根线缆,长度差未几有两英里,以及 60 万个元件……大要很是于 20 辆汽车的零件数;这些皆组合到总共成为一台超等谋略机。

咱们的主张等于这样:作念澈底的 "scale up",当今的形态大致长这样。咱们理想中想造一块芯片,上头集成约 130 万亿个晶体管,其中约有 20 万亿个专为谋略所用。但从工艺上讲,这是不可能一次性完结的。是以咱们通过 "解耦" 的方式,将 Grace、Blackwell 和 NVLink-72 拆分到多个机架上。斥逐等于,咱们达成了极致的 "scale up"。这是有史以来最顶点的 "scale up" 有筹备。它带来的运算量、内存带宽皆达到了惊东说念主的水平—— 570 TB/s,通盘方针皆以 T 计量,一切皆是万亿级别。这台机器领有 1 exaFLOPS(即 10^18 次浮点运算/秒)级别的运算智商。

推理 (Inference) 的极致挑战

咱们之是以要作念到这样极致的边界,是为了支吾一项顶点辛勤的任务。好多东说念主原来以为这是一件很通俗的事,但履行上它是终极级别的谋略难题,这等于——推理 (inference)。原因很通俗,推理就意味着"生成 token",而生成 token 的"工场"(AI 工场)能带来收益和利润,也可能带来失掉。是以这座"工场"必须以极高的遵守和极大的性能来运行。因为工场的遵守会径直影响做事质料 (QoS)、收入以及盈利智商。

坐标轴有两个:

横轴 (x-axis) 是 "tokens per second"。咱们在使用 ChatGPT 时,输入一个 prompt,然后输出的是一个个 token(绚丽),最终被映射成文本单词。一个英文单词可能对应多个 token,也有的 token 只代表字母组合如 "th",它可以在多种单词中出现,比如 "the"、"them"、"theory"、"theatrics" 等。

纵轴 (y-axis) 是 "响应延伸"(latency)或者说"响应速率"。咱们照旧了解到,要是想让 AI 更灵敏,就需要生成更多 token——它可能需要进行推理 token、一致性检查 token、想考多种有筹备以选拔最好有筹备的 token,这些皆属于"想考"历程。它也可能自我质疑,像咱们东说念主一样"一边想一边碎碎念"。生成的 token 越多,AI 发达就越灵敏。但若 AI 酬报问题太慢,用户就会失去耐性,不会再用它。这就像聚集搜索一样,有个用户可经受的最大时延。

因此,这两个方针是相互冲突的:一方面,你想让 AI 为单个用户生成更多 token——也等于 "tokens per second" 越大越好,以完结更智能的酬报;另一方面,你还想在同样的硬件里"做事更多的用户",提高整座"工场"的隐隐量 (throughput),以获取更高收益。这时就不得不作念 "batching",批量处理好多用户的苦求。但一朝批处理,就会加多恭候时候,这影响单个用户的响应速率。莫得任何系统能在这两个维度上同期作念到完全完好,你理想地想要一个"弧线"尽可能在右上方隐藏更大面积——因为横纵乘积越大,代表你同期兼顾了响应速率和隐隐量。

要完结这样的主张,你得具备海量的FLOPS、极高的带宽和内存走访智商,以及恰当的编程模子来把这些资源用起来。这恰是咱们这台机器所擅长的:更多 FLOPS、更大内存、更高带宽、最优架构、最好的能效比,以及能协调通盘资源的软件栈。

举一个想维模子的小例子

底下这个演示会让你更直不雅地感受我说的内容。演示:"传统大型言语模子 (LLM) 可以捕捉到基础常识,而 ‘推理模子’则可以通过想考 Token 来科罚更复杂的问题。

在这里,咱们给了模子一个 prompt,要求笔据一些条目来为婚宴安排座位,比如某些传统习俗、如何拍照更排场,以及哪些家东说念主之间存在矛盾需要分开坐等。

传统的 LLM 只用不到 500 个 Token 就很快给出谜底,但它在安排宾客座位时犯了伪善。

而推理模子则使用了 8000 多个 Token 来想考,最终给出了正确谜底。它致使需要一个牧师来息争总共局面。"

就像人人皆知说念的,要是你要安排 300 东说念主的婚宴座位,并让通盘东说念主皆适意,这是唯独 AI 或者"丈母娘"智力科罚的问题(笑)。可你看到的例子里,R1 模子(指更高档的推理模子)要进行反复想考。传统 LLM 使用了 439 个 Token,一次性给出谜底,如实很快,但伪善百出,很是于是 439 个 Token 徒然。而推理模子用了约 8600 个 Token,一步步推理、陆续考据,终末才得出正确谜底。它所需的谋略量也大得多。

更深刻的推理需要更复杂的并行与援助

在展示一些斥逐前,我还要评释点别的。你看 Blackwell 这种边界弘远的系统,它依赖 "MVLink 72" 架构,把通盘 GPU 通过 NVLink 串起来,形成一个统一举座。但模子本人动辄领有几千亿、几万亿参数,比如 R1 有 6800 亿参数,更大的下一代模子致使可能达到数万亿参数。

咱们要把这些数万亿参数分割后分发到一大堆 GPU 上,可能使用张量并行:把模子中的某一层拆分红多个 GPU 协同运行;也可能使用活水线并行:把模子的各层按法例分拨到不同 GPU;还可能给与众人并行:把不同的众人 分拨到不同的 GPU。这三种并行方式(张量并行、活水线并行、众人并行)可以组合出无数种有筹备,而具体选拔哪一种取决于模子、职责负载以及其时的环境。有时你要优化延伸(latency),有时要优化隐隐量,也可能在推理时使用千般批处理手段。总之,这套 AI 工场的软件操作系统极其复杂。

有一个要害不雅察点:当通盘 GPU 皆通过 NVLink 72 组成统一举座后,咱们就能在里面活泼援助 "推理" 的不同阶段,而这些阶段需求不同。咱们普通把推理分红两个阶段:

‘预填充’阶段(想考阶段):AI 陆续从高下文中摄入信息(包括用户输入、辅导、可能还会查询 PDF 或网站,致使不雅看视频),把通盘内容皆整合进模子。这个历程谋略量很大,但生成的 Token 并未几。

‘解码’阶段(解码阶段):AI 笔据模子的通盘参数和高下文来预测下一个 Token。由于言语模子每次只可预测一个 Token,要把总共模子(数万亿参数)从 HBM(高带宽存储器)读入,再生成一个 Token,然后再放且归作为输入,再来一次……执续好屡次,智力输出完整斥逐。这对带宽以及 FLOPS)建议了极高要求。

例如来说,要是模子边界是好几万亿参数,意味着你每次解码,皆要读取 TB 级的数据来输出一个 Token。而在阿谁演示里,推理模子输出了 8600 多个 Token,也就意味着对模子参数进行了 8600 屡次的读取-谋略-输出轮回。这也评释了为何咱们要用 NVLink:它能把通盘 GPU 联结成一个巨大的逻辑 GPU,让咱们在团结个地址空间里处理海量数据。

另外,当推理分为‘预填充’和‘解码’两大阶段时,咱们可以在 NVLink 的统一架构下进行活泼援助:要是接下来大部单干作是想考或检索信息,就多分拨 GPU 给 ‘预填充’;要是是盈篇满籍用户总共聊天、需要巨额输出 Token,则把更多 GPU 用于 ‘解码’。像我平时作念研究时,会给 AI 一个超长的指示,让它去 94 个网站征集府上,读完、总结,再给我写一篇论述。这个历程很耗 ‘预填充’ 谋略。而当几百万东说念主在和 ChatGPT 聊天时,又是 ‘解码’ 谋略最重荷。

笔据职责负载的不同,咱们可能会决定在解码阶段分拨更多的 GPU,或者在预填阶段分拨更多的 GPU。这种动态分拨的历程相配复杂。我刚刚形色了管线并行、张量并行、众人并行、遨游批处理、解耦推理职责负载料理,以及所谓的键值缓存——我得把它路由到正确的 GPU,还要料理通盘存储层级。那部分软件复杂得令东说念主难以置信。

是以,今天咱们告示了 NVIDIA Dynamo。NVIDIA Dynamo 会处理以上通盘事情,它本色上等于一座"AI 工场"的操作系统。已往,咱们在数据中心里运行的操作系统可能是 VMware 之类的,咱们会用它来编排总共企业级 IT 负载,事实上圈套今咱们仍在这样作念,咱们是 VMware 的大用户。但改日,应用本人不再只是企业级 IT,而是"智能体"(agents);操作系统也不再像 VMware,而会雷同于 Dynamo。它并不是跑在传统的数据中心上,而是跑在所谓的 "AI 工场"之上。

咱们之是以把它称为 Dynamo,是有原因的。正如你们所知,"Dynamo(发电机)"是引爆上一次工业立异的第一台仪器。那次工业立异是对于能源的:水进来,电出来,这太神奇了。你知说念,水或者燃料进入后,变成蒸汽,再输出一种无形却极具价值的东西(电)。自后又花了节略 80 年才进化到交流电,但 Dynamo 恰是这一切的开端。是以,咱们决定把这套复杂到极致的软件定名为 NVIDIA Dynamo。它是开源的 ,咱们相配欢喜有许多合作伙伴与咱们总共研究它。其中我最心爱的合作伙伴之一等于 Perplexity,他们在这个边界作念了相配具有立异性的职责,而且他们的创举东说念主 Aran 东说念主也很好。总之,这等于咱们与 Perplexity 联袂开发的东西,真的相配棒。

好,当今要等咱们大边界建好这些基础设施,但与此同期,咱们照旧进行了巨额深刻的模拟。咱们用超等谋略机来模拟咱们的超等谋略机,这很合理。底下我要向你们展示咱们所说的这一切带来的克己。请记着之前那张"工场"图表:横轴 (x-axis) 露出 "用户体验的 tokens per second",纵轴 (y-axis) 露出 "整座工场的 tokens per second 隐隐量"。你但愿你的 AI 单体能够产出更多 token(让它更灵敏),也但愿总共工场的产量也很高。底下咱们来看一看 Hopper(架构)的情况。

这是 Hopper

Hopper 可以为每个用户节略产生 100 tokens/s。这里指的是一台包含 8 块 GPU 的系统,通过 InfiniBand 联结。为了平允起见,咱们把它归一化到 "每兆瓦的 tokens per second"。也等于说,要是咱们有一个 1 兆瓦的数据中心(其实在 AI 工场里并不是很大的边界,但咱们就取 1 兆瓦便捷对比),它可以在单用户模式下作念到 100 tokens/s,然后在这个点上(黄仁勋指着图),它能给你提供每秒 100,000 个 token;或者,要是你自得等很久,让系统作念极限"批处理",它可以达到 250 万 tokens/s。人人领悟吗?好,要是在顶点批处理场景下等于这样。

人人点点头,因为这部分可能有些烧脑。你们知说念,每次 GTC 皆有"入场门槛"——你们得经受一丝数学的折磨。唯独在 NVIDIA 大会上,你才会被数学折磨。

Hopper 可以产出 2.5 million tokens/s,这是在 1 兆瓦的功耗下完结的。那 250 万 tokens/s 若何迁移成经济效益呢?假如说 ChatGPT 是 10 好意思元 / 百万 token(只是例如),那么在顶点批处理的情况下,这台"工场"每秒就可能作念到 250 万 tokens/s 乘以 10 好意思元 / 百万 tokens = 每秒 25 好意思元吗?或者每秒 250 好意思元?咱们先别介意具体数字精准度,中枢是:要是你的 AI 工场能更快地产出 token,那么你的做事质料更好,也能赚到更多钱。但要是你为了让 AI 酬报更灵敏分娩更多 token、更多推理法子,你就需要更多谋略资源,导致举座隐隐量下落。这是一种合理的均衡。上头的弧线恰是咱们接力要改善的主张。

我要再次强调,Hopper 本来等于目下最快的谋略机,鼓吹了好多立异性进展。那咱们如何进一步晋升它呢?来源,咱们给与 Blackwell 架构和 NVLink 8(团结个 Blackwell 芯片),运算更强,晶体管更多,举座边界更大。然后咱们还给与了一种新精度:不是简通俗单的 4-bit 浮点,但用 4-bit 浮点作念量化能在同样的运算里耗更少能量,从而作念更多事。要知说念,每个数据中心以后皆会遭逢"功率极限"。你能获取几许收入,很猛进程上取决于你能使用几许能源。和好多行业雷同,咱们也进入了一个"能耗受限"的期间。因此,你必须要构建尽可能节能高效的谋略架构。

接下来,咱们再把边界扩大到 NVLink 72,人人应该能领悟这个想路。看底下这张图对比一下:

NVLink 72 + FP4 + 咱们全新的Dynamo

还有一个是莫得 Dynamo 的设立

咱们体捆绑构紧密结合,当今再加上 Dynamo,性能进一步拉升。Dynamo 对 Hopper 也会有匡助,但对 Blackwell 的匡助至极巨大。当今你会看到,我在图表中标出了两个闪亮的区域——那大要等于 "最大遵守点 (max-Q)"。你在寻找在高隐隐与高智能之间的均衡,那些点等于你"工场"最优化的职责区间。要是咱们把那两个点连线对比,会发现 Blackwell 远远优于 Hopper。要记着,这里比较的是"相似功耗"(ISO Power),也等于所谓的终极摩尔定律。已往,摩尔定律在讲晶体管数目的晋升,这里咱们是在同样能耗的前提下作念对比,斥逐果然是一代就晋升 25 倍。那简直不可想议。

在图表上,你还能看到一个彩虹一样的弧线,那等于通盘可能的设立点——咱们称之为 Pareto 前沿。在那条前沿弧线下有无数种组合——职责拆分、分片政策、并行方式,千般可行设立。咱们最终找到了最优解,也等于 Pareto 前沿 。笔据弧线上的神志,你可以看出在不同设立下的发达。这相配明晰地说明,你需要一个"可编程的"且"同构的"架构,因为负载在前沿弧线的不同部分有着判然不同的需求。

在弧线上某个顶部点,设立可能是"众人并行 8 + 批大小 3000 + 解聚关闭 + Dynamo 关闭";中间可能是"众人并行 64 + 26% 高下文 + 批大小 64 + Dynamo 开启",等等;最底部点又是另外的设立,比如"张量并行 16 + 众人并行 4 + 批大小 2 + 1% 高下文"……也等于说,整台谋略机的设立会在这总共范围内变化。这等于为什么咱们说需要一个可编程的、通用的架构。

对比:Hopper 与 Blackwell 在"推理想维模子"中的性能

接着咱们来看这个演示:在输入序列长度为 1000 token、输出长度为 2000 token 的测试场景中,Blackwell 性能是 Hopper 的 40 倍。哇,简直不可想议。我之前说过一句话:当 Blackwell 大边界出货后,你送 Hopper 别东说念主皆不会要。这等于我指的兴味,这也很合理。天然,要是你当今还贪图买 Hopper 也不要紧,但是我是公司最大的"营收遣散者"(,我的销售团队可能会想:"别这样说啊!"但是你们懂的,其时间以如斯惊东说念主的速率迭代,要是你如实在建一个"AI 工场",就应该投资在对的产物上。把它放到一个更大的视角看就显着了。

举个例子,这是一座 100 兆瓦 的"AI 工场"。

要是用 Hopper,需要 45,000 颗 GPU DIE、1400 个机架,能产出节略 3 亿 token/s。

要是用 Blackwell,那就需要……呃……(黄仁勋作念着手势)好像就只消 8000 颗 GPU DIE,就能达到同样产量。(现场笑声)你可能想:"这听上去我用不了那么多 GPU 了?" 咱们并不是想卖得更少,而是想告诉你,这是一个更优解。"买得越多省得越多",何况当今是"买得越多,赚得越多"嘛(笑)。

总之,当今的一切皆围绕"AI 工场"这个宗旨来想考。咱们一直谈芯片,但履行上要先想好若何作念 "scale up",终末才会决定你买几许芯片。我当今想让你望望一座履行 AI 工场的姿色,但它实在太复杂了——只是一个机架就有 60 万个元件、重达 3000 磅。要是你要连上几十个致使上百个这样的机架,就更是硕大无比。是以咱们运转在 Omniverse 里作念"数据中心数字孪生 (digital twin of a data center)",也等于先构建一座假造的 AI 工场,再去建实体的。

NVIDIA 的阶梯图(Roadmap)

当今我得加速节律了,因为我要跟你们讲的东西实在太多。要是我说得太快,不是因为我不海涵你们,而是信息量如实很大(笑)。

先说一下咱们的阶梯图 (roadmap)。当今咱们照旧全面量产 Blackwell,全国各地的谋略机制造商皆在大边界出货这种令东说念主惊艳的机器。我对此深感欢腾并心胸戴德——人人为过渡到这套新架构皆付出了巨大接力。然后在本年下半年,咱们会安详过渡到升级版,也等于 Blackwell Ultra + NVLink 72。它具备原先 1.5 倍的 FLOPs,领有新的 attention 指示,内存也晋升了 1.5 倍,相配有用,比如放 KV cache;聚集带宽也扩大了 2 倍傍边。是以,基于相似的架构,咱们会到手推出这个升级版块,称之为 Blackwell Ultra,预测在本年下半年。

为什么咱们要在这个场合告示这样的产物?一般情况下,别的公司告示时人人可能会认为"好啊,下一步是什么?"。事实上,这恰是咱们但愿你们的反应。原因在于:咱们当今要建的是 AI 工场,需要多年的规画。这可不是买台札记本电脑那么通俗,也不是一笔开合自若的开销,而是必须经过地盘、电力、资金、工程团队等各方面的永恒筹备。是以咱们必须给你们一个 2~3 年的预报,而不是比及某个月份倏得说"嘿,下个月又有一个超棒的新系统"。我会举个例子让你们看为什么要这样作念。

再往后一年,咱们会推出以知名天文体家定名的新系统,她的名字是 Vera Rubin。她发现了"暗物资",对,等于 Vera Rubin。她相配了不得。她这套新平台里,CPU 也变成新的,比 Grace 性能提高两倍、内存更多、带宽更大,但功耗只加多一丝点(可能是 50 瓦的 CPU),果然强横。新的 GPU 代号是 CX9,还有新的智能网卡 SmartNIC、NVLink 6,以及新的内存(比如 HBM4)。一切皆是全新的,只保留现存的机箱和底层基础设施,这样咱们在一个方朝上冒险升级时,不会同期冒险太多层面。咱们称之为 Vera Rubin + NVLink 144,将在 2026 年下半年问世。

对于 Blackwell 的定名变更

需要作念个小小的通晓:Blackwell 芯片履行上包含两个 GPU DIE,但咱们已往把它行动念"一块 GPU"来称号,这在 NVLink 定名上形成了繁杂。今后,我说 "NVLink 144" 指的是联结 144 个 GPU DIE——它们可能封装在总共,也可能分开封装。总之,今后每个 GPU DIE 就叫一个 GPU,是以当咱们说 "Rubin + NVLink 144",等于可以联结 144 块 GPU DIE。将来具体是若何封装的,会视情况而定。

有了 Vera Rubin + NVLink 144,接下来又为第二年(也等于再往后一年)作念好了铺垫,称之为 Rubin Ultra。你们应该惊呼一下(笑)。对,这等于 Vera Rubin Ultra,预测在 2027 年下半年。这是 NVLink 576 极致推广。每个机架 600kW,包含 250 万个元件——哦不,250 万组件。天然还会有更多 GPU,总之各项方针又晋升一个数目级。14 倍更多的 FLOPs,等于 15 exaFLOPs,而当今 Blackwell 的边界唯独 1 exaFLOPS。我之前提到过可以作念 15 exaFLOPs 的"scale-up"。内存带宽达到 4.6 PB/s(4600 TB/s),这照旧单机架里面的统一带宽,并不是举座团聚带宽 的宗旨。天然还会有全新的 NVLink 交换芯片和 CX9 等一系列新组件。

请能干,这里用了 16 颗 GPU DIE 打包封装在一个封装中,极大边界的 NVLink。我给你们比对一下。比如说,这等于你们当今正在量产、部署的 Grace Blackwell看上去像个小板子,对吗?而 Rubin 比它大好多。咱们是等比例搁置,让你们感受一下它的体积判袂。

这等于为什么咱们老是强调——在运转作念大边界散布式(scale out)之前,你先得作念极致的 "scale up"。然后咱们再用一些让你惊艳的时间进行散布式推广。

性能演进:Hopper→Blackwell→Rubin

当今咱们可以望望算力(scale-up FLOPs)的进化:

Hopper = 1×

Blackwell = 68×

Rubin = 900×

要是你把它和功率结合起来,也等于我前边说的"在可经受的能耗下,最大化 FLOPs×带宽"。你会发现 Rubin 将带来更低的成本、更高的遵守。是以,这等于 NVIDIA 改日几年的阶梯图,节略一年一次的迭代节律,就像时钟滴答一样清静。

横向推广(Scale Out)

讲完纵向推广(scale up)的路,咱们再来看横向推广(scale out)要若何作念。咱们之前先容过,MVLink 崇拜纵向推广,而 InfiniBand 与 Spectrum X 崇拜横向推广。人人皆知说念咱们进入以太网边界,因为咱们想让以太网领有跟 InfiniBand 雷同的性能特点,比如遏制戒指、超低延伸,以及把咱们谋略结构的软件上风带进去,于是就有了 Spectrum X。当今的发达相配出色,比如咱们用 Spectrum X 构建了 "Colossus",那是全球最大的单体 GPU 集群之一,发达相配好。Spectrum X 可以说是大收效利。

我对另一个处所也很兴盛:最大的企业聚集厂商将把 Spectrum X 整合进他们的产物线,匡助全球的企业"AI 化"。咱们当今用的是 CX8、CX7,巧合要有 CX8、CX9。跟着将来要到 Vera Rubin 的期间,咱们但愿能推广到盈篇满籍、致使几十万块 GPU DIE。但是,要是要把几十万块 GPU DIE 作念成大边界横向推广,数据中心大到通顺场大小,那么机架之间就需要远距离连线,不再能完全使用铜缆。铜缆只得当在机架内或 1~2 米以内,这样能保执高可靠、低成本、能效高;但在机房更大范围内,咱们就需要"硅光 "时间。硅光恒久以来的挑战是收发模块 功耗太大,需要把电信号迁移为光信号,需要串行器/解串器,以及好几级迁移,每一个法子皆在猝然能源。

NVIDIA 首款 CPO 硅光系统

让咱们展示一下这个东西。来源,咱们告示了英伟达首个"共封装硅光 有筹备",全国上首个 1.6 Tb/s 的 CPO(co-packaged optics)。它基于 微环谐振调制器 (Micro Ring Resonator Modulator, MRM) 时间,这是咱们在 TSMC 工艺上与稠密时间伙伴合作多年的后果。它相配猖獗,极具创新。

之是以采用 MRM(微环谐振调制器),是因为它在功耗密度和能效方面皆优于现存的马赫-曾德尔调制器 ,后者目下主要用于远距离电信或数据中心间通讯。之前,在数据中心互联或城域/远程光纤里,MoZ(马赫-曾德尔)饱胀用,因为对带宽和密度的要求相对没那么高。但如今跟着咱们要在机架间、机房内皆高密度部署光模块,这就需要更高的集成度与更低功耗,而 MRM 更得当这种边界化的场景。好吧,这等于要让‘推理模式’上线的时刻了。要把这些线整理好其实没那么容易,它们又细又绕。好了,让咱们望望这个家伙(展示某个光学收发器)。

你看,这一块功耗是 30 瓦。你要记着,30 瓦。要是你大皆量采购,每个可能要 1000 好意思元。这里有一个插头,这边(指一端)是电联结,那边(指另一端)是光学联结。是以,光纤会从黄色这边进来;你把它插到交换机上,这一头是电接口,里面包含了收发器、激光器,给与了被称为"马赫-曾德尔 (Mach-Zehnder)"的时间,十分先进。咱们用它把 GPU 联结到交换机,再联结到下一级交换机,然后再下一层交换机,最终到另一块 GPU。例如,要是咱们有 10 万块 GPU,那么就要有 10 万个这种光纤接口;然后再加上……呃,还要另一端从交换机到交换机,也有 10 万个。终末去联结另一端 Nick(聚集接口卡)。要是咱们有 25 万块 GPU,就得再加一级交换机。因此,每块 GPU(25 万块 GPU 时)皆会领有 6 个收发器端口,也等于 6 个这样的插头。这样的话,每块 GPU 光是这些收发器就要猝然 180 瓦(30 瓦×6),每块 GPU 还要 6000 好意思元的成本(1000 好意思元×6)。

是以,问题来了:咱们如何把 GPU 的边界推广到上百万块?要是咱们有 100 万块 GPU,每块皆有 6 个收发器,那就等于 600 万个收发器,总耗电是 600 万×30 瓦 = 1.8×10^8 瓦,也等于 180 兆瓦 (megawatt) 隧说念用来"搬运信号",并莫得作念任何谋略。正如我之前说的,能源是咱们最紧迫的资源,一切最终皆和能耗挂钩。若这些收发器吃掉 180 兆瓦,那就意味着咱们的客户(或咱们我方的)数据中心能够用于履行谋略(从而创造收益)的电力减少了 180 兆瓦。

于是,咱们必须想办法科罚这个问题。这等于咱们所作念的惊东说念主的发明:咱们开发了全球首款给与微环谐振调制器 (MRM, Micro Ring Resonator Modulator) 的硅光时间,它看起来是这样的(展示露出图)。你会看到有一个小小的波导,当光在这个环形结构里共振时,它会戒指波导的反射率,通过接管或者透过来改变光的强度,从而把一语气激光束迁移成 0 和 1,这等于其神奇之处。然后,光子集成芯片与电子集成芯片  重叠在总共,再加上巨额的微透镜,以及所谓的光纤阵列 等多层时间——全部皆是在台积电 (TSMC) 给与他们称作 COUPE 的制程里制造,并用 3D CoWoS(或 3D CoP 类封装时间)来封装。咱们联袂稠密时间伙伴总共研发了好多年,才打造出如斯不可想议的器件。让咱们看段视频来了解下这项时间的遗迹吧。

然后,这些器件会被作念成交换机,比如咱们的 InfiniBand 交换机。硅芯片的职责情景相配好。咱们会在本年下半年(指 2025 下半年)出货这款硅光交换机;到来岁下半年(指 2026 下半年)会出货整套 Spectrum X 科罚有筹备。之是以能顺利,是因为咱们当初选拔了 MRM,也承担了已往五年里的巨大时间风险,提交了数百项专利,还将这些专利授权给咱们的合作伙伴来共同分娩。如今,咱们就有智商把硅光和共封装时间集成在总共,径直把光纤插进交换机里,而无需传统收发器模块。这样,每台交换机就能作念到 512 个端口,这在其他方式下险些不可能完结。

因此,这为咱们推广到十几万块乃至上百万块 GPU 奠定了基础。你们可以联想一下,在一个数据中心里,咱们能从简几十兆瓦的能耗。比如说,你可以省下 60 兆瓦,这很是于 10 个 Rubin Ultra 机架(每个 6 兆瓦),或者更多(要是一个 Rubin Ultra 机架是 600kW,则 60 兆瓦等于 100 个机架的电力)。咱们就能把这些电能从头干与到 Rubin 超等谋略机本人。

咱们的年度节律:一次一年

这等于咱们的完整阶梯图:每年一次,每年皆会带来一次新架构,两年一个大的产物线迭代,每次皆完结数目级的晋升。咱们会分步承担硅片、聚集、机箱等方面的风险,从而鼓吹总共行业陆续前进,朝着这些不可想议的时间迈进。

至于名字,"Vera Rubin" 用于下一代架构,向发现暗物资的 Vera Rubin 致意。她相配了不得,我还要感谢她的孙子孙女们也在现场,见证咱们对她的精巧敬意。再下一代,咱们会以 "Feynman" 来定名,NVIDIA 的阶梯图 等于这样。

谈谈企业谋略

相配紧迫的一丝是:要把 AI 委果带给全球企业,咱们需要回到英伟达的另一个处所。

让咱们先回顾一下:AI 与机器学习从根蒂上重塑了总共谋略堆栈——处理器变了、操作系统变了、应用模范也变了,编排方式也不同,运行方式也不同。举个例子,已往咱们检索数据是精准检索并读取我方想要的内容;将来,咱们可能会像用 Perplexity 那样,径直问它一个问题,让 AI 帮你找谜底。这亦然改日企业 IT 的模式:咱们会有好多"AI 助手 (AI agents)",它们很是于咱们的数字化劳能源。全全国有 10 亿常识职责者,而将来可能会有 100 亿数字职责者与咱们并肩勾引。全球约有 3000 万软件工程师,我敢笃定其中 100% 会在改日用 AI 辅助进行开发;到本年年底,咱们英伟达我方通盘的软件工程师也皆将有 AI 助手。是以 AI 助手会无处不在,它们在企业里运行的方式也与当今完全不同,咱们需要为其打造新的谋略机形态。

望望这个:这等于改日 PC 的姿色,领有 20 petaFLOPs 的算力,72 核 CPU,芯片蜿蜒口、HBM 内存……还有一些 PCIe 插槽便捷你插 GeForce 显卡(笑)。这款咱们称作 DGX Station或 DGX Spark;OEM 厂商比如 HP、Dell、Lenovo、华硕 等皆会推出这种产物,面向全球的数据科学家与研究东说念主员。这是进入 AI 期间后,谋略机应有的姿色;改日的谋略就会在这种机器上运行。咱们也提供一整条产物线,从迷你机型到职责站再到做事器级、超等谋略级,皆会交由各大合作伙伴推出。

同期,咱们还会澈底纠正存储。讲究一下,谋略有三大维持:谋略、聚集,再等于存储。既然聚集升级成了 Spectrum X,存储也要改天换地:从已往的"检索式"存储系统转向"语义式"存储系统,要能在后台陆续地对数据进行"embedding",将其迁移成可用的常识。当你需要数据时,不再是"检索数据",而是径直对数据提问,让 AI 帮你找到谜底。Aaron 和 Box 公司就把一个"超智能存储系统"放在了云上与咱们合作,我很但愿现场能有个视频,但咱们莫得。不外,改日每家企业皆会领有雷同的"AI 存储"。这将是企业存储的改日。

咱们正在与存储边界的通盘主要厂商——如 DDN、Dell、HPE、Hitachi、IBM、NetApp、Pure Storage、VAST、WDC——联袂,把 GPU 加速(GPU-accelerated)第一次带到他们的存储系统里。那将是第一次你的存储系统也内置 GPU 加速。

有东说念主认为我幻灯片不够多,是以 Michael 给了我这一张。尽管我本来就有好多 PPT,但这张如实可以:它一张图就展示了 Dell 将如何提供一系列英伟达企业级 IT + AI 基础设施系统,以及在其上运行的通盘软件。你可以看到,咱们正在鼓吹全球企业 IT 的大变革。

终末说说"机器东说念主 (Robotics)"

咱们来聊一下机器东说念主吧。当今真的是机器东说念主的期间了。机器东说念主能与物理全邦交互,实施纯数字全国无法完结的职责。人人皆知,劳能源严重空泛。据推测,到本世纪 20 年代末,全球会空泛至少 5000 万名工东说念主。咱们很乐意给他们每东说念主 5 万好意思元的年薪,但现实里并莫得这样多劳能源,是以有可能要给"机器东说念主"付 5 万好意思元/年的房钱或使用费(笑)。这将是一个相配弘远的阛阓。

通盘在迁移的东西皆将变得自主化。全球有盈篇满籍家工场、数以亿计的录像头、仓库、无东说念主车辆,汽车本人亦然一个机器东说念主。当今咱们还在研发通用机器东说念主。我给你们放段视频,展示咱们的作念法。

"物理 AI 和机器东说念主正在赶紧发展,可能会成为边界最大的产业。一切的中枢挑战跟之前雷同:数据从哪来、模子架构是什么、以及如何作念推广(scaling)。在机器东说念主边界,咱们同样需要能巨额生成或获取数据,需要苍劲的谋略来调查模子,同期还得有能让 AI 越训越强的推广性。英伟达为此打造了‘Omniverse’这一物理 AI 的‘操作系统 (OS)’,已谈了好多年。今天再补充两项新时间:

1、‘Cosmos’——把 Omniverse 与一种能够领悟物理全国的生成式模子结合起来。Omniverse 戒指场景中的机器东说念主和环境,Cosmos 则能生成用之不断的假造环境。你可以看到,咱们在 Omniverse 里通过露出神志来精准戒指场景,而 Cosmos 陆续变化假造全国,让数据既能‘有锚点’又能‘无穷丰富’。

2、正如咱们之前提到的,大型言语模子能快速晋升的要害在于‘可考据的强化学习 )’。机器东说念主全国里这种‘可考据的奖励’就来自物理定律。是以咱们需要一款极其苍劲的物理引擎。以往的物理引擎可能偏向大型机械或游戏,但要调查机器东说念主的缜密操作、触觉反馈、能源学戒指,就需要 GPU 加速、超及时 (super real-time) 模拟,还要与机器东说念主开发者常用的‘Mujoco’或雷同框架无缝整合。因此,咱们告示一件相配至极的事:由三家企业——DeepMind、Disney Research 和 Nvidia——共同合作,推出一个叫作念 Newton 的东西。让咱们望望 Newton 吧。"

再发布一个好音书:Groot N1 开源

正如我所说,咱们机器东说念主连接的进展巨大。今天告示,Groot N1 当今是开源的!

我想感谢诸君来到 GTC。让咱们作念个总结吧:

1、Blackwell 已全面量产,需求极其焕发,原因也很彰着——AI 迎来一个拐点,尤其是"推理"方面对算力需求激增,何况要调查会推理、能自主规画的"agentic AI"。

2、Blackwell + NVLink 72 + Dynamo 提供的 AI 工场性能比 Hopper 提高了 40 倍。而在改日十年,推理 (inference) 将成为最紧迫的负载之一,咱们会把 AI 边界络续扩大。

3、咱们公布了年度迭代的产物阶梯图,好让你们能规画我方的 AI 基础设施。

4、咱们构建了三条 AI 基础设施线:一条给云,一条给企业,一条给机器东说念主。

参考府上:https://www.youtube.com/watch?v=xZBxDHu_do8&t=7611s&ab_channel=BloombergTelevision



相关资讯
热点资讯
  • 友情链接:

Powered by 当街做爱 @2013-2022 RSS地图 HTML地图

Copyright © 2013-2024 版权所有