炼数成金 门户 商业智能 芯片 查看内容

谷歌用自研芯片取代数百万 Intel CPU:效率更高、成本更低

2021-6-16 09:57| 发布者: 炼数成金_小数| 查看: 26123| 评论: 0|来自: 云头条

摘要: 谷歌设计了自己的新处理器Argos视频(转)编码单元(VCU),这种芯片的目的只有一个:处理视频。高效率的新芯片使这家科技巨头得以用自己的芯片取代数千万块英特尔 CPU。多年来,英特尔内置于其CPU中的视频解码/编码 ...
YouTube 现在使用谷歌自行研制的Argos VCU。

谷歌设计了自己的新处理器Argos视频(转)编码单元(VCU),这种芯片的目的只有一个:处理视频。高效率的新芯片使这家科技巨头得以用自己的芯片取代数千万块英特尔 CPU。

多年来,英特尔内置于其CPU中的视频解码/编码引擎一直主导着市场,这有两个原因:一是提供领先的性能和功能,二是易于使用。但是定制的专用集成电路(ASIC)其性能往往比通用硬件更胜一筹,原因在于它们是针对单单一种工作负载设计的。因此,谷歌转而开发自己的专用硬件,可为YouTube处理视频任务,而且成效显著。

然而,英特尔可能留有一手,其的技术有望从谷歌手里赢回专业视频处理业务。

大量视频需要新硬件
用户每分钟向YouTube上传超过500小时的各种格式的视频内容。谷歌需要将这些内容迅速转码成多种分辨率(包括144p、240p、360p、480p、720p、1080p、1440p、2160p和4320p)以及节省数据的格式(比如H.264、VP9 或AV1),这就需要强大的编码能力。

在过去,谷歌对于转码/编码内容有两种选择。第一种选择是英特尔的视觉计算加速器 (VCA),该VCA结合了三块至强E3 CPU、内置的Iris Pro P6300/P580 GT4e 集成图形核心以及先进的硬件编码器。第二种选择是使用软件编码和通用的英特尔至强处理器。

谷歌认为,对于新兴的YouTube工作负载来说,这两种选择都不够节能——视觉计算加速器本身就很耗电,而扩增至强CPU的数量实际上意味着增加服务器的数量,也就意味着增加功耗和数据中心占用空间。因此,谷歌决定采用定制的内部硬件。


谷歌的第一代Argos VCU没有完全取代英特尔的中央处理器,因为服务器仍需要运行操作系统,仍需要管理存储驱动器和网络连接。谷歌的Argos VCU在很大程度上就像总是需要配套CPU的GPU。

谷歌的VCU集成了十个H.264/VP9编码器引擎、数个解码器核心、四个LPDDR4-3200 内存通道(采用4x32 位接口)、一个PCIe接口、一个DMA引擎以及一个用于调度的小型通用核心,不像我们在GPU中看到的流处理器。除了内部设计的编码器/转码器外,大多数知识产权(IP)都向第三方购买许可,以降低开发成本。每个VCU还配备了8GB的ECC LPDDR4内存。

谷歌的VCU其背后的主要想法是,将尽可能多的高性能编码/转码器放入到单单一块硅片中(同时保持节能),然后独立于所需的服务器数量来增加VCU的数量。谷歌将两个VCU放在一块板卡上,然后每一台双插座英特尔至强服务器安装10块卡,这大大提升了该公司每个机架的解码/转码性能。

提高效率导致离至强渐行渐远
谷歌表示,与搭载英特尔Skylake的服务器系统相比,其基于VCU的系统在性能/TCO 计算效率方面最多可以提升7倍(H.264)和33倍(VP9)。这种改进已将VCU的成本(相比英特尔的CPU)和三年的运营费用考虑在内,因而视频巨头YouTube轻松选择了VCU。

配备CPU、GPU和VCU的系统中的离线双通道单输出(SOT) 吞吐量


从谷歌透露的性能数据来看,在H.264中,单个Argos VCU显然比2路英特尔Skylake服务器快不了多少。但由于可以在这类服务器中安装20个VCU,因此从效率的角度来看,VCU胜出。但是说到要求更高的VP9 编解码,谷歌的VCU似乎比英特尔的双插座至强快五倍,因此提供了出色的效率优势。

由于谷歌数年来一直使用其Argos VCU,它显然用运行自家芯片的机器取代了许多基于至强的YouTube服务器。极难估计谷歌实际换掉了多少个至强系统,但一些分析师认为,这家科技巨头可能将400到3300万英特尔CPU换成了自己的VCU。即使第二个数字(3300万)被高估了,我们谈论的仍是数百万个。


由于谷歌的其他服务需要大量处理器,该公司向AMD或英特尔购买的CPU数量可能仍然非常多,不会很快减少数量,因为谷歌自己的数据中心级片上系统(SoC)需要数年才准备就绪。

另外值得注意的是,眼下谷歌试图使用创新的编码技术(比如AV1,即使是YouTube也需要使用通用CPU,因为Argos不支持这种编解码器。此外,随着更高效的编解码器出现(这些在计算能力方面的要求往往更高),谷歌将不得不继续使用CPU用于初始部署。出人意料的是,专用硬件的优势在未来只会越来越大。

谷歌已经在研发支持AV1、H.264和VP9编解码器的第二代 VCU,因为它需要进一步提高其编码技术的效率。目前尚不清楚新的VCU何时部署,但很显然该公司希望尽可能使用自己的SoC,而不是通用处理器。

英特尔并未停滞不前
不过,英特尔并没有停滞不前。该公司基于DG1 Xe-LP 的四芯片SG1服务器卡可以解码多达28路4Kp60视频流以及同时转码多达12路视频流。实际上,英特尔的SG1与谷歌的Argos VCU所做的工作如出一辙:独立于服务器数量来提升视频解码和转码性能,从而减少用于视频应用的数据中心所需要的通用处理器数量。


凭借即将推出的单区块(single-tile)Xe-HP GPU,英特尔将同时提供10路高质量4Kp60 视频流的转码。请记住,一些Xe-HP GPU可扩展到四个区块,而每个系统又可以安装多个GPU,英特尔领先市场的媒体解码和编码能力只会变得更强大。

结束语
谷歌已成功研制出很出色的支持H.264和VP9的视频(转)编码单元(VCU),与英特尔现有的CPU相比,它可以在视频编码/转码工作负载方面提供高出一大截的效率。此外,VCU使谷歌能够独立于服务器数量来提升视频编码/转码性能。

然而,英特尔已经拥有也提供一些专业级视频解码和编码功能的Xe-LP GPU和SG1卡,因此英特尔在视频流工作负载繁重的数据中心仍会取得成功。此外,随着英特尔Xe-HP GPU的出现,该公司有望巩固其在这个市场的地位。

声明:文章收集于网络,版权归原作者所有,为传播信息而发,如有侵权,请联系小编删除,谢谢!

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括:各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2021-7-30 21:56 , Processed in 0.173072 second(s), 25 queries .