教育房产时事环球科技商业
投稿投诉
商业财经
热点动态
科技数码
软件应用
国际环球
晨报科学
新闻时事
信息智能
汽车房产
办公手机
教育体育
生活生物

1000亿晶体管!IntelXeHPC顶级计算卡秀肌肉

  我们知道,Intel Xe GPU架构分为四个层级,或者说四种微架构,其中以上是的Xe LP低功耗版仅供核显、入门独显,即将到来的Xe HPG高性能图形版面向中高端游戏显卡,Xe HP高性能版适合加速计算、AI、ML等但所知最少,  Xe HPC高性能计算版则是最顶级的存在,主攻大型数据中心、超算。
  Xe HPG微架构的Alchmest(DG2)之前已经聊过了 ,这里来看看Xe HPC和首款产品Ponte Vecchio,竞争对手是NVIDIA A系列、AMD Instinct系列。
  当然,它们距离普通人非常非常遥远,但却是技术实力的最高体现。
  Xe HPC架构的基础也是Xe核心(Xe Core)   ,但因为面向的是计算而非图形,内部结构有所不同,包括8个512-bit矢量引擎、8个4096-bit矩阵引擎,数量对比Xe HPG都减半,但位宽分别翻了一倍、两倍,算力更凶猛。
  矢量引擎每时钟周期可执行256个FP32、256个FP64、512个FP16等数据操作,矩阵引擎则每时钟周期支持2048个FP32、4096个FP64、4096个BF16、8192个INT8。
  与矢量引擎、矩阵引擎搭档的,是一个  更宽的宽加载/存储单元  ,每个时钟周期取回512字节数据。
  每个Xe核心集成512KB一级数据缓存,这是目前业内最大的  ,而且可以通过软件配置作为暂存区使用,又称共享内部显存。
  Xe核心的上一层级叫做“切片”(Slice)    ,不同于Xe HPG上的渲染器切片(Slice),毕竟一个是做计算,一个是做图形渲染。
  Xe HPC每个切片集成多达16个Xe核心  ,四倍于Xe HPG渲染切片的规模,同时还有  8MB一级缓存、16个光追单元、一个硬件上下文(Hardware Context)单元  ,其中光追支持光线遍历、边界框相交、三角形相交,提供固定函数计算。
  硬件上下文单元大家可能比较陌生,它能让GPU同时执行多个应用,而无需昂贵的基于软件的文本切换。
  切片的上一级则是“堆栈”(Stack),至此才算一个完整的GPU。
  一个堆栈包含4个切片,因此总计64个Xe核心、64个光追单元、4个硬件上下文。
  同时,堆栈内还有  大规模二级缓存、4个HBM2e内存控制器、1个媒体引擎、8个Xe链路  ,以及拷贝引擎、PCle控制器。
  Xe HPC架构是可以轻松扩展的,  支持多堆栈设计,属于业内首创,依靠的是EMIB封装和堆栈间互连通道  ,可保持堆栈之间的内存一致性。
  比如  这是双堆栈,整体规模直接翻番  ,它就是后边要说的首款Ponte Vecchio,但看架构图,似乎不支持四堆栈。
  不同的Xe HPC GPU之间通过Xe链路互连,支持最多8颗并行  ,算力直接暴力乘以8。
  Ponte Vecchio作为基于Xe HPC架构的首款产品,一切的一切都是全新的,包括验证方法、软件、可靠性方法、信号完整性机制、互连、供电、封装、I/O架构、内存架构、IP架构、SoC架构。
  Ponte Vecchio是个庞然大物,集成晶体管数量突破1000亿个,使用5种不同的制造工艺,在内部封装了多达47个不同的单元(Tile),包括计算单元、Rambo缓存单元、Foveros封装单元、基础单元、HBM单元、Xe链路单元、EMIB单元,等等。
  如此复杂的芯片设计,面临的挑战自然是空前的,  首席架构师Masooma Bhaiwala直言这是她30年来设计的最复杂的芯片,堪称制造奇迹。
  其中,Foveros 3D封装是一个关键,最终的数据传输速度不得不提高到最初规划的1.5倍,以便以把Foveros连接数量降至最低,但依然比之前任何设计都高了两个数量级。
  开发团队还必须在设计初期就锁定Foveros在所有单元上的位置,这意味着必须一开始就搞定整个平面图布局,中途也不允许有明显变更。
  芯片设计和验证也是全新流程,为此开发了大量新的工具、方法、脚本,并独立安排4个主要单元,开发各自的调试软件包,分而治之,加速开发,最终在SoC整体封装完成几天内就成功启动,运行了Hello World。
  再来看几个关键的部分,  计算单元采用台积电N5 5nm工艺,每个集成8个Xe核心、4MB一级缓存  ,Foveros封装凸点间距36微米。
  基础单元是一个连接器,所有复杂的I/O和高带宽组件都在这里汇聚  ,包括PCIe 5.0总线、HBM2e内存、MDFI链路、EMIB桥接,几乎是在挑战物理极限。
  它采用  Intel 7工艺、Foveros封装,面积达640平方毫米  ,集成了多达144MB二级缓存。
  Xe链路单元是台积电N7 7nm工艺制造  ,负责不同GPU之间的连接,是面向HPC、AI的纵向扩展的关键,每个单元有8条,实现了最高90G Serdes,  可以满足“极光”(Aurora)这样百亿亿次级级超级计算机的需求。
  Ponte Vecchio目前处于  A0版本阶段  (一般到A1就投入量产),成功运行了数百个工作负载,实测FP32吞吐性能超过45TFlops,Memory Fabric缓存带宽超过5TB/s,互连带宽超过2TB/s。
  Ponte Vecchio将有多种产品形态,最基本的单芯片做成OAM模块,集成到一个载体基板上,AMD Instinct也有这种。
  四芯并联组成一个子系统,再搭配双路的下一代Sapphire Rapids至强处理器  ,就是一个超算节点,将用于“极光”超算。
  【来源:快科技】【作者:上方文Q】

iPhone13Pro供应商富士康称郑州暴雨不影响生产运营外媒MacRumors9to5Mac报道,富士康是苹果最大和最重要的iPhone供应商,该公司表示,中国河南省的暴雨洪水袭击了其主要的iPhone生产工厂,但没有影响到生产运营。富华为云电脑团队公告将于8月15日停止服务运营华为云电脑团队发布公告称,因业务发展策略调整,rdquo华为云电脑ldquo将于北京时间2021年8月15日23点59分停止服务和运营,届时及以后您将无法登录和使用。在此之前,有效外媒华为P50确认将在全球发售华为已经宣布,华为旗舰新品发布会定于7月29日1930,届时将发布华为P50系列等产品。据外媒gsmarena,华为一位芬兰代表确认,华为P50不仅在中国推出,同样将在全球发售。代20分钟充满电!华为P50或使用100W超级快充前些天华为官方宣布,新一代旗舰手机P50系列手机将于7月29日晚730正式与我们见面。话音刚落,今天有大神就曝料了P50手机的充电配置。从曝料来看,华为P50系列手机一共有三款,分鸿蒙HarmonyOS?2开启新一轮公测荣耀30荣耀V30在列北京时间7月21日,华为正式开启了鸿蒙HarmonyOS2系统的新一轮公测,此次公测被看做是为华为P50系列手机发布前做的最后系统调试。此次参与鸿蒙HarmonyOS2公测的手机有Google上线东京奥运会涂鸦致敬16位视频游戏排除万难,2020年奥运会确认会在日本东京开始举办,为了纪念日本文化和宣传竞技体育运动,Google周四首次推出了一个新的互动涂鸦,其艺术作品来自日本动画公司Studio4。新的涂统一备份谷歌开始力推BackupbyGoogleOne服务作为对现有Android备份服务的一项更新,谷歌已于今日开始推出ldquoBackupbyGoogleOnerdquo服务。据悉,当前的Android备份服务已涵盖应用数据短信通话Android12简化了电源菜单功能选项引发大量测试用户不满谷歌在今年早些时候的IO开发者大会上宣布了新版Android12移动操作系统,预计正式版将在今年秋季随新款Pixel智能机一同到来。从截止目前的开发者预览和Beta测试版本来说,谷英特尔NUC11Extreme喜迎BeastCanyon新品英特尔刚刚发布了代号为ldquo野兽峡谷rdquo(BeastCanyon)的NUC11Extreme新品,特点是采用了11代酷睿i911900KB(TigerLake)处理器。此德国医疗保健数字化机构已选用Matrix可互操作即时消息标准借助开放标准的TIMessenger,德国医疗保健数字化国家机构gematik,正在打造一套基于Matrix方案的全国性分散式私人通信网络。MatthewHodgson在官网上的一2020年全球智能视频监控市场规模达226。5亿美元Omdia发布报告称,据估计,2020年全球智能视频监控设备及相关基础设施市场规模为226。5亿美元,相较2019年仅增长2。2。此外,智能视频监控设备市场规模估计为183。8亿美
特斯拉Semi继续在全美各地出现这一次是与百事可乐工厂合作测试特斯拉正在继续挑逗人们对其即将推出的8级重型电动卡车Semi的好奇。这辆卡车本周已经第三次出现在美国,尽管首席执行官埃隆马斯克恳请大家对公司的产品路线图保持耐心,但Semi出现的频微软确认Windows102022年6月更新中的错误破坏了WiFi热点功能Windows102022年6月的累积更新现在可用于所有支持的操作系统版本,这个月的累积性更新已经修复了几个问题,包括一个阻止微软Excel和Outlook启动的错误。另一个影响IiOS16新功能可以向网站证明你不是机器人苹果在WWDC22的主旨演讲中披露了iOS16iPadOS16和macOSVentura。这些重大的操作系统升级包含了大量的新功能和变化。最值得注意的是,iPhone用户现在可以通高通第三代Snapdragon8cx在基准测试中比苹果的M2慢了55高通公司花了很长时间将其基于ARM的旗舰笔记本芯片骁龙8cx第三代推向消费者产品,尽管声称比骁龙8cx第二代有各种改进,但实测表明最新的SoC仍然远远落后于苹果新发布的M2。让我们便宜3。3万元!苹果M2性能有多强?挑落8核至强版MacPro搭载M2处理器的全新13寸MacBookPro的性能如何?从实际跑分来看,至少能挑落8核至强版MacPro,关键还便宜了5000美元(约合人民币3。3万元)。GeekBench5测加速布局电动车!苹果包工头将致力于自制电池模组据媒体报道,鸿海董事长刘扬伟在旗下首座电动车电池芯研发暨试量产中心动土仪式上透露,鸿海正在致力自制电池模组,并且是今年电动车重点发展项目之一。刘扬伟还表示,鸿海海外第一个电池芯生产索尼和本田今年将成立一家新公司拟从2025年开始销售电动汽车据国外媒体报道,索尼与本田宣布,双方已签署协议,拟在2022年成立一家新公司,销售电动汽车并提供移动服务。据报道,索尼和本田计划在获得相关监管部门批准后成立一家新公司。新公司名为S东芝开发全球首款双栅极RCIEGT可降低开关损耗东芝电子元件及存储装置株式会社和东芝株式会社(ToshibaCorporation,统称ldquo东芝rdquo)共同研发出全球首款4。5kV双栅极反向传导注入增强型栅极晶体管(R电动卡车制造商Nikola2024年制造自家电池组据国外媒体报道,美国电动卡车制造商Nikola首席财务官布雷迪(KimBrady)周四表示,公司正在评估选择,目标是在2024年生产自己的电池组。布雷迪在德意志银行全球汽车行业会议消息称字节跳动上海游戏工作室解散300多员工走了一半6月17日有媒体报道称,字节跳动解散了上海101游戏工作室,本周300多名员工已有一半离开。据界面新闻消息,知情人士处透露,字节跳动确实解散了上海101游戏工作室,从一个月前就开始密度仅提升10台积电2nm工艺挤牙膏Intel要赢回来了在技术论坛上,台积电首次全面公开了旗下的3nm及2nm工艺技术指标,相比3nm工艺,在相同功耗下,2nm速度快1015相同速度下,功耗降低2530。然而性能及功耗看着还不错,但台积