Stručný prehľad nového 7 nm sálového procesora Telum od IBM

Každý balík Telum sa skladá z dvoch 7nm, osemjadrových šestnásťvláknových procesorov bežiacich na frekvencii embaseem rýchlosť nad 5 GHz. Typický systém bude mať celkovo šestnásť týchto čipov, usporiadaných do štyroch pätíc. zásuvky.
Zväčšiť/ Každý balík Telum pozostáva z dvoch 7nm, osemjadrových / šestnásťvláknových procesorov bežiacich na a základňu rýchlosť hodín nad 5 GHz. Typický systém bude mať celkovo šestnásť týchto čipov, usporiadaných do štvorzásuvkových „zásuviek“.
IBM

Z pohľadu tradičného x86 počítačového nadšenca – alebo profesionála – sú sálové počítače zvláštne, archaické zvieratá. Sú fyzicky obrovské, náročné na energiu a drahé v porovnaní s tradičnejšími zariadeniami pre dátové centrá, vo všeobecnosti ponúkajú menej výpočtov na stojan pri vyšších nákladoch.

To vyvoláva otázku: "Prečo teda pokračovať v používaní sálových počítačov?" Akonáhle rukou zamávate cynickým odpovediam, ktoré sa zvrhnú na „pretože sme to tak vždy robili“, praktické odpovede sa do značnej miery týkajú spoľahlivosti a konzistencia. Ako upozorňuje Ian Cutress z AnandTech v špekulatívnom kus so zameraním na prepracovanú vyrovnávaciu pamäť Telum, "prestoje týchto systémov [IBM Z] sa merajú v milisekundách za rok." (Ak je to pravda, tak aspoň sedem deviataci.)

Vlastné od IBM oznámenie z Telum naznačuje, aké odlišné sú priority mainframových a komoditných počítačov. Nenútene popisuje pamäťové rozhranie Telum ako „schopné tolerovať zlyhania celého kanála alebo DIMM a je navrhnuté tak, aby transparentne obnovovalo dáta bez vplyvu na čas odozvy“.

Keď vytiahnete modul DIMM z aktívneho servera x86, tento server „transparentne neobnoví údaje“ – jednoducho sa zrúti.

Architektúra IBM Z-series

Telum je navrhnutý tak, aby bol pre sálové počítače niečo ako jednočipové pravidlo pre všetkých, čím nahrádza oveľa heterogénnejšie nastavenie v skorších sálových počítačoch IBM.

14 nm procesor IBM z15, ktorý Telum nahrádza, obsahuje celkovo päť procesorov – dva páry 12-jadrových výpočtových procesorov a jeden systémový radič. Každý výpočtový procesor je hostiteľom 256 MiB vyrovnávacej pamäte L3 zdieľanej medzi jeho 12 jadrami, zatiaľ čo systémový radič obsahuje neuveriteľných 960 MB vyrovnávacej pamäte L4 zdieľanej medzi štyrmi výpočtovými procesormi.

Päť z týchto procesorov z15 – každý pozostáva zo štyroch výpočtových procesorov a jedného ovládača systému – tvorí „zásuvku“. Štyri zásuvky sa spájajú do jedného hlavného rámu s napájaním z15.

Hoci koncept viacerých procesorov do zásuvky a viacerých zásuviek do systému zostáva, architektúra v samotnom Telume je radikálne odlišná – a značne zjednodušená.

Telum architektúra

Telum je na prvý pohľad o niečo jednoduchší ako bol z15 – je to osemjadrový procesor postavený na procesore Samsung 7nm proces s dvoma procesormi kombinovanými v každom balení (podobne ako pri čipletovom prístupe AMD Ryzen). Neexistuje žiadny samostatný procesor systémového ovládača – všetky procesory Telum sú identické.

Odtiaľ sa štyri balíky CPU Telum kombinujú, aby vytvorili jednu „zásuvku“ so štyrmi zásuvkami a štyri z týchto zásuviek idú do jedného systému mainframe. To poskytuje celkovo 256 jadier na 32 CPU. Každé jadro beží na a základňu taktovacia frekvencia nad 5 GHz, ktorá poskytuje predvídateľnejšiu a konzistentnejšiu latenciu pre transakcie v reálnom čase, než by to umožňovala nižšia základňa s vyššou rýchlosťou turbo.

Plné vrecká vyrovnávacej pamäte

Odstránenie centrálneho systémového procesora na každom balíku znamenalo tiež prepracovanie vyrovnávacej pamäte Telum – obrovská vyrovnávacia pamäť L4 s veľkosťou 960 MiB je preč, rovnako ako zdieľaná vyrovnávacia pamäť L3. V Telume má každé jednotlivé jadro súkromnú vyrovnávaciu pamäť 32 MiB L2 – a to je všetko. Neexistuje žiadna hardvérová vyrovnávacia pamäť L3 alebo L4.

Toto je miesto, kde sa veci stávajú hlboko divnými – zatiaľ čo vyrovnávacia pamäť L2 každého jadra Telum s veľkosťou 32 MiB je technicky súkromná, v skutočnosti je virtuálne súkromné. Keď sa odstráni linka z vyrovnávacej pamäte L2 jedného jadra, procesor hľadá prázdne miesto v L2 ostatných jadier. Ak nejaké nájde, vylúčená linka vyrovnávacej pamäte L2 z jadra X je označený ako riadok vyrovnávacej pamäte L3 a uložený v jadre rje L2.

Dobre, takže máme virtuálnu zdieľanú vyrovnávaciu pamäť L3 až 256 MiB na každom procesore Telum, ktorá sa skladá z „súkromnej“ vyrovnávacej pamäte L2 s veľkosťou 32 MiB na každom z jeho ôsmich jadier. Odtiaľ ide veci ešte o krok ďalej – že 256 MiB zdieľaného „virtuálneho L3“ na každom procesore môže byť následne použitých ako zdieľaný „virtuálny L4“ medzi všetkými procesormi v systéme.

„Virtuálny L4“ od Telumu funguje do značnej miery rovnako ako jeho „virtuálny L3“ na prvom mieste – odstránené linky vyrovnávacej pamäte L3 z jedného procesora hľadajú domov na inom procesore. Ak má iný procesor v tom istom systéme Telum voľné miesto, vymazaný riadok vyrovnávacej pamäte L3 sa preoznačí ako L4 a žije vo virtuálnej L3 na druhom procesore (ktorý sa skladá zo „súkromných“ L2 jeho ôsmich jadier) namiesto toho.

Ian Cutress z AnandTech ide do viac detail na vyrovnávacích mechanizmoch Telum. Nakoniec ich zhrnie odpoveďou "Ako je to možné?" s jednoduchým „čarovaním“.

Zrýchlenie inferencie AI

Christian Jacobi z IBM stručne načrtáva zrýchlenie AI Telum v tomto dvojminútovom klipe.

Telum tiež predstavuje 6TFLOPS inferenčný urýchľovač. Je určený na použitie – okrem iného – na detekciu podvodov v reálnom čase počas finančné transakcie (na rozdiel od krátko po transakcii).

V snahe o maximálny výkon a minimálnu latenciu IBM navlieka niekoľko ihiel. Nový inferenčný urýchľovač je umiestnený na matrici, čo umožňuje prepojenie medzi urýchľovačom a procesorovými jadrami s nižšou latenciou. nie zabudované do samotných jadier, la inštrukčná sada AVX-512 od Intelu.

Problém so zrýchlením in-core inferencie, ako má Intel, je ten, že zvyčajne obmedzuje výpočtový výkon AI dostupný pre každé jedno jadro. Jadro Xeon s inštrukciou AVX-512 má k dispozícii iba hardvér vo svojom vlastnom jadre, čo znamená, že väčšie úlohy odvodenia musia byť rozdelené medzi viacero jadier Xeon, aby sa získal plný výkon k dispozícii.

Telumov urýchľovač je zapnutý, ale vypnutý. To umožňuje jedinému jadru spúšťať odvodené pracovné zaťaženia s výkonom celý on-dies urýchľovač, nie len časť zabudovaná v sebe.

Zoznam obrázkov podľa IBM

Najnovší blogový príspevok

Čína lieta na svojom najväčšom drone: Divine Eagle
August 27, 2023

Divine Eagle je tu zobrazený v oboch útočných operáciách (poskytuje cielenie inteligentných bômb, aby zasiahli nepriateľa SAM, komunikácie, bunkre ...

Obojživelný dron robí prvý let
August 27, 2023

Obojživelný UAV U650 má veľkosť dronu Predator alebo úžitkového lietadla Cessna, no jeho konštrukcia z uhlíkových vlákien šetrí hmotnosť, čím zvyšu...

Bunkový atlas ľudského tela
August 28, 2023

Ak sa má veriť prírodovedným učebniciam, v tele máte asi 200 rôznych typov buniek. Ale niekoľko tímov vedcov teraz diskutuje o tomto čísle a tvrdia...