Hlavní navigace

Odpověď na názor

Odpovídáte na názor ke zprávičce Nejrychlejší ARM64: AmpereOne proti AWS Graviton4.

  • 10. 9. 2024 11:08

    msmucr
    Bronzový podporovatel


    Takze jsme znova zpet u me teorie - kdyz vezmes urcity node (proces) a das tomu urcity limit na TDP, tak vypocetni vykon bude stejny, nehledne na konkretni implementaci.

    No nevím, jestli se to dá až úplně takhle zjednodušit.. prakticky tam bude i dost ostatních proměnných než jen proces a TDP, zvlášť pokud budu porovnávat mezi sebou úplně odlišné architektury. Ale budiž, i kdybych odhlédl od instrukcí, registrů a řekl, že se to stejně překóduje na nějaké micro ops, ta různá jádra cíli na stejný segment a jsou konkurenceschopná, CPU budou podobně vybavená z hlediska I/O a cache, tak to stejně bude platit jen pro základní operace (na ALU a FPU).
    Pro určité workloady tam bude hrát velkou roli právě další, rozšířené instrukce, které daný výrobce může, ale také nemusí implementovat, podle toho jaké si nastaví priority.
    Příklad je třeba ta Altra a předchozí modely Gravitronů u AWS, oba implementují jádra Neoverse N1 od ARMu. Altra oproti Gravitronu 3 nemá SVE, ale má zas podporu pro bf16 (half-floaty).
    Pokud budu dělat nějaké storage servery, edge servery na obsluhu tuny klientů, nebude tohle hrát roli. Jakmile budu počítat a používat nějaký HPC toolkit s podporou SVE, nebo video enkodér, co to využije, bude Gravitron 3 zásadně lepší. Situace se ale může výrazně otočit v momentě, kdy budu chtít dělat AI inferenci a pak bude zas bf16 výhoda, která přetlačí i to, že Gravitron 3 má lepší výrobní proces (5 vs 7nm).

    Ten test mě zaujal, protože je tam Gravitron 4 jako první CPU s licencovanými jádry Neoverse V2, které jsou primárně cílená na výpočty (oproti datacenter/edge v případě N1 a N2). V2 použila i NVIDIA u akcelerátorů a Google v jejich procesorech Axion, ale o tom jsem jen četl v jejich tiskové zprávě.
    Ampere s One šlo jinou cestou, protože oproti předchozímu Altra nelicencovali celé jádro od ARMu, ale udělali si vlastní (s ARM ISA, podobně jako třeba Apple).

    Jinak na home lab a malé instalace budou po nějakou dobu dávat větší smysl x86 procesory, pokud se nebavíme o nějakém speciálním použití (např. vývoj pro konkrétní platformu). Zatím to fakt byla spíš datacentra, kde jde o nejvyšší hustotu v definovaném workloadu a ten příkon počítáš spíš na stojany v 24/7 režimu. Jestli z toho Ampere (jako v podstatě jediný současný retail výrobce) postupně dostane i nějaké menší a zároveň konkurenceschopné varianty a za dva roky se tu budeme bavit, jestli si někdo koupí Ryzen, menší Epyc, nebo něco s ARMem, protože to bude srovnatelné, uvidíme. Já jsem trochu skeptický, myslím že ten fokus na SaaS a velké instalace v Cloudu je jasný.


    Nechapu proc nedelaji ty cpu tak, ze to v idle lze naskalovat na 2C~4C a zbytek vypnout dokud tam nebude zatez.

    Netuším.. Ale v idle stavu ty samotná jádra s frequency scalingem podle mě v porovnání s plným loadem moc žrát nebudou. Nicméně je tam spousta věcí okolo (různé IO řadiče, obsluha toho meshe), ty patice jsou obrovské. Podobně i komponenty na zákl. deskách, rychlé síťovky osazené SFPčky, které si i se všemi šetřícími fíčurami, ASPM (pokud už to rozchodíš :)) klidně vezmou 15-20W v idle.
    Úplné vypínání jader a fakticky dynamická změna topologie CPU podle zátěže nevím, asi by si to vyžádalo spousty změn ve všech vrstvách od architektury CPU samotného, přes OS, až třeba po hypervizory.