Nedávno jsme tu zmiňovali zrychlenou verzi funkce csum_partial pro x86, která byla poslána do jádra 6.5. Linus v úterý napsal, že se mu nezdá rozdělování vstupu na 64 bytové kousky, když nejčastěji používaná délka vstupu je 40 bytů.
Přepsal část assembleru na dvě paralelní smyčky po 40 bytech a kód také zjednodušil a zkrátil. K tomu několikrát napsal varování, že to není otestované. V některých testech to je ještě rychlejší, než původní návrh. Linus také napsal, že někteří lidé relaxují u bazénu s alkoholem, ale on relaxuje při psaní assembleru.
(zdroj: phoronix)