Mimaloc nevím jestli vedl, spíš byl někde lepší a někde horší. Ale snaží se být univerzální, což možná moc dobře nejde.
https://github.com/microsoft/mimalloc#Performance
Jemalloc se dá také dost nastavovat
https://github.com/jemalloc/jemalloc/blob/dev/TUNING.md
Spíš by se mělo zkoušet podle typu zátěže, než hledat univerzální řešení (které asi neexistuje).
tcmalloc cílí hlavně na silně multithreadové aplikace, kde je poměrně silný. Hlavní rozdíl mezi tcmalloc a ostatními alokátory je v tom, že tcmalloc nepoužívá arény, ale thread-specific cache (nebo CPU-specific cache). Arény mají nevýhodu v možné velké fragmentaci paměti v aplikacích, kde se používá velké množství threadů, které všechny současně alokují. Pokud počet threadů překročí počet arén (nebo se alokace "správně" potkají i s menším počtem threadů), tak aréna based alokátory trpí na nízký výkon a velkou fragmentaci (spotřebu) paměti. tcmalloc tento problém nemá, ale zase potřebuje globální lock když dojde thread-specific cache (typicky při alokaci velkých bloků paměti). Jak už bylo řečeno, univerzální řešení neexistuje, je lepší vyzkoušet více alokátorů a vzít ten, který pro konkrétní typ záteže funguje nejlépe.