IMHO nebyl důvod šetření (Pentium nabobtnalo tak, že by se tam dalších pár registrů asi ztratilo), ale kompatibilita s existujícími "operačními systémy". V době, kdy to na x86 vypadalo jak na divokém západě, by byl nadlidský úkol zajistit vzájemné nepřepisování registrů mezi různými aplikacemi. SSE už Intel vyřešil líp - zapnutí musel provádět OS, v té době už ale byly na trhu prakticky jen OS s použitelnou implementaci multitaskingu...
To samozřejmě, mimo FPU bylo nutné zajistit i uložení SSE registrů (tedy, bylo-li to nutné, by default se předpokládalo, že aplikace používá jenom celočíselné registry a i FPU kontext se ukládal až v exception handleru při prvním přístupu k FPU, dnes už tohle asi není pravda).
Pokud si vzpomínám dobře, tak procesor se tvářil, že SSE sada není podporována, dokud ji neaktivoval právě OS. Takže na starších OS aplikační detekce SSE selhala a používala staré MMX nebo FPU...
Plus navic je diky MMX k dispozici novych osm registru a diky konverznim instrukcim lze usetrit jeste vic strojovych cyklu (ale tady zalezi na konkretnim tvaru dat). V kazdem pripade zrovna tyto instrukce vlastne v podstate nic nestaly - mereno poctem tranzistoru - takze proc je v CPU nemit (to AMD s 3DNow! je o hodne slozitejsi, nejenom ze ma dve MMX jednotky, navic ma duplikovany i cely FPU a to je o dost slozitejsi modul).