Hustý, implementoval jsem to (s tou optimalizací že tabulka stačí 4096 velká, protože metadata při lookupu vyandujeme) a je to skoro stejně rychlé jako SSE! (35 vs. 31us)
Tak se mi líbí jak jednoduše vyjadřuješ ty adresy pro destinaci, mě tohle nikdy nenapadne :)
Tabulka má jenom 16 KiB (4096 * sizeof(float)) takže s cache taky v pohodě.