Jedna další věc, která může být lokální pro nějakou podmnožinu celkového počtu jader i v rámci single-chip CPU, je cache, hlavně L1 a L2. Díky tomu mají některé dvojice jader navzájem rychlejší komunikaci (cache coherence protokolem) a jiné dvojice pomalejší. Nástroj na odkazu výše z toho skládá čtvercovou vztahovou matici.
NUMA mechanismus alokace RAM jistě nemá přímý vliv na využití cache (protože tato se nealokuje explicitně), ale... se zapnutou podporou NUMA by mohlo dojít například k úpravě schedulingu vláken na fyzická jádra CPU tak, aby vlákna téhož procesu běžela na "blízkých" fyzických jádrech... [/fabulace][/spekulace] pokud to náhodou takto nefunguje furt.