Ty data se musi po zapisu naclusterovat podle prevladajiciho workloadu. Clusterovat je pri hned pri zapisu sice mozne je, ale nedela se to neb pak nemuzete delat multithreaded loadovani dat a navic je to velmi pomale pokud nejsou vstupni data setridene, coz typicky u velkych data setu nebyvaji.
takze v prvni rade se do db proste ty input data naladuji co nejrychleji to jde (na zadny indexy, kontrolu referencni integrity, clustering si nehrajeme). A v druhe fazi se vytvori indexy, prekontroluje se referencni integrita dat a pak se data naclusteruji/nastripuji podle indexu. Pokud pri clusterovani kvalita indexu utrpi, tak se preorganizuji nakonec jeste indexy a jsme ready.