otázka by neměla směřovat na počet řádků, ale počet dimenzí (features) a počet clusterů. Počet řádků nebývá takový problém, dá se redukovat samplingem a každá dimenze je obrovsky znát.
Každá z metod na clustering má jiné škálování s počtem dimenzí, obecně vzato pokud jich máš do 10, máš ten výběr široký a rychlost dobrou, když jich máš 1000, musíš začít přemýšlet na tom, jak ty dimenze redukovat (např. PCA) dříve než to začneš clusterovat, to ti neupočítání asi z žádná z nabízených metod.
Např. pokud vezmu kmeans, je lepší při velkém vstupu použít elkan algoritmu, který počítá daleko efektivněji vzdálenosti jednotlivých bodů přes trojuhelníky. Nebo jdi dál a zvol MiniBatchKMeans, který je ještě rychlejší.
Umí to být velice rychlé, scikit-learn ale numí škálovat do šířky, takže nemůžeš výpočet snadno distribuovat na více strojů, což je náš případ, takže ho kluci používají jen omezeně.