Názor k článku Shluková analýza (clustering) a knihovna Scikit-learn od Uncaught ReferenceError: - otázka by neměla směřovat na počet řádků, ale...

5. 12. 2023 14:22

Uncaught ReferenceError:

otázka by neměla směřovat na počet řádků, ale počet dimenzí (features) a počet clusterů. Počet řádků nebývá takový problém, dá se redukovat samplingem a každá dimenze je obrovsky znát.

Každá z metod na clustering má jiné škálování s počtem dimenzí, obecně vzato pokud jich máš do 10, máš ten výběr široký a rychlost dobrou, když jich máš 1000, musíš začít přemýšlet na tom, jak ty dimenze redukovat (např. PCA) dříve než to začneš clusterovat, to ti neupočítání asi z žádná z nabízených metod.

Např. pokud vezmu kmeans, je lepší při velkém vstupu použít elkan algoritmu, který počítá daleko efektivněji vzdálenosti jednotlivých bodů přes trojuhelníky. Nebo jdi dál a zvol MiniBatchKMeans, který je ještě rychlejší.

Umí to být velice rychlé, scikit-learn ale numí škálovat do šířky, takže nemůžeš výpočet snadno distribuovat na více strojů, což je náš případ, takže ho kluci používají jen omezeně.
- Zobrazit celé vlákno

Zprávičky