Hlavní navigace

Názor k článku Shluková analýza (clustering) a knihovna Scikit-learn od Uncaught ReferenceError: - otázka by neměla směřovat na počet řádků, ale...

  • Článek je starý, nové názory již nelze přidávat.
  • 5. 12. 2023 14:22

    Uncaught ReferenceError:

    otázka by neměla směřovat na počet řádků, ale počet dimenzí (features) a počet clusterů. Počet řádků nebývá takový problém, dá se redukovat samplingem a každá dimenze je obrovsky znát.

    Každá z metod na clustering má jiné škálování s počtem dimenzí, obecně vzato pokud jich máš do 10, máš ten výběr široký a rychlost dobrou, když jich máš 1000, musíš začít přemýšlet na tom, jak ty dimenze redukovat (např. PCA) dříve než to začneš clusterovat, to ti neupočítání asi z žádná z nabízených metod.

    Např. pokud vezmu kmeans, je lepší při velkém vstupu použít elkan algoritmu, který počítá daleko efektivněji vzdálenosti jednotlivých bodů přes trojuhelníky. Nebo jdi dál a zvol MiniBatchKMeans, který je ještě rychlejší.

    Umí to být velice rychlé, scikit-learn ale numí škálovat do šířky, takže nemůžeš výpočet snadno distribuovat na více strojů, což je náš případ, takže ho kluci používají jen omezeně.