Názory k článku Shluková analýza (clustering) a knihovna Scikit-learn

Zasílat nově přidané názory e-mailem

Článek je starý, nové názory již nelze přidávat.

5. 12. 2023 8:56

atarist

jak je ten clustering rychlý? Zvládne to například 10000 řádkovou tabulku (což +- odpovídá našim velikostem, resp. 30000 je u nás max)?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 12. 2023 14:22

Uncaught ReferenceError:

otázka by neměla směřovat na počet řádků, ale počet dimenzí (features) a počet clusterů. Počet řádků nebývá takový problém, dá se redukovat samplingem a každá dimenze je obrovsky znát.

Každá z metod na clustering má jiné škálování s počtem dimenzí, obecně vzato pokud jich máš do 10, máš ten výběr široký a rychlost dobrou, když jich máš 1000, musíš začít přemýšlet na tom, jak ty dimenze redukovat (např. PCA) dříve než to začneš clusterovat, to ti neupočítání asi z žádná z nabízených metod.

Např. pokud vezmu kmeans, je lepší při velkém vstupu použít elkan algoritmu, který počítá daleko efektivněji vzdálenosti jednotlivých bodů přes trojuhelníky. Nebo jdi dál a zvol MiniBatchKMeans, který je ještě rychlejší.

Umí to být velice rychlé, scikit-learn ale numí škálovat do šířky, takže nemůžeš výpočet snadno distribuovat na více strojů, což je náš případ, takže ho kluci používají jen omezeně.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 12. 2023 15:01

atarist

aha, díky za odpověď. No pokud každou metriku, co sbíráme, budeme považovat za jednu dimenzi, tak je to okolo 30 dimenzí (krát těch řekněme 10000 řádků) a počet clusterů je trošku velká neznámá. Asi bysme si to museli nechat vykreslit (předpokládám nějaký řezy z 30 dimenzí na 2 až 3), ale takto z placu to nedokážu odhadnout.

Teď clustering neděláme, resp. byla snaha, ale běží nám nad tím jen nějaká heuristika, které asi nikdo moc nevěří :-) [potom je otázka, které z těch 30 metrik mají smysl a které ne, ale to s clusteringem asi už nesouvisí]
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 12. 2023 15:37

linuxák

Exaktní metody (k-means) se nehodí pro mnohodimenzionální data, protože existuje matematický jev, kterému se říká prokletí dimenzionality. Pokud je počet dimenzí větší než řekněme 10, je obvykle potřeba podívat se po aproximativních metodách (např. Faiss).
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
5. 12. 2023 16:29

Uncaught ReferenceError:

dávám prst nahoru za zmíňku o Faissu.

K tazateli. Tyhle věci je dobré, aby dělal člověk, který s daty umí pracovat (=umí víc počítat než programovat), ač se to nezdá, správně na ty data vlítnout je velice těžké a neznalostí se dopustíš spousty chyb a špatné interpretace.
- Zobrazit celé vlákno

Zasílat nově přidané názory e-mailem

Zprávičky

Údržba linuxových manuálových stránek byla pozastavena

Nginx přesunul svůj vývoj na GitHub

Open source AM/FM rádio s ESP32

Komerční sdělení

Akademie CZ.NIC představuje program druhého pololetí

Názory k článku Shluková analýza (clustering) a knihovna Scikit-learn

Zprávičky

Údržba linuxových manuálových stránek byla pozastavena

Nginx přesunul svůj vývoj na GitHub

Open source AM/FM rádio s ESP32

Komerční sdělení

Akademie CZ.NIC představuje program druhého pololetí

Dále u nás najdete

Po dark webu kolují data až 60 % firem

Žertík jen pro Čechy, říkají markeťáci k názvu aerolinek

Chceme být jako Uber mezi taxíky, míní zakladatelé Jarabotu

Recenze Pixel 9: Google stvořil iPhone s Androidem

Příspěvek na stravování podle podmínek roku 2024

„Nejprivátnější VPN na světě“ je k dispozici v beta verzi

Po CZC skončí i samostatný e-shop Mall.cz

Na Google se hrnou žaloby, antimonopolních výzev hrozí víc

Electro World se od 1. září mění na Datart

Na černý kašel letos zemřelo už devět lidí

Alkohol 24 hodin po tréninku. Jinak tělo nebude dobře regenerovat

Mileva Marič prala plenky, zatímco manžel si šel pro Nobelovku

Zánět žaludku nepřecházejte, hrozí vznik vředů

Co všechno nám o firmě prozradí výkaz cash flow?

Nadšení z genAI střídá deziluze, hledají se peníze

Dovoz kávy do Evropy prudce stoupá. Obchodníci si dělají zásoby

Čína navzdory omezením v čipech zaostává jen o tři roky

Historie gynekologie? Operace vaječníků bez anestezie

Cévkování bez bolesti a rizika zánětu díky novince

Microsoft tvrdí, že se konečně zbavuje Ovládacích panelů…