Předpokládám že jako v R bude i v Pandas groupBy efektivnější pro faktory (nebo pro category v pandas) že? Jedná se nám o dost obrovské soubory, máme přibližně 1 nový záznam za sekundu a data pro cca celý rok, takže tam by větší efektivita měla hrát roli.
(zatím je to možné řešit seskupením v DB, ale to nebude pracovat až bude zdrojem dat kafka - pokud to neumí kstream).
Ještě mám obecný dotaz k pandas. Ten používáme na dost velká data, ale vypadá to, že všechno běží v jednom vlákně, a to i věci, které jsou volány z Numpy. Má praktický význam se nějak snažit o paralelizaci na aplikační úrovni? Třeba data rozhodit do osmi souborů a ty nějak zpracovávat naráz? Připadne mi to jako šíleně moc práce a stejně něco takto jednoduše rozdělit nepůjde.
pandas pracuje s daty, ktera se vejdou do pameti, tedy ne moc velkymi.
to co chcete, neni use case pro pandas. Existuje dask, coz je knihovna s temer stejnym API jako pandas pro praci s tzv externimy daty (ktera se nevejdou cela do pameti).
Pro opravdu hodne velka data muzete uvazovat o analyticke databazi, tam nebude problem ani agregace nad stovkami miliard zaznamu na jedinem stroji v realnem case.
6. 1. 2021, 22:57 editováno autorem komentáře
Jak píše A.P.Hacker, pokud jsou data tak rozsáhlá, že se nevejdou do paměti, tak je lepší použít Dask (https://dask.org/). Ještě se k tomuto tématu dostaneme. Ještě předtím ale budu chtít ukázak kombinaci Numba+Pandas popř. Cython+Pandas, což pro některé účely umožňuje urychlení operací i o dva řády (ale záleží, co přesně dělate).