Předpokládám že jako v R bude i v Pandas groupBy efektivnější pro faktory (nebo pro category v pandas) že? Jedná se nám o dost obrovské soubory, máme přibližně 1 nový záznam za sekundu a data pro cca celý rok, takže tam by větší efektivita měla hrát roli.
(zatím je to možné řešit seskupením v DB, ale to nebude pracovat až bude zdrojem dat kafka - pokud to neumí kstream).