Pro monitorovani Kafky bych radeji pouzil Zabbix.
Zabbix je mnohem mocnejsi monitorovaci nastroj nez Prometheus v oblasti staticky modelovaneho sveta. (Na druhou stranu ztraci v dynamicke oblasti microservices aplikaci kde loadbalacer dynamicky nahazuje a odebira kontejnery)
Zabbix ma primo nativni podporu JMX vcetne podpory low level discovery.
A Zabbix ma pro kafku i oficialni Template
https://www.zabbix.com/integrations/kafka
Diky za clanek.
Mozna by stalo za to zminit i projekt cp-ansible https://github.com/confluentinc/cp-ansible, coz je docela sikovna sada Ansible playbooku udrzovanych primarne firmou Confluent pro automatizovany deployment a upgrade Kafky. Projekt obsahuje moznost JMX exporter zapnout pomoci jednoduche volby v inventory souboru https://docs.confluent.io/ansible/current/ansible-configure.html#enable-jmx-exporter.
Confluent pouziva nejen JMX exporter, ale taktez i Jolokia agent vyuzivany napriklad v pripade bezvypadkoveho rolling upgrade celeho clusteru. V ramci playbooku je mozne zvolit komercni i komunitni distribuci Kafky.
V pripade disconnected environments bez pristupu na internet je mozne playbook samozrejme adekvatne upravit.
Za me vyrazne ulehceni prace pri udrzbe a nasazovani.
Moc díky za další info. Proberu to s našimi devops a zkusím o tom napsat další info (ale zatím nemám vlastní zkušenosti, tak to nějaký týden potrvá). Vypadá to moc dobře.
PS: měli jsme pár nepěkných výpadků Kafky resp. konzumentů po řekneme poněkud nestandardních operacích. Například taková "maličkost" jako změna retention policy vedla k výpadku jednoho brokera (což by nemělo vadit), ale mezitím konzumenti nedokázaly navázat připojení na nového leadera kvůli chybě v knihovně. No a vypadlo to samozřejmě v pátek pozdě odpoledne :-)