Konečné řešení v boji proti spamu v diskusních fórech

4. 12. 2006

Doba čtení: 5 minut

Líbí se vám článek?
Podpořte redakci

Aktualizováno: Aktualizováno (4. 12. 2006 21:00)

Představení nového způsobu filtrování spamu v diskusním fóru. Jednoduchá technologie založená na PHP, MySQL a knihovně GD se snaží odradit roboty a nabídnout uživatelům pohodlný způsob ověřování. Zdrojové kódy jsou navíc uvolněny pod licencí GNU/GPL v2. K dispozici je česká i anglická verze.

Spamový filtr využívá databázi MySQL a GD knihovnu pro generování obrázků ve formátu PNG. Dosud běžné ochrany proti spamu v diskusích i jinde využívaly jeden obrázek, který byl špatně čitelný pro technologie OCR rozpoznávající znaky. Podle mě se dříve nebo později dopracuje technologie OCR k tomu, že bude možná i dokonalejší než schopnosti člověka daný text přečíst. Dokonce bych řekl, že je tomu tak již nyní. Proto jsem zavrhl cestu, která je nyní hojně využívaná – např. Captcha. Zvolil jsem cestu obyčejných znaků a textu generovaných GD knihovnou a zobrazovanou jako PNG.

Systém je založen na textové otázce v národním jazyce a znakových kódech zadávaných též v národním jazyce. Věta i kód jsou zobrazovány náhodně jako text a PNG. To by mělo donutit případného útočníka, aby si celou sekci spam filtru musel převést na bitmapu. Tu následně musí přečíst přes OCR. To by při současných technologiích neměl být pro spamera problém. Další překážka, kterou stavím do cesty, je vkládání náhodných znaků do věty, kterou si útočník musí přečíst. Vypadá to jako překlepy a člověk si musí překlepy odfiltrovat. Robot s tím zřejmě bude mít problém. Robot by musel použít nějaký slovník, který je běžně součástí textových procesorů, a určit se 100 % pravděpodobností, o jaký překlep se jedná. Že to není tak jednoduché se můžete sami přesvědčit, pokud se takový překlep pokusíte ve svém editoru automaticky opravit. Ne vždy se to povede, protože je potřeba překlep vyhodnotit v kontextu věty. A kam tím mířím? Nejedná se konkrétně o češtinu, ale o anglickou verzi tohoto filtru. Vyhodnocování věty umělou inteligencí v angličtině bude vždy trochu napřed vzhledem k rozšířenosti tohoto jazyka. Vyhodnotit a zodpovědět jednoduchou otázku v angličtině by nějaká současná nebo budoucí umělá inteligence mohla. Pokud jí postavíme do cesty ještě překlepy, je to asi maximum, co můžeme udělat, aniž bychom ohrozili použitelnost filtru pro běžného člověka.

Adventní kalendář

Už jste dnes viděli, jak vypadá další odkryté okýnko v našem adventním kalendáři? Každý předvánoční den se na jeho stránce jedna část odkryje. Nenechejte si uniknout pointu a diskutujte o ní v naší diskusi.

To máme tedy větu, která člověku nebo robotu říká, co má udělat. Pokud pokračujeme ve vyhodnocování jako robot a pochopili jsme, co máme udělat, už stačí jen na bitmapě filtru přečíst správná písmena. To bych na místě programátora spamového robota udělal asi jednoduchým grafickým filtrem podle barvy, který by vyloučil falešné znaky. Pak už jen zbývá přes OCR přečíst co zbylo a odeslat výsledný kód přes formulář. Zdá se Vám to jednoduché?

A aby toho nebylo málo, je ve zdrojovém textu výslovně doporučeno pro každou implementaci použít vlastní věty. Jako příklad uvádím věty ze zdrojového textu – 4 varianty pro kód se stejným barevným složením (opisují se v daném případě černé znaky, které jsou doplněny falešnými modrými):

„Opište znaky vlevo, zobrazené černě“
„Opište znaky nalevo, které nejsou modré“
„Opište nejtmavší znaky vlevo“
„Opište znaky nalevo, které nejsou v barvě oblohy“

Barvy si můžete nadefinovat sami, mělo by jít nadefinovat až devět barev a vždy zobrazit náhodně jen dvě vybrané. Jenže to je tolik kombinací vět ve zdrojovém textu, že se s tím asi nikdo nebude chtít psát. Variant jednotlivých vět je možné vytvořit libovolně mnoho, jako příklad jsou uvedeny čtyři a ve zdrojovém textu a u příkladu jsou nadefinovány jen první dvě varianty. Pro účinnost filtru je důležité zachovat různorodost a nadefinovat si vlastní věty při každé implementaci.

Další ochranou, kromě překlepů a nutnosti vyhodnotit a pochopit větu, je obrana proti skenování databáze vět/otázek z daného serveru, aby útočník nemohl získat jednoduše větší část nebo celou databázi vět. (Tuto databázi by pak pro konkrétní server mohl zpracovat člověk a robota naučit odpovídat na otázku. Otázka by se pak vyhodnocovala podle 95 % podobnosti kvůli definovaným překlepům.) Identifikaci a vyhodnocování podle IP adres jsem zavrhl a vytvořil jsem jednoduchý filtr pro sledování zobrazení stránky s větou a kódem. Jsou definovány časové intervaly a pro každý časový interval je povoleno určité množství zobrazení filtru. Po překročení limitu se zobrazí „Spam filter aktivován” a žádnou větu ani kód neuvidíte. Limity pro každý časový interval si musíte nadefinovat sami podle skutečné návštěvnosti stránky pro vložení diskusního příspěvku. Limity jsou definovány pro 10 sekund, 1 minutu, 10 minut, 1 hodinu, 24 hodin, 1 týden a můžete si zvolit i své vlastní, podle toho jaké časové statistiky máte k dispozici. Tato ochrana by měla hlídat jakékoliv aktivity vybočující z běžného chování návštěvníka. Například i pokus o skenování databáze otázek prostřednictvím sítě botů z náhodných IP adres, pokud toto skenování nebude respektovat hodnoty průměrné návštěvnosti. Následně bych tedy doporučil zlikvidovat veškeré veřejně dostupné statistiky o návštěvnosti, aby spamer neznal průměrnou návštěvnost.

Na diskusích se objevily připomínky přístupnosti takových filtrů pro zrakově postižené. To bych řešil speciálním webovým prohlížečem pro zrakově postižené, který by celou stránku převedl do bitmapy, tu pak přečetl přes OCR a obarvenou stránku převedenou do textu poslal do čtecího zařízení pro zrakově postižené. Tím by se zrakově postiženým zpřístupnila spousta současných webů.

Na závěr ještě detail o zobrazovaných znacích. Vždy mějte na paměti, že zobrazované znaky musejí být jednoznačně čitelné a nezaměnitelné. Ve zdrojových textech jsou úmyslně vynechané některé znaky, u kterých by mohlo dojít k záměně – např. malé o, velké O a nula a některé další. Pro překlepy jsou vkládány jen písmena malé abecedy, aby překlepy dokonale zapadly do věty. Znaková matice čtených kódů je variabilní a můžete jí dát libovolné rozměry a definovat maximální a minimální počty znaků v řádku a počet řádků. To samé platí o celém čtverci: základem jsou 2 čtverce – levý a pravý. Ale můžete si nastavit například matici 2×3, tedy 6 čtverců. Definice otázek by pak vypadala asi jako „vlevo nahoře”, „dole uprostřed“ atd. Systém je tedy plně konfigurovatelný a při dodržení všech doporučení je dostatečně silný a robustní. Možná pro české prostředí nebude ani potřeba používat „překlepy”.

Připravil jsem dvě verze – českou a anglickou. U každé jsou k dispozici zdrojové kódy a funkční příklad. Anglická verze má i anglické komentáře ve zdrojovém textu.

odkazy:

česká verze: kregion.cz/diskusni-forum-komentarovy-spam-filter/

anglická verze: kregion.cz/discussion-forum-commentary-spam-filter/

Aktualizováno:

Původní myšlenka obrany proti skenování otázek z náhodných IP adres byla zcela špatná. Umožňovala opakovaným reloadem zablokovat fórum. Chyba byla opravena a nyní systém vyhodnocuje reloady podle IP adres. Nyní si tedy opakovaným reloadem zablokuje útočník/návštěvník pouze přístup sám pro sebe.

Řešili jste někdy problém se spamem v komentářích?

Vstoupit do diskuse (137 názorů)

Pavel Chalupa

Pavel Chalupa je redaktorem zpráviček a příležitostným pisatelem článků na Root.cz.

Podle me, se dle platneho pravniho radu ceske republiky se nemuzete zavazat k necemu, co bude specifikovano v budoucnu a co je mimo vasi kontrolu. Stejne jako se nemuzete dopredu vzdat prav, ktera vam teprve vzniknou.

Libor Chocholaty

Sdílet

Adventní kalendář

Aktualizováno:

Řešili jste někdy problém se spamem v komentářích?

Autor článku

Pavel Chalupa

Populárním tankům roste konkurence. České Panzerkampf dorazí na Steam už za pár dnů

Pavel Pinkas (Luigi's Box): Čínské e-shopy doručí objednávku i za 10 minut a používají drony či…

Slevy aneb Jak v tom pořád plaveme

Kartička pojištěnce v mobilu. VZP má tuto funkci jako téměř poslední zdravotní pojišťovna

Regulace podle NIS2: K zákazu dodavatelů bude muset dojít, zaznělo ve Sněmovně

Regulace youtuberů a influencerů? Zeptali jsme se na názor právníků

Konec šéfa Intelu – a možná i jeho továren. Srdcař, který chtěl vrátit zlaté časy, odchází

Takto vypadají vaše zhmotněné akcie Nvidie a AI systémy, které v Česku zřejmě nikdy neuvidíte

Odborníci: Povinná regulace youtuberů a influencerů? Nekoncepční krok bez strategie

Konečné řešení v boji proti spamu v diskusních fórech

Sdílet

Aktualizováno:

Řešili jste někdy problém se spamem v komentářích?

Autor článku

Čtěte dále

Mohlo by vás zajímat

Z našich webů

Populárním tankům roste konkurence. České Panzerkampf dorazí na Steam už za pár dnů

Pavel Pinkas (Luigi's Box): Čínské e-shopy doručí objednávku i za 10 minut a používají drony či…

Slevy aneb Jak v tom pořád plaveme

Kartička pojištěnce v mobilu. VZP má tuto funkci jako téměř poslední zdravotní pojišťovna

Regulace podle NIS2: K zákazu dodavatelů bude muset dojít, zaznělo ve Sněmovně

Regulace youtuberů a influencerů? Zeptali jsme se na názor právníků

Konec šéfa Intelu – a možná i jeho továren. Srdcař, který chtěl vrátit zlaté časy, odchází

Takto vypadají vaše zhmotněné akcie Nvidie a AI systémy, které v Česku zřejmě nikdy neuvidíte

Odborníci: Povinná regulace youtuberů a influencerů? Nekoncepční krok bez strategie

Dále u nás najdete

„Pan šéf chtěl ve skutečnosti říct…“ aneb cena pusy na špacíru

Na směně měn mohou podnikatelé ušetřit statisíce. Jak?

Kartička pojištěnce v mobilu. VZP má tuto funkci jako téměř poslední zdravotní pojišťovna

Největší IT hrozba? Zdánlivě neškodný internetový prohlížeč…

Do ČR přichází specialista na repasované elektro refurbed

Placené Mapy.cz jsou tady

„Nemáme na tom zájem“. Opozice brzdí TV poplatky

Sledují vás přes HDMI? Útok využívá elektromagnetické záření

Zpravodajství ČT chystá nové pořady

Klienti VZP nemusí nosit plastovou kartu, mohou mít elektronickou

Učitelé matematiky vymírají. Matika Česku jim dorovná platy

Strážce majáků ničila samota, dřina a jedovaté výpary

Evropská peněženka digitální identity bude revoluční

Kdy se OSVČ vyhne platbě sociálního pojištění?

Vzrostou limity u dohod i zaměstnaneckých benefitů

Spisovatel Karel Poláček zřejmě zemřel později, než se soudilo

Šestka nad čtyřkou? Zastaralé. Čtyřka nad šestkou!

Identita občana se přesunula na gov.cz

Smart home na vzestupu, české domácnosti jsou čím dál chytřejší

Přehled změn v sociálním pojištění OSVČ v roce 2025