Proč (ne)zavádět háčky a čárky v české doméně

6. 1. 2020
Doba čtení: 7 minut

Sdílet

Zavedení podpory pro doménová jména s háčky a čárkami se v české doméně opět nekoná. Část uživatelů to vítá, jiná část nikoli, většině to je ale nejspíš jedno. Pojďme si shrnout argumenty pro a proti.

Na konci loňského roku oznámil správce domény .CZ, sdružení CZ.NIC, že Češi posedmé odmítli diakritiku v doméně .CZ, tedy podporu standardu IDN. Jedná o jeden z těch problémů, na který má každý názor a tak je obtížné udržet věcnou diskuzi. Pokusím se proto v tomto komentáři přehledně sepsat argumenty jednotlivých názorových proudů a analyzovat jejich relevanci.

Co se dozvíte v článku
  1. Proti: hrozí útok homoglyfy z cizích abeced
  2. Proti: IDN domény jsou nedostupné cizincům
  3. Proti: potřeba nakupovat duplicitní domény
  4. Pro i proti: běžní uživatelé koncept doménových jmen nechápou
  5. Pro: IDN domény už jsou běžně používané v marketingu
  6. Pro: zkušenosti ze zahraničí ukazují, že se není čeho bát
  7. Pro: je možné zavést vázanou registraci
  8. Registr a registrátoři by museli upravit svoje systémy
  9. Svět se neptal a IDN zavedl, doména .CZ zaostává

Proti: hrozí útok homoglyfy z cizích abeced

Útok homoglyfy, tedy stejně či podobně vypadajícími znaky z jiných abeced, je jedním z nejčastěji skloňovaných argumentů proti IDN. Doménové jméno bude vypadat zcela autenticky, ale ve skutečnosti povede někam jinam. Stejný problém do jisté míry existuje i v čistém ASCII: u některých fontů je velmi obtížné odlišit velké měkké I od malého l, případně malé l od číslice 1, nebo velké O od číslice 0. Divoké IDN by možnost obdobných náhrad rozšířilo o spoustu dalších možností.

Všechny registry, které zavedly IDN, s tímto útokem počítají a nějakým způsobem jej potírají. Pro domény vztažené ke konkrétnímu jazyku či zemi se obvykle volí pouze znaky z jazyků, které pro danou doménu prvního řádu dávají smysl, pro českou doménu by tedy připadalo v úvahu povolení pouze patnácti diakritických písmen, která se používají v češtině a případně několika dalších z jazyků blízkých zemí.

U generických registrů, kde není množina jazyků předem omezená, se s útokem homoglyfy bojuje zákazem míchání znakových sad – je možné použít písmena z jakékoli abecedy, ale pouze z jedné. Detailně to rozebírá dokument IDN implementation guidelines, který dal dohromady tým sestavený ze zástupců registrů pod hlavičkou ICANN.

Zamezení míchání abeced nemusí útok úplně eliminovat, jak se ukázalo v roce 2017 na příkladu slov apple.com a epic.com, která ač obsahují pouze ASCII znaky, mohou být celá napsána v jedné ne-ASCII znakové sadě. Jedná se však pouze o omezenou množinu znaků a jde tedy o útok srovnatelný s útoky přímo uvnitř sady ASCII. Rozhodli se jej řešit výrobci webových prohlížečů, takže doménové jméno obsahující pouze homoglyfy znaků ASCII zapsané v jiné znakové sadě zobrazují v zakódované podobě.

Proti: IDN domény jsou nedostupné cizincům

S tímto argumentem lze jen souhlasit. Nejste-li vybaveni příslušnou klávesnicí, bude vkládání diakritických písmen představovat velký problém. Ten si musí uvědomit každý, kdo IDN doménu registruje a přijmout příslušná opatření. Rozhodně to ale není argument proti globálnímu zákazu zavádění IDN.

Proti: potřeba nakupovat duplicitní domény

Tento argument vychází z toho, že provozovatel služby, která nyní používá doménu bez diakritiky, ale její jméno v sobě diakritické značky obsahuje, je zavedením IDN motivován zaregistrovat příslušnou IDN variantu ASCII domény především proto, aby zabránil jiným osobám tuto doménu zaregistrovat a parazitovat tak na jménu značky. Opět jde o obdobu praktik, které se dějí už dnes v prostém ASCII, zejména u domén se složitějším hláskováním, které jsou náchylné k překlepům.

Pro i proti: běžní uživatelé koncept doménových jmen nechápou

Tento argument může stát na obou stranách názorového spektra. Odpůrce IDN zdůrazní, že běžní uživatelé nerozlišují mezi adresním řádkem a vyhledávacím polem, ostatně webové prohlížeče už dávno tato vstupní pole sjednotily do jednoho. Nesprávně formulované doménové jméno je tak opraveno vyhledávačem na správnou variantu.

Neplatí to ovšem absolutně, pokud uživatel do adresního a zároveň vyhledávacího pole (omniboxu) zadá například www.neběží.cz, k žádnému vyhledávání nedojde a objeví se jen informace o chybě. Argumentem zastánce IDN proto může být, že uživatelé, kteří vůbec nechápou celou filozofii systému DNS, by tím systémem neměli být mateni. Matoucí by nebylo, kdyby podpora IDN vůbec neexistovala. Pak by platilo jednoduché pravidlo, že doménová jména jsou vždy latinkou bez diakritiky.

Jenže tak to už není. IDN bylo zavedeno v mnoha registrech a jednoduché pravidlo, že doménová jména jsou vždy bez diakritiky, dnes neplatí. Běžný uživatel nepochopí, proč může existovat neběží.eu, ondřej.caletka.cz, ale už nemůže existovat neběží.cz, přestože existuje  háčkyčárky.cz.

Pro: IDN domény už jsou běžně používané v marketingu

Jak se internet stal masmédiem, vzniká potřeba prezentovat webovou adresu určitého produktu či společnosti ve fyzickém světě, tedy tam, kde cílová skupina nemůže jednoduše kliknout na odkaz. Typicky u čistě internetových firem pak doménové jméno tvoří podstatnou část, nebo klidně úplně celé jméno firmy. Pokud se váš produkt jmenuje třeba Seznam, žádný problém nemáte. Pokud se ale váš produkt jmenuje třeba Rohlík, Košík, Kuchařky, Deník nebo Neběží, můžete si vybrat jen mezi špatnými řešeními:

  1. budete produkt komunikovat jako doménové jméno včetně diakritiky a akceptujete fakt, že takové jméno nebude v této podobě funkční, nebo
  2. budete jméno psát cesky bez diakritiky, a spokojíte se s tím, že název produktu nebude vypadat dobře, nebo
  3. vyberete jinou doménu prvního řádu, takovou, ve které nebude problém zaregistrovat jak variantu v čistém ASCII (pro cizince a lidi, co na počítači zásadně píší bez diakritiky), tak i variantu s příšlušnými diakritickými znaky.

První jmenované řešení je veřejném prostoru vidět poměrně často.

Ještě větším kamenem úrazu může být rozhlasová reklama, kde je potřeba doménové jméno bez háčků a čárek vyslovit a přitom zachovat srozumitelnost a jednoznačnost sdělení.

Pro: zkušenosti ze zahraničí ukazují, že se není čeho bát

Argumentem pro zavádění IDN v doméně .CZ mohou být nepochybně zkušenosti z ostatních registrů. Například v doméně .EU byla podpora IDN zavedena před deseti lety, v prosinci 2009 a to v otevřené podobě, kdy je možné použít jakýkoli z úředních jazyků EU, ale nelze míchat různé znakové sady. O IDN není nijak extrémní zájem, jejich počet se pohybuje kolem čtyřiceti tisíc, tedy asi jedno procento všech registrovaných domén.

Podle prohlášení Reginy Fuchsové na konferenci IT19, nezaznamenal EURid žádný nárůst soudních sporů o domény v souvislosti se zavedením IDN. Stejně tak lze předpokládat, že případné zavedení IDN v doméně .CZ nespustí žádnou lavinu nových bezpečnostních problémů, protože pokud by taková nebezpečí skutečně hrozila, byla by už dávno zneužívána v jiných doménách prvního řádu.

Pro: je možné zavést vázanou registraci

Snad všechny registry, které IDN zavedly, jej zavedly v otevřené podobě, kdy doména s diakritickými znaky je zcela nezávislá na obdobné doméně v čistém ASCII, s výjimkou přechodného období při závádění IDN, kdy držitelé domén v ASCII či příslušných ochranných známek dostanou přednostní právo na pořízení nově zaváděných domén.

Ačkoli se ukazuje, že tento model je v praxi funkční a problémy nepřináší, není to jediný možný model fungování IDN. Pro jazyk používající pouze znaky rozšířené latinky a jednoznačným mapováním znaku s diakritikou na znak ASCII, jakým čeština je, se nabízí možnost registraci těchto jmen svázat. Příslušnou IDN by tak mohl držet pouze držitel domény, obsahující přepis IDN do čistého ASCII. Nebylo by možné držitele změnit a při expiraci ASCII domény by byla vyřazena i příslušná IDN.

Marně přemýšlím, jakou by takovýto režim registrace představoval nevýhodu či hrozbu proti současnému režimu, kdy je registrace IDN zcela znemožněna komukoli. Výhody jsou přitom evidentní – služba jménem Neběží může být klidně komunikována jako Neběží.cz a ať už zákazník do prohlížeče zadá nebezi.cz nebo neběží.cz, vždy se dostane k cíli.

Registr a registrátoři by museli upravit svoje systémy

Zavedení IDN by jistě znamenalo úpravy systémů. Ty největší by probíhaly nejspíše na straně registru, menší úpravy by pravděpodobně museli provést i jednotliví registrátoři, tedy alespoň ti, kteří hodlají IDN svým zákazníkům nabízet. Což rozhodně nemusí být všichni, stejně jako všichni registrátoři dodnes nepodporují třeba DNSSEC.

Úprava na straně registru rozhodně nepředstavuje žádný zásadní problém; ostatně už z dřívějších prohlášení zástupců CZ.NIC je patrné, že registrační systém FRED je na IDN připraven, jeho nezavedení je tedy pouze politickým, nikoli technickým rozhodnutím.

Svět se neptal a IDN zavedl, doména .CZ zaostává

V rozhovoru o IDN v české doméně z roku 2010 padlo, že „na háčky a čárky v doménách má názor každý, kdo někdy použil internet“ a proto by si o tom měli rozhodnout uživatelé sami. Nemyslím si, že je to tak jednoduché a jakékoli zavádění IDN by mělo počkat do chvíle, než se pro něj vysloví nadpoloviční většina respondentů v pravidelné anketě.

ict ve školství 24

Výsledky poslední ankety bychom naopak měli interpretovat tak, že až pětina organizací či vlastníků domén a až třetina jednotlivců IDN v české doméně podporuje a současný stav jí tedy nejspíše plně nevyhovuje. Pokud je možné vyhovět této menšině v jejím přání bez toho, aby tím byly významně narušeny zájmy většiny, která zavádění IDN nepodporuje, mělo by tak být učiněno.

Takovým opatřením by bylo zavedení registrace IDN vázané na držení příslušné domény bez háčků a čárek, které stávající držitele domén k ničemu nenutí a pokud s podporou IDN nesouhlasí, nemusí nic dělat a nejsou nijak ohroženi. Zároveň se domnívám, že tato varianta bude vyhovovat i většině podporovatelů IDN, neboť dostupnost služby i pro uživatele bez české klávesnice je nepochybně zásadní.

Autor článku

Ondřej Caletka vystudoval obor Telekomunikační technika na ČVUT a dnes pracuje ve vzdělávacím oddělení RIPE NCC, mezinárodní asociaci koordinující internetové sítě.