Pokud se objeví omezení jen na české znaky, máme na krku stejné diskuse, jen na téma "proč nepovolit např. pi<b>ù</b>grande.cz", když to není nic proti ničemu. Následně se někdo bude ptát, proč nemůže např. ruskojazyčná/arabská komunita mít stránky s doménovým jménem ve své abecedě (ale protože žijí v ČR, tak s TLD .cz) a argumenty budou pořád zcela identické.
Osobně bych byl pro IDN s vazbou na ASCII, jenže budeme např. azbukové znaky brát podle významu nebo podle vzhledu?
Domnívám se, že nemá cenu řešit jiné abecedy než latinku, protože TLD je latinková a měnit abecedy uprostřed psaní doménového jména je pro každého velmi nepohodlné. I doména .eu má pravidlo, že domény v cyrilici se přestěhovaly do .ею a domény v řečtině se právě teď stěhují do .ευ.
V latince je možné být velkorysý a zpřístupnit třeba veškeré znaky rozšířené latinky, v případě varianty zavedení s vazbou na ASCII nějakou podmnožinu tohoto seznamu, pro kterou je mapování jednoznačné.
Případně se dá použít množina znaků, kterou pro češtinu v IDN povolují třeba Poláci: https://www.iana.org/domains/idn-tables/tables/pl_cs-pl_1.0.html…
Odpověděl jste si sám - nebyl zbytečný. Já měl na mysli výhradně českou abecedu. Přehlásky by se třeba hodily, ale proč potom vy (a polští soudruzi) neřešíte i např. „ľ“ (nezmiňuju další znaky), když v ČR žije mraky občanů se slovenským jménem?
Řeč byla o české abecedě, proto jsem dal odkaz na českou abecedu. Pokud chcete i slovenskou, není problém přidat slovenskou abecedu. Ale není potřeba vymýšlet kolo, abeced už používaných v IDN je spousta. Nemyslím si, že bychom chtěli v .cz používat nějakou abecedu, která ještě není povolena v .pl, například.
Mícháte to dohromady - znaky v české abecedě, české znaky v polské(???) doméně a znaky v české doméně jsou 3 různé věci. Já jsem jen upozorňoval, že není jasné, proč by česká doména měla používat českou abecedu s právě 3 německými přehláskami, očekával bych buďto jen české, nebo všechny v ČR používané znaky.
Já jsem jen upozorňoval, že není jasné, proč by česká doména měla používat českou abecedu s právě 3 německými přehláskami, očekával bych buďto jen české, nebo všechny v ČR používané znaky.
To jsem ovšem z vašeho komentáře nedešifroval, a evidentně nejsem jediný. Možná to bude souviset s tím, že se ve vašem prvním komentáři nevyskytovala slova jako „přehlásky“.
S tím „všechny v ČR používané znaky“ je trochu problém, v ČR klidně můžete používat japonské písmo nebo klingonštinu. Takže je potřeba to redukovat na v ČR „často“ nebo „běžně“ používané znaky, a to už se právě dostáváme k té sadě, kterou pro češtinu mají definovanou Poláci. Jinak je je samozřejmě možné použít i tu čistou českou abecedu, kterou má třeba TLD .man.
Myslím, že v .cz by bohatě stačilo podporovat českou, německou, slovenskou a polskou abecedu.
Nebo obecně všechny abecedy založené na latince, protože v nich se může uživatel zorientovat.
Neviděl bych ani jako velký problém podporovat úplně vše. Zvýší se sice mírně riziko záměn, ale s podvodníky je potřeba bojovat případ od případu a ne dopředu podezírat všechny z nekalých úmyslů. (Proti takovému postoji jsem poměrně vysazený, v posledních letech se i zákony píší tak, že neúměrně zasáhnou poctivou většinu, aby se předešlo pár jednotlivým podvodům, které by se daly postihovat jinak)
V EU se přistoupilo k tomu, že by celé doménové jméno mělo být v jedné abecedě. Tj. pokud chcete použít cyrilici, použijete TLD .ею. To mi připadá jako rozumné pravidlo, tj. pro .cz bych rozhodně jiné než latinkové abecedy nepovoloval.
Toto bych zrovna viděl jako otázku pro právo. Podporovat IDN nebo nepodporovat IDN je podle mě technicko-politické rozhodnutí. Nicméně, ve chvíli, pokud bude IDN povolené, ale omezené na subset, trochu bych se obával, jestli by to nemohlo spadnout pod zakázanou diskriminaci (konkrétně zakázaná diskriminace na základě národnosti). Já být na místě CZ.NIC, tak bych z opatrnosti uvažoval raději o full IDN.
Jo jo. Já bych z opatrnosti tu bezpečnostní díru, o které se mluví od samého začátku, raději neflíkoval. Ono by se to někomu nemuselo líbit.'
Diví se někdo, proč tolik lidí IDN nechce? Jenom v téhle diskuzi jsem napočítal minimálně tři naprosto nekompatibilní ale "jediné rozumné" varianty jak to má vlastně fungovat.
Stačilo by udělat první opatrný krok. Podle zkušeností se dá ubírat na striktnosti pravidel.
Např.:
1. fáze = povolíme dvě pomlčky v názvu domény; tím se punnycode otevře pro znalé (laik si punnycode nevytvoří, ani ho to nenapadne.
2 fáze = zavedeme IDN do registrace pro laiky. Zavedeme přednostní ochranu držitelů ASCII varianty téhož jména; zavedeme podmnožinu českých znaků z IDN.
3. a další fáze = Za dva roky bude třeba možné ochranu zrušit a zavést širší podporu znaků.
Ta první fáze je tam konkrétně proč? Aby si typosquatteři a podobní odborníci mohli zaregistrovat vhodné xn--... domény než se ve fázi 2 zavede přednostní ochrana držitelů ASCII varianty?
Máte pravdu, už v první fázi by měla být ochrana, ve druhé by mělo následovat zpřístupnění.
Ona je to ve skutečnosti jen podfáze, než se registrátoři připraví ve svých formulářích na háčky a čárky.
„V EU se přistoupilo k tomu, že by celé doménové jméno mělo být v jedné abecedě. Tj. pokud chcete použít cyrilici, použijete TLD .ею. To mi připadá jako rozumné pravidlo, tj. pro .cz bych rozhodně jiné než latinkové abecedy nepovoloval.“
Tak na tom se asi všichni shodneme, že by znaky neměly přesahovat rodinu latinek. Ale sám o kus výše píšete, že “ v .cz by bohatě stačilo podporovat českou, německou, slovenskou a polskou abecedu“, jen z hlavy mě napadá, že tam nebude třeba francouzské ocasaté „c“, švédské kroužkované „a“, nizozemské „ij“(!) atd. (Mimochodem pokud vím, doteď se nikdo nenamáhal zavést pro české „ch“ v Unicode znak, jako mají oni Nizozemci „ij“.)
Takže za mě buďto pouze českou abecedu (a po zkušenostech v budoucnu, jak píše Šilhavý, případně rozšířit), nebo všechny latinky.
>… nizozemské „ij“(!) atd. (Mimochodem pokud vím, doteď se nikdo nenamáhal zavést pro české „ch“ v Unicode znak, jako mají oni Nizozemci „ij“.)
Vida, už jsem ani netušil, že v tak velké diskuzi bude něco obohacujícího. A o tom, že nizozemština má znak ij
, který existuje jako samostatný znak-ligatura v Unicode jsem doteď nevěděl. Dohledal jsem ale, že tento znak slouží pouze pro konverzi z legacy kódování, v běžných textech se má nahradit dekomponovanou variantou. Protože žádné legacy kódování pokud vím nikdy nekódovalo české ch
jako samostaný znak, asi není žádný důvod jej zavádět v Unicode.
Bylo by zajímavé podívat se, jak se ke znaku ij
staví Nizozemský registr, ale ten je bohužel jeden z mála, co IDN nezavedl. Můžeme se ale podívat do pravidel pro doménu .be
, kde je nizozemština podporovaný jazyk. A tam tenhle znak nepodporují. Není ani v sadě rozšířené latinky CentralNicu, kterou jsem tu linkoval dřív.
Caletkovi:
Odbočuju, ale ten příklad s „ij“ jsem uvedl jen jako další z mnoha národních znaků v Evropě, ne jako něco, co musíme mít v našem IDN. V češtině je „ch“ samostatným písmenem abecedy(!!!; kolik Čechů to ví?), tudíž jsem toho názoru, že by mělo být stejně jako á, č, ř, ... v Unicode i samostatným znakem (bez ohledu na to, jak se píše na papír či zadává z klávesnice), bylo by to koncepční. Např. v realizaci řazení by nebyl takový bordel.
V češtině je „ch“ samostatným písmenem abecedy(!!!; kolik Čechů to ví?), tudíž jsem toho názoru, že by mělo být stejně jako á, č, ř, ... v Unicode i samostatným znakem (bez ohledu na to, jak se píše na papír či zadává z klávesnice), bylo by to koncepční. Např. v realizaci řazení by nebyl takový bordel.
Ale byl. Čeština přejímá spoustu slov z cizích jazyků, kde nelze hovořit o "ch". Příkladem z učebnic základní školy je jméno Hanse Christiana Andersena [hánz kristián]. Jak by pak vypadal vstup z klávesnice, aby se dalo rozlišit CH od C-H?
„Ale byl. Čeština přejímá spoustu slov z cizích jazyků, kde nelze hovořit o "ch". Příkladem z učebnic základní školy je jméno Hanse Christiana Andersena [hánz kristián]. Jak by pak vypadal vstup z klávesnice, aby se dalo rozlišit CH od C-H?“
Ale nebyl. Dánština s tím nemá co dělat, ta (pokud vím) žádné písmeno „ch“ nemá, tam jsou to 2 znaky, „c“ a „h“ (1. je jejich problém, 2. to umíme napsat). Vstup z české klávesnice by ideálně vypadal tak, že stejně jako má č, ú, ů (a německá kl. ß), měla by vedle nich i „ch“. (ŠOK! :O :O :O Kacířství...!) „Ch“ je v češtině JEDINÝM písmenem, které se na počítači ukládá nekoncepčně 2 znaky (a komplikuje řazení atd.). Jak by se vám líbilo, kdyby se např. písmeno „š“ jako označení hlásky psalo jako „sj“, ale pracovat by se s ním muselo jako s jedním znakem?
Vstup z české klávesnice by ideálně vypadal tak, že stejně jako má č, ú, ů (a německá kl. ß), měla by vedle nich i „ch“. (ŠOK! :O :O :O Kacířství...!) „Ch“ je v češtině JEDINÝM písmenem, které se na počítači ukládá nekoncepčně 2 znaky (a komplikuje řazení atd.).
To by se neujalo. Lidé zvládají dobře rozlišit i/y, hůře s/z, s chybami ú/ů, a zavádět CH by nepřineslo nic, než prudu. V psaném textu je to opravdu C-H, ostatně už od dob psacích strojů.
Jak by se vám líbilo, kdyby se např. písmeno „š“ jako označení hlásky psalo jako „sj“, ale pracovat by se s ním muselo jako s jedním znakem?
Podobný problém řeší německy mluvící země se svým scharfes s - tam je to dokonce o to historicky zajímavější, že pro ostré "s" neexistovalo velké písmeno, takže i z dob klasické sazby se přepisovalo jako S-S.
Podle mě se snažíte vymyslet pořádek tam, kde není potřeba :)
Ano.
- I po 20 letech se IPv6 používá převážně pro přenos IPv4 komunikace na delší vzdálenost. Na cokoliv jiného se dá stále použít jen s problémy (poskytovatelé to prostě nepodporují).
- IPX wrappery existují i pro windows 10, protože jsou stále potřeba.
- A kdyby nebyly dobře dostupné settopboxy, tak ta změna televizního vysílání taky neklapne.
Já nepsal, že se staré systémy _dají_ emulovat těmi novými. Já tvrdím, že nové systémy _musí_ umět emulovat ty staré.
Díky tomu musí v rámci té emulační vrstvy obsahovat veškerý binec toho původního řešení navíc k tomu, co přinesly ty nové vrstvy. Ta emulační vrstva je taky součást toho nového řešení a tím omezuje, jaké revoluční změny jsou vůbec možné.
Reagoval jsem na tvrzení, že v realizaci řazení by nebyl takový bordel. Jak ten bordel jednou existuje, tak už s ním nikdo nehne. Dá se leda zjednodušit část systému za cenu toho, že se ten binec přesune jinam. A celková složitost tím naroste.
Samozřejmě, že je dobré dělat věci správně. Zajímavější otázka je, jak to udělat. :) Problém se IMO skrývá ve slově "správně". Bohužel nejsme ve škole, kde existují jednoznačně správné odpovědi.
Abych nemluvil obecně, tak se konkrétně zaměřím na to zmiňované "ch". Je to vlastně dokonalý příklad, protože věci kolem textu jsou výsledkem decentralizovaného vývoje, který už trvá staletí.
Ch není nic výjimečného. Podobných grapheme clusterů se v různých jazycích vyskytují mračna. Velice podobné, ale zároveň nekompatibilní jsou třeba taky ligatury. Takže různá normalizace textu podle použití je něco, čeho se prostě nezbavíme. Jsou v tom staletí poznatků o sazbě, aplikované psychologii a kdoví čem ještě.
Když to bez normalizace nepůjde, tak nedává nejmenší smysl přidávat další a další znaky. Nic to nevyřeší a jen to přidá další speciální případy a výjimky. A proto jde taky unicode opačným směrem. Jednoznakové písmena s diakritikou jsou spíš historický pozůstatek. Kombinace jsou flexibilnější a nepřinášejí žádné nové problémy. Ono už jenom mluvit o "znacích" je v unicode trochu problém, protože je to dost závislé na kontextu.
Tady fakt není problém v tom, že by to bylo implementované blbě. Texty jsou brutálně komplikovaný problém, který se nedá zjednodušit víc než na úroveň toho, co se snažíme modelovat.
Tak na tom se asi všichni shodneme, že by znaky neměly přesahovat rodinu latinek. Ale sám o kus výše píšete, že “ v .cz by bohatě stačilo podporovat českou, německou, slovenskou a polskou abecedu“, jen z hlavy mě napadá, že tam nebude třeba francouzské ocasaté „c“, švédské kroužkované „a“, nizozemské „ij“(!) atd. (Mimochodem pokud vím, doteď se nikdo nenamáhal zavést pro české „ch“ v Unicode znak, jako mají oni Nizozemci „ij“.)
V tom je právě ten vtip toho návrhu přidat německou, slovenskou a polskou abecedu – to jsou totiž jazyky, které se na našem území historicky tradičně vyskytovaly. Takže se s nimi v českém prostředí občas potkáte. „Å“ nenajdete ani v českých slovech, ani v názvech měst, ani ve jménech. A jakmile začnete přidávat francouzké, švédské a nizozemské bž, vždycky přijde někdo ještě s něčím dalším, co bude nutné také přidat. Takže nakonec skončíte u celé latinky. Jenže pak se vám může stát, že se v Unicode do latinkových znaků přidá nizozemské ij, a rázem musíte řešit problém s homografovým útokem.
Což je přesně ten důvod, proč bych začal buď českou abecedou, nebo českou+slovenskou+německou+polskou. Uspokojíte tím potřeby 99,99 % vlastníků domén a nemusíte řešit žádné problémy s podivnými znaky. A pak můžeme dalších pět let diskutovat o tom, které znaky se přidají, aby bylo možné zaregistrovat těch dalších pět domén se znaky mimo tyhle abecedy.
Což je přesně ten důvod, proč bych začal buď českou abecedou, nebo českou+slovenskou+německou+polskou. Uspokojíte tím potřeby 99,99 % vlastníků domén a nemusíte řešit žádné problémy s podivnými znaky.
V tomto máte pravdu a historicky s Vámi souhlasím. Na druhou stranu, hlásíme se k uskupení moderních států, které nechtějí připouštět diskriminaci mimo jiné na základě národnosti. Takže s výhledem do budoucna i na hodnoty, které (snad) uznáváme, bych preferoval nevykašlat se ani na to 0,01 %. Zároveň ale připouštím, že to nemusí být od prvookamžiku.
Jak píše Šilhavý: Začal bych českou abecedou, to nikdo nemůže kviknout, protože je to česká doména. Pan Glückstein si zaregistruje zlatnictví v ASCII a když to bude v budoucnu fungovat, pak se dá IDN rozšířit (a pan Glückstein si pouze dodělá alias), ale pak to nemůže být po česku napůl, protože někdo bude vždycky držkovat, ale musí to být na plnou díru.
Takže když to shrnu, IDN má být do TLD .cz zavedeno co nejdříve, IDN má být vázané na ASCII doménu a v IDN povolit jen znaky české abecedy. A pak nastartovat nějaký proces, jak pravidelně řešit, zda se mohou nějaká pravidla uvolnit – přidat další povolené znaky, rozvázat vazbu mezi IDN a ASCII. Teď už jenom aby to akceptoval CZ.NIC, že diskutující na Rootu už shodli, jak to má vypadat :-)
Teď už jenom aby to akceptoval CZ.NIC, že diskutující na Rootu už shodli, jak to má vypadat :-)
Což je trochu problém. CZ.NIC má být jen správcem TLD CZ, ale ve skutečnosti se chová jako majitel, salámu, který z něj ukrajuje kousky. Jedná sice v souladu s právním řádem ČR, ale zcela mimo poslání, které mu bylo svěřeno. Takže držitelé domén a jejich návštěvníci, kteří to ve skutečnosti financují, mohou akorát držet hubu a krok.
To by nebyl Miroslav Šilhavý, aby si do CZ.NICu nekopnul. Sice úplně mimo realitu a nenapíše nic konkrétního, aby nebylo možné ho na faktech usvědčit, ale kopne si.
To je začarovaný kruh stejně jako s tím IDN. Na faktech sedí samotný CZ.NIC a do karet jim nikdo nevidí. Veřejné materiály jsou buďto na úrovni zákonné povinnosti (takže nejde vidět nic aspoň trochu do detailu), nebo jsou na úrovni marketingových žvástů. Klíč k těm dveřím drží samotný CZ.NIC. Dokud je nepootevře, nezbývá (mi), než stát přede dveřmi aspoň poukazovat na nevyhovující stav. A za nevyhovující stav považuji předně ty zavřené dveře - co je za nimi, to už se jen dohaduji.
@Filip Jirsák: Ale prdlačky. Popisuju, jak se chovají navenek. Nejsou majiteli TLD CZ, mají jen vykonávat správu tak, aby se domény dostaly k držitelům. To je jednoznačné určení jejich role a je na místě kritizovat, když správu nevykonávají dostatečně přesvědčivě. Jiná věc je, že to stejně nezměním a že ani neexistuje nástroj, kterým by se to dalo změnit. To ovšem neimplikuje, že je to v pořádku.