A proč by neměla být latinka v počítačové branži nadřazená? Ruští, čínští i arabští programátoři píšou své programy ve standardních jazycích v latince; angličtina se chca-nechca stala univerzálním komunikačním jazykem v mezinárodní síti, tak co.
Kdysi se Sověti snažili být sví a "vymysleli" programovací jazyk KOBOL (přesněji řečeno КОБОЛ) - byl to standardní jazyk Cobol, jehož klíčová slova byla přeložena do ruštiny a psána azbučkama. Pokud vím, tak v tom nikdy nikdo nic pořádnýho nenaprogramoval. Kancelářské stroje dostaly tehdá komunistický státní úkol udělat Cobol v češtině, naštěstí na to nebyly prachy.
Pikantní je, že ten ruskej Kobol pojmenovali anglicky - přepsali anglický akronym "COmmon Business Oriented Language" do azbuky a nijak jej nepřekládali, například OBBJAZ/ОББЯЗ (ОБщий Бизнес-ориентированной ЯЗык
U domén určitě nastanou i jiné problémy jako třeba podobnost znaků z různých abeced (to bude teprve voda pro phishing), jak takové znaky vůbec zadat (pro mezinárodní stránky to stejne bude muset být jen ascii), jak do systému dostat všechny znaky ze všech abeced a kdo ví co dalšího.
Jediné pro koho je to dobré jsou registrátoři a spekulanti, který budou moci prodat více jmen.
Myslím že s písmenem "f" si arabové poradí.
http://www.foreignlanguagekeyboard.com/images/kbarabic[1].jpg
Netřeba chodit k arabským Mohamedánům.
V evropském Finsku žijí národy (Sámové), které běžně používají třeba "h s háčkem". Třeba taková Skoltština (skoltských Sámů je dnes asi 300, ale mají svůj jazyk, abecedu, učebnice, knihy, školy a tlumočníky v Parlamentu).
A co Vietnamci, kteří sice mají latinku, ale na rozdíl od našich háčků, čárek a jednoho kroužku (na Slovensku ještě stříšky a v německomluvících zemích přehlásku) dokážou nad písmenko, pod ně, vpravo i vlevo napravo i nalevo připisovat nejrůznější ocásky.
Jo přátelé, není nad ty nešťastníky, kteří se snaží pozitivní diskriminací vnutit nám všem ostatním specifika "utlačovaných" a "vymírajících" národů. Včetně písmenek do URL adres. Přičemž tyto národy o to v podstatě vůbec nestojí, jenomže proč se bránily, když jim to přinese výhody, dotace a sociální dávky. A to nemluvím zrovna o našich (ne)přizpůsobivých Romech (ti se už dávno latince přizpůsobili, nemaje vlastního písma), ale třeba zrovna o těch Sámech (Laponcích), kteří jsou vcelku normální Norové, Švédi a Finové. Také neměli své písmo, sámština dlouho neměla psanou formu, skoltština až do 20.století, ale bylo jim vnuceno. Ale když jim někdo vnucuje výjimečnost, a ještě to zaplatí, neber to...
Jen počkej, až ti bude Arabáš vnucovat jeho "hamzu" nebo "malé cajn". A bude ti mávat před vočima kalašnikovem, že to nedovedeš.
Stejně nechápu, jak může Číňan napsat na klávesnici svých sto tisíc (či kolik) znaků. Možná tam prodávají klávesnice velikosti menšího zimního stadionu :-)
1 je myšleno, že podobně vypadají. To potom těžko poznat jestli je to správná adresa a když se ještě k tomu podaří sískat certifikát podepsaný trusted autoritou ta je to konečná. Viděl jste snad že by většina uživatelů certifikáty kontrolovala?
2 jo to si nainstaluje do systému všechny rozložení klávesnice a budu mezi nimi přepínat. V těch několika stech se každý jednoduše vyzná a pozná každý znak třeba na vizitce.
3 samozřejmě si mohu nainstalovat všechny různé font co to budou podporovat, ale potom uživatelům vysvětlovat, že se jim něco špatně zobrazuje je jejich problém, protože u sebe něco nemají, to je žůžo. Ono jen donutit prohlížeče, aby ve stránce zobrazil jiný než systémový font je heroický výkon.
Stále platí, že problém č. 1 už byl vyřešen před několika lety. K bodům 2 a 3 -- uvědomte si, že už dnes je ta adresa typicky využitá pro webovou stránku, která je plná rozsypaného čaje, a používají ji lidé, kteří tam do všech formulářových políček píšou svým jazykem, tedy opět stejné znaky, které budou v té TLD. Domény v těchhle TLD si nikdo nebude pořizovat proto, aby tam psal latinkou.
To je takový problém si o IDN zjistit základy? Zvlášť když někdo opakovaně tvrdí, že je tam nějaký problém, mohl by se aspoň na druhý pokus podívat, jestli už o tom problému někdo něco nenapsal.
Například se nepovolí v DNS názvu kombinovat různé znakové sady (např. můžete použít latinku nebo cyrilici, ale ne obojí). Případně se povolí jen jedna znaková sada (např. pro .cz
by se mohla povolit jen latinka). Nebo třeba .de
má vyjmenováno, které znaky mimo ASCII jsou povolené.
Mořná nevznikla, ale určitě se zhorší.
http://en.wikipedia.org/wiki/IDN_homograph_attack
Třeba:
Cyrillic З, Ч and б resemble the numerals 3, 4 and 6.
V tomhle případě má ale pravdu. Pravidla pro IDN jsou nastavována tak, aby se problém záměny znaků minimalizoval na úroveň, kterou máme již teď. Druhým stupněm obrany je pak webový prohlížeč, který míchaná písma zobrazuje jako Punycode.
Ostatně když už sem Duff hodil odkaz na Wikipedii, měl si ten článek nejdřív přečíst až do konce ;-)
„Domény v těchhle TLD si nikdo nebude pořizovat proto, aby tam psal latinkou.“ Toto PŘESNĚ vystihuje podstatu. A naopak: Jestliže autor vystaví na webu texty v japonštině, vyrábět onu doménu v latince bude asi k hovnu. A bude-li chtít, aby ji našli a četli i latinkáři, tak udělá doménu klidně i pro ně (pochopitelně s obsahem odpovídajícím písmem!!!).
Snižuje to globální otevřenost Internetu. Nejde o to, že tam tu cizí adresu nakonec horko-těžko nějak dostanete, ale že to budete mít těžší. Co se týče ochranných opatření na byrokratické úrovni, je otázkou času, kdy to někdo nedodrží nebo se objeví nějaká cestička okolo... bezpečnostních rizik máme na Internetu asi málo, že si musíme zadělávat na další... přitom je to všechno kvůli ničemu, pořád dokola jenom obehrané řeči o údajné diskriminaci. Je to samozřejmě strašná diskriminace, muset psát adresu latinkou, tím spíš že v latince jsou i HTTP hlavičky, HTML tagy, klíčová slova v programovacích jazycích, příkazy v shellech operačních systémů...nebo to všechno se bude lokalizovat taky???
P.S. ani ten Číňan nebo Japonec nemá na klávesnici 3000 tlačítek a musí psát znaky fonetickým přepisem. Musí být z té diskriminace celí nesví
A když tam tu adresu horko-těžko (jedním kliknutím myši, jako u všech ostatních adres) dostanete, budete dělat co? Zjistíte, že jste na webové stránce, na které jsou jenom tyhle znaky. Nebo že píšete e-mail, kde jsou mimo vašeho podpisu opět jenom tyhle znaky. Proti tomu je těch pár znaků v doméně vlastně prkotina.
Já před nějakou globální otevřeností preferuju svobodu internetu. Ať si každý vlastník domény rozhodne, zda chce být globálně otevřený, lokálně otevřený, globálně uzavřený nebo jakýkoli jiný.
V římě buď římanem. Neboli chceš li na arabské stránky, nauč se arabsky a pořiď si arabskou klávesnici. Chceš li do číny, uč se čínsky. Babylónská vež se holt nepovedla, máme tady tisíce jazyků a písem, a ani jedno není morálně nadřazené jinému. Smiř se s realitou. Internet je mezinárodní, a když Indové chtějí vlastní abecedu, proč ne.
Globální otevřenost? To jako že když bude japonská doména v latince, tak si na jejím webu pěkně počtete, ale v okamžiku, kdy bude v doména v japonštině, tak bude onen web nečitelný? Web je plný stránek v písmech pro Evropany nečitelných (pro začátek doporučuju Wikipedii, tam to jde pěkně vidět).
Nikdo nechce předělávat jazyky či protokoly, ale když si Japonci udělají svůj protokol v japonštině, je to jejich problém a nevidím důvod, proč jim to upírat. To samé písmo - soudruzi Japonci holt to písmo nevymysleli zrovna nejvhodněji pro psaní na klávesnici (i když prý jde skládat znaky několika klávesami), ale to je jejich vlastní problém a budou si ho muset vyřešit sami. Opět upírat jim kvůli tomu jejich kulturu asi není v pořádku.
Dobře udělané kódování a zobrazení ještě neznamená úspěch.
Ozkoušeno na dvou internetových forech. Mají perfektně zvládnuté kódování i zobrazení. Zobrazí se to správně i když nemáte odpovídající font, protože si ho to buď stáhne, nebo to zobrazí jako obrázek. Všechno funguje krásně. Tedy až do chvíle, než chcete odpovědět uživateli, jehož jméno neumíte napsat. Já tam krásně vidím, že (zřejmě z estetických důvodů), si ve svém nicku zaměnil R za ruský znak zrcadlově obrácený (viz Tetris), ale napsat to nedokážu. Stejně tak jsem pohořel u francouzského c s ocáskem. Alt-oval jsem jak divej, ale nenašel. Naštěstí tam funguje i copy & paste.
Osobně tuhle iniciativu s diakritikou v adresách chápu jako snahu opustit používání adres. Už dnes plno lidí adresu nevyplňuje, ale jde na seznam nebo google a tam ji vyhledá.
Vývojář který v roce 2013 nezvládá Unicode má smůlu.
FS který zaznamenává diakritiku jinak než Unicode má rovněž smůlu.
Doba pokročila a nadvláda latinky prostě skončila tak jako před lety skončila nadvláda angličtiny.
Pamatuju problémy při zavádění češtiny, kdy jsme samodomo přeprogramovávali EEPROM v tiskárnách a Unicode je proti tomu ráj na zemi.
To je mýtus značně rozšířený mezi uživateli Linuxu. Na FAT16 i FAT32 se píšou dlouhé názvy souborů v UTF-16. Koukněte se do specifikace, nebo si založte na FAT soubor s českým názvem (na Windows, aby nebyl zmršený) a koukněte na to v hexa editoru.
Nejlepší jsou samozřejmě matláci, kteří si přimountují FAT volume s nějakou chytrou konverzí znakové sady, a mrší pak názvy souborů na médiu.
Keci v kleci:
http://msdn.microsoft.com/en-us/library/windows/desktop/dd317748%28v=vs.85%29.aspx
NTFS stores file names in Unicode. In contrast, the older FAT12, FAT16, and FAT32 file systems use the OEM character set.
Jen je to ve Windows obalené unicode funkcemi.
Ted by se tu mel objevit jisty lol ... a vysvetlit ti, jak je uzasny mit jiny kodovani na FS, jiny v aplikacich a jiny vsude jinde ... ;D. Takze vysledkem je takovy pekny gulas Unicode, utf, iso, win-1250, CP852 ... no proste ZUZO ...
Mno mozna windows 2033 prijdou s novinkou... a jednu z variant odeberou. To v ty dobe jejich 1 promile uzivatelu jiste potesi ... ;D
Je uplne jedno co widle podporujou, podstatny je, co vsechno musis brat v potaz. A ve widlich proste nestaci se podivat na jedno misto a zjistit nejaky nastaveni, neustale musis zkoumat ... utlouk ti i v neposlednejsi verzi nastavi default na win-1250. A podobne se chova spousta dalsich M$ appek. Na svym disku sem diakritiku zcela eliminoval - nejen kvuli tomu, kdyz to chces poslat trebas pres ftp, ses zase vprdeli, protoze zalezi ... na serveru, fs, klientovi ... jeho OS, ...
Mimochodem UTF/Unicode je taky stale celkem tragedie ... ě vs ě ... spousta veci nezvlada.
Musíš brát v potaz, že tvoje aplikace musí mít dva byte na znak a musí volat API funkce s W na konci, to je celé, o moc víc se nestaráš, navíc to za tebe udělá kompilátor.
Outlook není Windows, i když uznávám že je to z dílen Microsoftu.
Problémy historického protokolu FTP jsou známé, holt to chce nějaký upgrade.
Outlook jsem se SMTP/POP/IMAP používal naposledy před cca deseti lety, takže tohle nemůžu potvrdit. BTW kde je problém, když se vám email odešle v ANSI 1250? Když je to uvedeno v headeru, druhá strana tomu přece musí rozumět.
FTP bohužel neumí kódové stránky ani Unicode. Nicméně jako daleko zásadnější problém FTP bych viděl bezpečnost; zmatení znakových sad je proti tomu nuda.
Všimněte si, že uživatelé Windows problémy s Unicode ani ANSI 1250 nemají. Naopak když zkusíte z linuxového klienta procpat ruské názvy souborů třeba přes WebDAV na linuxový server, tak to u řady implementací selže. Pokud ten klient navíc pojede v 8859-5, selže to ještě častěji. Samozřejmě je to lepší než před 15 lety, ale k dokonalosti to má pořád daleko.
Druhá strana tomu nemusí rozumět, protože nemusí podporovat ANSI 1250 (AFAIK stačí umět ASCII, UTF-8 a ISO 8859, možná i UTF-7). To je totiž microsoftí znaková sada.
Souhlasím, FTP by už mělo konečně umřít.
Linuxí klienti i servery běžně používají UTF-8, takže s kódováním nemají problémy, WebDAV navíc přenáší informace o kódové stránce. Používání 8-bitových sad je běžné spíš u lidí píšících weby na Windows (částečně kvůli BOM, které rozbíjí třeba PHP, ale hlavně kvůli tomu, že máloco ve Windows podporuje UTF-8). Na druhou stranu Windows si dodnes neumí poradit třeba s dvojtečkou (které jsou u názvů filmů celkem běžné) ve jménu souboru na WebDAVu. To pak často ani nezvládnou načíst obsah adresáře.
Tady bych ještě doplnil. Konzole jako taková jede v Unicode UTF-16, a kódová stránka pro vstup i výstup se dá nastavit libovolně. Omezení se týkají primárně cmd.exe a utilit, a to z důvodu kompatibility s DOSem a Windows 3.x/9x. Code page se sice také dá nastavit, ale co jsem to zkoušel, tak to některé prastaré utility to moc neskously.
Windows řady NT mají odjakživa FS i veškeré API v Unicodu. Před Win2K se ovšem našly i části systému (například regedit.exe), které byly převzaté z Win9x, a Unicode neuměly.
Aplikace snad dnes používají Unicode všechny. Bohužel ještě před pár lety například Total Commander Unicode neuměl, protože si jeho autor od roku 1993 nestačil všimnout, že něco takového existuje. Nakonec mu asi dal někdo železnou trubkou do hlavy, a TC se - jako jedna z poledních rozšířených aplikací - Unicode také naučil.