Od kdy není CSV strojově zpracovatelné?
https://www.mfcr.cz/assets/attachments/Zverejnovane-udaje-ze-Seznamu-nepovolenych-internetovych-her_v90.csv
8. 4. 2024, 11:30 editováno autorem komentáře
Samo ministerstvo o tom CSV píše, že má pouze informativní charakter. Jinými slovy říkají, že když zapojíte stroj, aby to CSV automaticky zpracovával a v tom CSV bude chyba, bude to vaše, ne jejich odpovědnost.
Takže asi chtějí, abyste raději najmuli sekretářku, která data opíše z toho oficiálního PDF.
Vy víte, jak podepsat CSV
Úplně jednoduše, spočítat hash z obsahu a ten podepsat obvyklým způsobem - a doplnit jako poslední řádek.
Případně s nějakým oddělovačem, tedy úplně stejně, jako se podepisuje obsah e-mailu, případně cokoliv dalšího. Na tohle není třeba vynalézat kolo, úplně stačí někam napsat, jak je to udělané. ;o)
tak, aby to bylo právně závazné
To je už snad trochu právnickej úlet, ne? Závazné je to i v tom PDF, i v tom nepodepsaném CSV (i když od toho dávají ruce pryč).
Aby nebylo, musel by to nejprve někdo zpochybnit a následně by o tom musel rozhodnou nějaký soud.
Vy jste ovšem nevynalezl kolo, nýbrž prasklý čtvereček. Nejenom že by to nebyl právně uznávaný formát pro elektronický podpis, on by to nebyl ani validní CSV soubor.
Obsah e-mailu se podepisuje úplně jinak, než popisujete. Především je na to definovaný formát.
Právnický úlet to samozřejmě není. Když po vás stát něco chce, musí vám prokazatelně dát vědět, co chce. Zejména když byto – nebýt toho, že jde o příkaz státu – bylo potenciálně protiprávní. Závazné je to v tom elektronicky podepsaném PDF, protože až na vás přijde někdo s tím, že protiprávně blokujete přístup k nějakému webu, vytáhnete tohle podepsaná PDF a tím triviálně dokážete, že je to na příkaz státu. Co byste dělal s nepodepsaným CSV? Víte, já tady mám takový soubor, který jsem někde stáhnul, nebo jsem si ho možná sám vyrobil, a na základě toho já ten web blokuju. To by byl úlet.
Ach jo, zajímavé, že prakticky kdekoli na západ (před i za louží) od nás velká část běžné komunikace s úřady funguje mailem prostým, a nikomu to nepříjde divné, a nevymejšlej nesmysle jako PDF s includnutým cvs.
Ostatně i s pozemkovým úřadem nebo i některým tím finančákem u nás se obvykle dá jednat nepodepsaně po telefonu, a akorát na doručenku to paralelně pošlou když to ze zákona musej.
Kde jen v oné digitalizaci po česku zůstal zdravý rozum?
Ona ta komunikace s úřady prostým e-mailem funguje i u nás. Akorát se to netýká věcí, které jsou právně závazné. Asi vám nedošlo, že podpis na tom PDF se seznamem blokovaných webů chrání firmy. Pokud vy chcete blokovat domény na základě něčeho, o čem nevíte kdo a proč to vytvořil, klidně si to dělejte. Ale já v tom žádnou výhodu pro vás nespatřuji, pouze riziko. A pokud vám tolik vadí podpis na dokumentu, tak ho prostě ignorujte.
Víte, já znám pana podnikatele, který točí milionové kšefty, ale veškeré smlouvy se mu vejdou do 10 bodů na jedné A4 stránce, srozumitelné i laikovi. Na jednání si nikdy nebere právníka.
Občas se ho někdo ptal, proč - a slyšel jednoduchou odpověď: Buď chceme obchodovat, nebo se soudit. Pokud obchodovat, tak ten právník není potřeba. A pokud soudit, tak bude potřeba později.
.
Takže, pro mne, za mne, ať si je to nepodepsané, jen když to bude správně. Pokud budu věřit, že to CSV je stejné, jako PDF, tak v případě nějakého rejsnila vytáhnu to PDF - a ať dokáže, že jsem to měl (v dané době) jinak.
Beztak je to jen zbytečná formalita, protože drtivá většina stejně používá DNS typu 8.8.8.8
, a jediné, k čemu je ten seznam (seznamy...) dobrý, je případné vybírání pokud za nesplnění povinnosti.
Je hezké, že máte k českému státu takovou důvěru, že ho berete jako obchodního partnera, se kterým si stačí podat ruku.
Nemají to tak ale všichni lidé, a obecně je známo, že pokud jsou nějaké vztahy silově nevyvážené (jako třeba občan–stát), musí ten silnější být pod přísným dohledem. Takže spousta zákonů řeší do velké míry to, jak stát může hlídat sám sebe.
Pokud budu věřit, že to CSV je stejné, jako PDF, tak v případě nějakého rejsnila vytáhnu to PDF - a ať dokáže, že jsem to měl (v dané době) jinak.
Jenže takhle to nefunguje. Pokud policie bude mít záznamy o tom, že jste něco blokoval nebo neblokoval, bude se soud řídit tím. A bude se řídit podepsaným PDF. To, že vy jste si někde stáhl nějaké CSV, to nikoho zajímat nebude, protože nedokážete ani odkud jste si ho stáhl a už vůbec ne že jste ho nezměnil.
drtivá většina stejně používá DNS typu 8.8.8.8
O tom silně pochybuju, že je to drtivá většina.
pokud jsou nějaké vztahy silově nevyvážené (jako třeba občan–stát), musí ten silnější být pod přísným dohledem
Jenže já mám v (nejen) tomto případě dojem, že tím, kdo je pod přísným dohledem, je právě ten slabší, občan, potažmo správce DNS.
Pokud policie bude mít záznamy o tom, že jste něco blokoval nebo neblokoval
Mluvíme o hypotetické situaci, kdy já blokuji podle CSV, které ale neodpovídá PDF, a zároveň si někdo na mé (ne)blokování stěžuje. Dovolím si pochybovat, že policie bude mít k tomu jakékoliv záznamy (aniž by si ode mne vyžádala nastavení onoho DNS).
"drtivá většina stejně používá DNS typu 8.8.8.8"
O tom silně pochybuju, že je to drtivá většina.
Pominu-li tu většinu mobilů, protože řeč je o tom, co mají lidé nastavené doma na routeru, tak v mém okolí prakticky každý, kdo na tohle zařízení sáhl, tam něco takového (8.8.8.8, 8.8.4.4, 1.1.1.1, atd...) má nastavené. Menšinou jsou zařízení, která přinesl, zapojil a rozchodil provider - a i tam někteří (v našem domě dva ze čtyř) nastavují osmičky.
Překvapivě tu máme i doupě sázkařů, kteří si to nastavili i na mobilech, případně se rychle naučili používat alternativy (včetně Tor browseru a různých VPN).
Minimálně v mém okolí to tedy je opravdu drtivá většina
, tipl bych klidně i čtyřpětinová.
Jenže já mám v (nejen) tomto případě dojem
Tak to máte špatný dojem. Elektronický podpis z dokumentu fakt nemůže na občana vyskočit a bafnout – elektronický podpis (stejně jako vlastnoruční podpis) tam je proto, že kdo chce, může si ho ověřit. Zároveň podpis vždy zavazuje toho, kdo jej vytvořil.
Mluvíme o hypotetické situaci, kdy já blokuji podle CSV, které ale neodpovídá PDF, a zároveň si někdo na mé (ne)blokování stěžuje. Dovolím si pochybovat, že policie bude mít k tomu jakékoliv záznamy (aniž by si ode mne vyžádala nastavení onoho DNS).
Pokud si dotyčný bude stěžovat na lampárně hlavního nádraží, Policie o tom samozřejmě žádné záznamy mít nebude. Pokud však dotyčný podá trestní oznámení (v případě neoprávněného blokování), bude se tím zabývat Policie a bude o případném protiprávním jednání shromažďovat důkazy.
Pominu-li tu většinu mobilů, protože řeč je o tom, co mají lidé nastavené doma na routeru
Nikoli, řeč je o tom, co lidé používají pro přístup na web. Což jsou i ty mobily (ve spoustě segmentů dokonce většinově).
v mém okolí prakticky každý, kdo na tohle zařízení sáhl,
Což je opět menšina.
Menšinou jsou zařízení, která přinesl, zapojil a rozchodil provider - a i tam někteří (v našem domě dva ze čtyř) nastavují osmičky.
V takovém případě má ale ISP stále povinnost ty domény blokovat.
Minimálně v mém okolí to tedy je opravdu drtivá většina, tipl bych klidně i čtyřpětinová.
Otázka je, zda je to reprezentativní vzorek dat. Jestli třeba většina z té drtivé většiny nemá informaci o nějakém 8.8.8.8 od vás (přímo či zprostředkovaně).
Jenže státmá v podstatě jen povinnost ten seznam (seznamy) vytvořit a podepsat, zatímco občan mé povinnost se tím seznamem řídit, nastavovat, kontrolovat - a to dokonce i v případě, že ten seznam bude nepodepsaný.
Tak kdo tu tahá za kratší konec?
Když jsem se pokusil omezit dítko v čučení na YouTube prostou blokací na domácím DNS, trvalo pouhou jednu návštěvu ve škole (čtvrtá třída), než si na tom tabletu nastavil DNS na osmičky! NA mobilu to má taky tak - a já mu to neradil.
Opravdu nejsem tím, od koho to lidé v okolí mají.
Spíš bych řekl, že to je první nastavení, které tu každá udělá, pokud něco přestane fungovat (sázkařskými weby počínaje...). Nebo pokud jde o běžného paranoidního konspirátora, tedy občana, který prostě nemá rád jakékoliv zákazy a omezování.
Že tu do routeru hrabe prakticky každý, je prostě fakt. Snad jen těch pár důchodců před tím má úctu - ostatní se tváří, že nastavit si internet je jednodušší, než pověsit obraz.
Ne. Asi to závisí na výrobci telefonu. Myslím, že už je default DoH, ale třeba nastavení mého Androidu (DoH, automatický výběr poskytovatele) vede na Cloudflare. Přičemž důležité je to DoH, ne provozovatel, protože někteří ISP zasahují i do DNS provozu na známé DNS servery (těm, co svým zákazníkům nastavují třeba čtyři osmičky, ostatně nic jiného nezbývá).
Není pak jednodušší vložit do toho PDF i CSV? Aby ho člověk nemusel shánět? A nestávalo se, že stáhnu CSV, mezi tím se na server nahraje nové PDF a podpis v PDF nebude sedět? Mimochodem, když už umíte z PDF spolehlivě vyextrahovat text na určitém místě, můžete z něj vyextrahovat i tu současnou tabulku.
Já jsem naopak popsal něco, co technicky funguje – což se o tom vašem návrhu úplně říct nedá.
Ne nadarmo se v nektere legislative objevuje pozadavek na stojove snadno citelny format a strojova vymena dat samozrejme jinde bez obtizi funguje. Coz podepsane PDF s vlozenym CSV prste nesplnuje ani nahodou. Jsou ale mista (urady), kde se ta pasaz se strojovou zpracovatelnosti zamerne preskoci - protoze se hledaji cesty, ktere jsou jednoduche (alevne) hlavne pro toho urednika... co vam to PDF vygeneruje. Jak se s tim poperou povinne subjekty urednika nezajima, resp. maximalne se to resi v rovine sankci.
Jenom mi unika, proc tenhle urednicky byrokraticky slendrian obhajujete a snazite se tvarit, ze jinak to vlastne vyresit nejde. Cesty, jak ty data dostat strojove citelnou verohodne ven samozrejme existuji. Jenom se nechce.
Podepsané PDF s vloženým CSV splňuje požadavky na strojově snadno čitelný formát. Ještě lepší je samozřejmě XML nebo aspoň JSON s definovaným schématem. Protože CSV je takový pseudostandard (ano, dodatečně bylo standardizováno, přičemž ten standard neodpovídá tomu, co se běžně používá).
Požadavek na strojové zpracování naopak nesplňuje PDF, kde jsou data pouze v textu; nesplňuje to ani PDF, ve kterém je v textu vložen odkaz a hash.
Samotné CSV (bez podpisu) je sice (s přimhouřením očí) strojově zpracovatelné, ale nikdy nemáte jistotu, zda to, co zpracováváte, není podvrh.
Já jsem pouze podotkl, že dobré řešení, které splňuje všechny požadavky, není na první pohled zřejmé. Což ostatně následná diskuse potvrdila, když tu padlo několik návrhů, které mají větší či menší problémy.
Že to vyřešit nejde jsem samozřejmě nikde netvrdil, právě naopak – jak to vyřešit jsem hned v prvním komentáři napsal.
Vsak jsem zamerne nepsal explicitne o CVS, ale o strojove zpracovatelnosti vystupu z uradu. Ale to by uz urad nemohl fungovat s tim svym Excelem, jehoz vystup prozene pres nastroje od Adobe. Tady je zakopany pes... aka klasicka "digitalizace" urednich procesu zpusoby jak za c.k. cisarepana... kdy se jen papir "moderne" hodi do pocitace a klasickej stempl jen nahradi digitalnim el. podpisem.
Tady se proste bavime o tom, ze na jakekoliv reseni strojove zpracovatelnosti na urade proste vykaslali a technicky format je tady podruznost. Chteli to mit pro sebe jednoduche. Vydat lejstro s urednim zakazem. Akora ze urednika s podobnym mindsetem by meli spis vyhodit a ne drzet flek pro jeho excelovou agendu.
"Vy víte, jak podepsat CSV tak, aby to bylo právně závazné?"
Co se tyce CSV nevim, urcite by se neco naslo.
Ale klidne se da pouzit to PDF. Bud jak pisete, csv muze byt priloha. Nebo muze byt prilohou vhodne strukturovane XML, ktere by na strojove zpracovani bylo asi jeste lepsi. Nebo dokonce muze byt primo strojove citelny i ten text v samotnem pdf, ale to by to pdf nesmelo byt udelane prasacky pomoci "Acrobat PDFMaker 20 for Excel" a "Adobe Experience Manager-Forms docconverter 6.5.0.74.202205241905586", jak se muzeme v pdfku od ministerstva docist.
To vypada ze clovek na ministerstvu ma prostou tabulku v excelu a koupeny adobe. Pomoci jednoho kliknuti vygeneruje podepsane pdf, a pomoci druheho kliknuti vygeneruje csv.
Vlozit csv prilohu do pdf a pak podepsat je nejspis pro dotycneho uz prilis komplikovane, a generovat strukturovane XML a vkladat jako prilohu je hadam v kategorii sci-fi.
Co se tyce CSV nevim, urcite by se neco naslo.
Nenašlo. Externí podpisy jsou z mnoha důvodů problematické, přímo do CSV to nenacpete tak, aby to pořád zůstalo CSV. Takže zbývají kontejnery, třeba PKCS#7. Jenže s tím zase neumí běžně lidé pracovat. Proto je nejlepší použít jako kontejner PDF, kde máte vše v jednom – je to elektronicky podepsané, pro lidi je tam lidsky čitelný text, pro stroje tam je strukturovaná příloha.
Nebo dokonce muze byt primo strojove citelny i ten text v samotnem pdf
On tam strojově čitelný text je (nebo aspoň dříve byl, u těch hazardních her). Jenže strojově čitelný text v PDF znamená, že se v něm dá hledat a že se text dá zkopírovat. Není to určeno pro strojové zpracování strukturovaných dat – protože ten text je tam uložen způsobem „na souřadnicích x, y vykresli tento kus textu“. Poskládat z toho zpět strukturovanou tabulku není vůbec jednoduché.
To vypada ze clovek na ministerstvu ma prostou tabulku v excelu a koupeny adobe. Pomoci jednoho kliknuti vygeneruje podepsane pdf, a pomoci druheho kliknuti vygeneruje csv.
Vlozit csv prilohu do pdf a pak podepsat je nejspis pro dotycneho uz prilis komplikovane, a generovat strukturovane XML a vkladat jako prilohu je hadam v kategorii sci-fi.
Ano, tak to pravděpodobně je. Ale důvod je vidět i tady v diskusi, kde je spousta návrhů, které nezajistí některý z klíčových požadavků. Takže zjevně není tak jednoduché to vymyslet správně.
ad strojove citelny text v pdf - xml struktury jsou soucasti pdf formatu, pro spoustu informaci o dokumentu je xml pouzite, verim ze by tam sla pridat vlastni data. Ale nevim jestli by to pak bylo PDF/A. Ale to je jedno, je to irelevantni debata, lepsi reseni existuje.
"zjevně není tak jednoduché to vymyslet správně." - rozporuji. I v tehle debate se doslo k reseni, ktere by bylo pouzitelne: podepsane PDF s XML jako priloha. A to je jen pitoma diskuze pod rootem. Ocividne to neni takovy problem.
Za „strojově čitelný text v PDF“ se považuje to, že text, který je zobrazený uživateli, je zároveň strojově zpracovatelný. Tj. není vložen jen jako obrázek, ale je buď renderován přímo z textových dat, nebo je sice renderován jako obrázek, ale pod ním je skrytá vrstva obsahující zase ta textová data. Přičemž v obou případech je potřeba ještě to, aby byl text správně kódován. Nicméně v obou případech je pořád text pozicován na správné místo pomocí souřadnic, tj. nestačí vzít text tak, jak jde za sebou v dokumentu.
XML se používá především pro metadata. Minimálně z důvodu dopředné kompatibility by PDF prohlížeče neměly moc protestovat, pokud do těch dat nacpete něco navíc. Ale rozhodně bych to nepovažoval za dobrý způsob, jak dostat do PDF strukturovaná data.
PDF/A nesplňuje ani ten soubor s vloženou přílohou. Což je ale jedno, protože tyhle soubory nejsou určené pro dlouhodobou archivaci. Navíc na PDF/A se v ČR moc nehraje, to řeší pár lidí, kteří vědí, o co jde.
I v tehle debate se doslo k reseni, ktere by bylo pouzitelne: podepsane PDF s XML jako priloha.
Ono se k tomu nedošlo, ale napsal jsem to hned v prvním komentáři, kde jsem tvrdil, že to není zas až tak jednoduché. Akorát jsem tam hned nepsal o XML, protože jednak když vložíte do PDF soubor, může být jakéhokoli typu, takže z hlediska podepisování je to jedno; jedno jak jsem nechtěl místí všeználky dráždit ještě připomenutím, že CSV není vhodný formát pro strukturovaná data, a že vhodným formátem je třeba XML.
Očividně to problém je, když několik lidí, kteří si myslí, že problematice rozumí, navrhnou špatná řešení po té, co si lepší řešení už přečetli. Není to žádná raketová věda, ale na druhou stranu evidentně není samozřejmé vymyslet to na první dobrou hned správně.
V české legislativě je někde napsáno, jaká opatření vyžaduje či nevyžaduje? V zákoně je něco jako že poskytovatel musí znepřístupnit a konec. Podrobnosti jsou jen v nezávazných metodikách, navíc naposledy šlo jen o metodiku MF (seznam hazardních her), jestli mají nějaké metodiky i ti potravináři, zemědělci a další netuším.
Vzhledem k tomu, že to nikde v zákoně ani vyhlášce není a je k dispozici jenom ta metodika MF, těžko by MF uspělo s tím, že to má někdo dělat nákladněji, než je v té metodice. V ostatních případech se použije analogie – je to obdobná úprava jako u hazardních her, žádná speciální metodika k tomu neexistuje, takže se bude postupovat obdobně, jako u hazardních her.
> Navíc se objevily i další seznamy, které mají být blokované stejným způsobem. Jde o seznam s nabídkou nelegálních léčiv a seznam s nabídkou nelegálních veterinárních léčivých přípravků, který své první záznamy k blokaci obdržel až v únoru tohoto roku.
Ještě vám vyklouzl Seznam internetových stránek s nabídkou nebezpečných potravin od SZPI.
Já ale nikde nepíšu, že to nejde.
Jinak ten oficiální dokument je – překvapení – elektronicky podepsané PDF. A v něm odkaz a textově napsaný hash, takže to, abyste nemusel parsovat text z PDF, se vyřešilo tím, že si stáhnete CSV a jeho pravost ověříte tím, že rozparsujete text v PDF. To jste si pomohl.