Může mi někdo (autor článku / blogového zápisku) vysvětlit, nač míti audio ve vyšší vzorkovací frekvenci, než těch zmíněných 44 (a kousek) kHz?
Měl jsem za to, že Nyquist-Shannon dokázali, že zvuková (nebo jakákoli jiná) informace lze vždy ve 100 % případech bezeztrátově reprodukovat, a to až do frekvence zhruba 20 kHz a to bez žádné zubatice. O bitové hloubce se tu nebavím.
Takže moje otázka zní: K čemu je dobrá vyšší vzorkovací frekvence, když člověk více než 20 kHz stejně nedá? Je to jenom k dalšímu zpracování signálu? To bych pochopil u "intermediate" formátu pro nahrávací studia, ale nechápu to pro "end-user" spotřebitele.
Vysvětlit ti to nikdo nemůže, protože to je založené na nepochopení Nyquist-Shannon teorému. Což je jasně vidět na větě v článku:
"i když za cenu jen zhruba 2 vzorků sínusovky o této frekvenci (což je taková nepěkná zubatice)."
Když si pročteš pár diskusí s "netopýry" (lidi kteří potřebují stříbrné pojistky v zesilovačích a dvakrát přetavenou měď v napájecích kabelech), tak zjistíš že asi musí mít sluchový rozsah kočky.
10. 7. 2020, 08:17 editováno autorem komentáře
> Vysvětlit ti to nikdo nemůže, protože to je založené na nepochopení Nyquist-Shannon teorému.
Souhlas. Krásně vysvětleno je to třeba v tomhle videu.
Nicméně ten hlavní legitimní důvod, proč vzorkovat audio vyššími frekvencemi než ~40 kHz spočívá v technické realizovatelnosti nutné podmínky Niquist-Shannonova teorému, totiž, že signál musí být kmitočtově omezený. Nikdo nedokáže vyrobit filtr typu dolní propust, který bude mít konstantní přenos 0 dB do frekvence 22 kHz a následně mínus nekonečno dB pro frekvence od 22,05 kHz dál. Bude tam nějaké přechodové pásmo dané úrovní filtru, kdy bude s rostoucí frekvencí úroveň signálu postupně klesat a klesat. A čím strmější tu přechodovou funkci uděláme, tím zvlněnější bude okraj propustného pásma, protože přenosová funkce filtru je vždy spojitá, je to součet sinusovek. Některé slyšitelné frekvence pak budou potlačeny, jiné zesíleny. Což asi taky nechceme.
Pokud audiosignál vzorkujeme kmitočtem 96 kHz, požadavky na filtr se okamžitě rozvolní, budeme potřebovat nezvlněné propustné pásmo do cca. 20 kHz, pak nás přenosová funkce filtru nezajímá a maximální útlum budeme potřebovat od frekvence 48 kHz. Na to bude stačit jednoduchý filtr prvního řádu, který do slyšitelných frekvencí nezavede žádné zkreslení.
Pokud zavedeme větší bitovou hloubku, máme větší dynamický rozsah a o to víc tedy musí filtr tlumit v nepropustném pásmu. Než vylepšovat analogový filtr, může být v dnešní době mnohem jednodušší zase zdvojnásobit vzorkovací frekvenci a mít jistotu, že mezi 20 kHz a 96 kHz (při vzorkovací frekvenci 192 kHz) je dostatečný prostor na to, aby signál nad 96 kHz měl vždy nižší úroveň než nejmenší kvantizační krok.
To je taky častý zdroj nedorozumění: zaměňování vzorkovací frekvence (a bitové hloubky) použité při nahrávání a té, která je pak použita na finálním médiu. To, že CD obsahuje záznam s 44.1 kHz a 2x16 bity hloubky, ani zdaleka neznamená, že se to takhle i nahrává. V praxi se nahrávka pořizuje s vyšší frekvencí i bitovou hloubkou a pak se teprve přepočítává na parametry média. Podobné je to pak i při přehrávání, jak popisuje např. tahle recenze.
Jestli to chápu dobře, tak jde o to, že při přehrávání to digitálně upsampluješ z 44.1 na násobně vyšší frekvenci, a pak tam máš DA převodník, který díky tomu nemusí mít složitý rekonstrukční filtr. Jak se dělá to upsamplování? Naivní algoritmus co znám funguje tak, že vypíše vždycky jeden sample a N nul, což vyrobí signál s N+1-násobnou samplovací frekvencí se spektrálními replikami všude, a tento se pak projede low-pass filtrem, který repliky odstraní. Jenže tenhle filtr bude muset být dost ostrý (mezi replikami je málo místa) a tedy u něj hrozí pre-echo/ringing, ne? Nebo je na to nějaký trik, jak upsamplovat bez toho?
Technické detaily neznám, ale zkoušel jsem trochu hledat a zdá se, že se to prostě upočítá softwarově. Nějakou teorii jsem k tomu našel např. tady. Jestli se to dá zvládnout v reálném čase, to je otázka, ale tady tvrdí, že to přepočítávají dokonce na 250 GHz (i když v něčem, co ani zdaleka nevypadá jako consumer grade hardware), takže asi ano.
V praxi sa praveze hovori o tom, ze by malo byt uplne dostacujuce nahravat na 44.1 kHz a downsamplovanie z vyssich frekvencii moze byt problem (predovsetkym ak sa nepouzije nasobok 44.1 co je standard pri hudbe, pri audiovizualnom mediu je to potom 48, ale downsampluje sa inym faktorom nez 2). Predstavuje to zvysene naroky na priestor a real-time CPU (oboje viac citelne pred 20 rokmi, ale ani dnes to nie je zanedbatelne v porovnani s kvalitativnym rozdielom).
Co sa viac prejavi na kvalite je lepsi AD prevodnik a aspon 24bit, pripadne float, pretoze to pomaha SNR pri nahravani a umoznuje kvalitnejsie mixovanie zvukovych stop. Vysledny mix sa potom konvertuje na vysledne medium, co je CD audio 44.1kHz 16-bit.
Zmysel v nahravani >44.1 kHz moze byt v zachyteni vyssich harmonickych frekvencii. Ale treba brat do uvahy, ze realny range hudobnych nastrojov konci relativne nizko a teda aj tie vyssie harmonicke sa tam v praxi zmestia a v mixe sa to cele aj tak strati.
Je pro upresneni:
1. Pri vzorkovacim kmitoctu 96 kHz, max. kmitoctu uzitecneho signalu 20 kHz a kvantizaci 16 bitu je potreba potlacit o cca 96 dB (6dB pravidlo) az pocatek prvniho spektralniho obrazu centrovaneho na 96 kHz, tj. kmitočty vyssi nez 96 - 20 = 76 kHz, aby ve vyslednem signalu byla amplituda rusive slozky na urovni priblizne jedne kvantovaci hladiny. Toto splni az filtr cca 9. radu a vice. Ale situace nastesti je i neni tak zla - viz 3.
2. Pri vzorkovani 192 kHz a max. 20 kHz uzitecneho signalu zacina obraz opet az na 192 - 20 = 176 kHz.
3. Obecne je idealni maximalne potlacit kmitocty v rekonstukcnim filtru ihned nad 20 kHz bez ohledu na vzorkovaci kmitocet, nebot v retezci zpracovani signalu muze dochazet ke vzniku kmitoctovych artefaktu lezicich i v pasmu mezi obrazy (+ vsudypritomny sum). Tyto kmitocty sice neslysime (a mohli bychom se na celou filtraci vykaslat - toho treba vyuzivaji zes. tridy D s obecne chabou fitraci na vystupu), ale v tomto pripade na ceste mezi dolnopropustnym rekonstrukcnim filterm a nasim uchem je jeste spousta bloku (zesilovac, elektroakusticky menic), ktere jsou z principu nelineární, i kdyz se snazime o opak, a potom na jejich nelinearitach mohou vznikat kombinacni kmitoctove produkty padajici zpet do pasma pod 20 kHz. A je zle.
4. Na pozici rekonstrukcnich dolnopropustnych filtru se nepouzivaji ciste analogove varianty, ale digitalni, u kterych to s prechodovou casti charakteristiky nevypada tak spatne. Priklad, jak potom vypadaji parametry takoveho DACu s filtrem treba zde: https://www.ti.com/lit/ds/symlink/pcm1748.pdf , strana 7.
5. Faktem taktez je, ze na konci akustickeho pasma 20 kHz nas spise nez amplitudova charakteristika rekonstrukcniho filtru (to jsme schopni zvladnout docela dobre), tlaci charakteristika fazova. U nestacionarnich signalu pak muze dochazet k takovemu linearnimu zkresleni, ze to jedinci s dobrymi ušima slysi. Takze co se tyce filtru, je treba volit dobry kompromis, a zvyseni vzorkovaciho kmitoctu cele situaci jen prospeje.
Pán v showroomu mi udělal blind test s klasickým rockem. Přepínal mi mezi CD a síťovým přehrávačem se zdrojem 24/96 a rozeznal jsem to na 100%. V tom srovnání CD na výškách jakoby jemně kreslí, V lepším případě je takový ostřejší. Ta sestava byla ale v ceně kolem 500 000,- Těžko říct, co člověk musí mít, aby to bylo slyšet. Ale netopýr být nemusí, já sám vím, že už neslyším, co dřív.
Udělat takový opravdu slepý test není vůbec jednoduché a roznodně to nejde udělat tak, jak popisuje Ladino. Doporučuji např. tento článek, kde je popsané, jak takový test vypadá, aby bylo opravdu slepý. Rozhodně to nemůže vypadat tak, že se pustí dvě nahrávky ze dvou různých zdrojů.
Pusťte si klasiku, stejnou nahrávku z vinilu a CD, tak ať máte možnost přepnout. Budete překvapen. To že neslyšíte frekvenci 30 kHz neznamená, že tato frekvence nemá vliv na barvu zvuku. Jazz, klasický rock, blues, klasika to ukáže nejlépe.
Pokud posloucháte syntetiku, tak je to pravděpodobně irelevantní.
Jenze ta barva zvuku vznika tim, ze slysis ty frekvencni slozky tvorici tu barvu zvuku. Pokud tu slozku neslysis, tak nema vliv na tu barvu zvuku.
Argumentovat dvema naprosto rozdilnymi technologiemi zaznamu je uplne mimo. Vinyl a CD se lisi v "milionech" dalsich veci, nez jen ve zaznamenanem frekvencnim rozsahu.
Na vysoké škole jsme si jako studenti s ještě perfektním sluchem zkoušeli, zda dokážeme uslyšet ultrazvukové měřidlo vzdálenosti na 450 kHz. Překvapivě jsme něco slyšet dokázali. Na rozdíl od našeho cca 60 letého profesora jsme dokázali slyšet obálku kolem těch 450 kHz. Mělo to ale jedno velké ALE. Tu obálku jsme slyšeli asi do 0,5 m a cca 30° od osy zdroje toho ultrazvuku.
Takže je možné nějak slyšet i frekvence nad 20 kHz, otázka je jak moc a jak daleko.
Když jste slyšeli obálku, tak jste neslyšeli 450 kHz, ale tu obálku, která byla zřejmě někde mezi 15 a 20 kHz.
Stejně tak dokážeme všichni slyšet třeba rušení od GSM mobilů. Ale to přeci neznamená, že slyšíme 900 MHz! Ve skutečnosti slyšíme nízkofrekvenční TDMA.
Domnívám se, že jste slyšeli různé tříštěné odrazy / rezonance na jiných nižších frekvencích.
Jak ale bylo poznamenáno frekvence 44kHz/8bit je nedostačující protože logicky vykouzlí jen cca 20kHz /8bit zvuk, který může znít asi trochu "uměle".
48kHz a 16bitů už bych bral jako postačující, mnohem větší vliv bude mít reprodukční soustava a psychoakustické maskování kompresních algoritmů.
Ovšem nebral bych to tak dramaticky pamatuji se, že jsme kdysi omylem importovali mp3 na vysokém bitrate v profi studiu na studiových reproduktorech a ono bylo to rozpoznatelné jen vizuálně. Nic zásadního nebylo poznat. Pokud kodér nebyl nějak ošizený (některé vtipně limitovaly výpočty v plovoucí čárce kvůli rychlosti a to už je sakra znát)
Zaznam na platni je velmi nelinearny, z pohladu dnesnych technickych moznosti az primitivne nedokonaly.
Preto je zavedena standardna krivka pri reprodukcii https://en.m.wikipedia.org/wiki/RIAA_equalization krora ma toto eliminovat. Mnozstvo ludi si jednoducho na tu nedokonalost zvyklo a chyba im. Je to ako ked niekto horsie vidi a zrazu si da okuliare a zbada ze dlazka je spinava, co predtym nevidel a preto ho to netrapilo.
Prilis nerozumim, proc by mel byt treba Xvid na PAL lepsi volbou nez H266. Je poznat, ze Xvid "tolik nemaze"? Muzeme dostat screenshoty nebo video?
Vim, ze dekodovani Xvid bude jednodussi a tudiz i mene HW narocne. Na druhou stranu mnohe programy jiz nefunguji se starsimi formaty. Z toho duvodu sa oplati prechod na novy format i kdyby bral o neco vice mista pri stejne kvalite. Kdysi nam treba prekazelo, kdyz se video nevlezlo do 700MB. Dnes kdyz to same video zabere i 1GB, tak to vazne nikomu nebude vadit.
To dokumentuje obecnou vlastnost komprese. Zkomprimovana data lze rozdelit do dvou datovych skupin - parametrickych a slovnikovych. Idealni komprimace z hlediska minimalizace objemu dat pro prenos zdroj - cil minimalizuje parametricka data a slovnikova data se snazi vytvaret tak, aby nemusela byt soucasti zkomprimovanych dat (napr. na strane prijemce - pri dekomprimaci - je lze na zaklade parametru vypocitat). Tam (samozrejme krome spousty dalsich triku vyuzivajicich moznosti ztratovosti komprese a cim dal efektivnejsiho vyuziti statistickych vlastnosti komprimovaneho - na ukor casu a narocnosti dekomrese) smeruji H.26x a spol.
Takovy limitne idealni komprimator pak generuje pouze jeden bit informace (pritomnost/nepritomnost komprimovaneho). U videa to zni jako scifi, ale dobrym prikladem je treba sw na komprimaci fotozaznamu hvezdne oblohy. Na strane generatoru i prijemce mate obrovsky slovnik snimku hvezd a dalsich nebeskych teles, pak staci prenest pro kazdy detekovany objekt ve scene pouze index do slovniku (nebo kombinaci indexu), a zbyly komprimovany obraz je pouze "cerna obloha" zatizena drobnym sumem vzniklym po extrakci objektu ze sceny.
Podobne ambice se cas od casu objevuji u animovanych filmu, kde popis pandulaka vektorovou grafikou je vyrazne efektivnejsi, nez komprese jeho bitmapy. Problem je v konverzi do objektu, dale to, ze anim. neni mainstream, a take skutecnost, ze komprese scen s velkymi jednobarevnymi plochami nakonec dopada velmi dobre v porovnani se scenou z hraneho filmu, takze to vlastne neni treba.
Jj, naivně jsem si myslel, že když si převedu díly Červeného trpaslíka v MPEG-4 a rozlišení 720 × 576 na H.264 nebo H.265, ušetřím místo, ale realita byla taková, že při stejné kvalitě byla překódovaná videa ještě citelně větší.
Důvod, proč jsou tyto staré seriály všude jen ve starých formátech, není ani tak ten, že by si nikdo nedal tu práci to převést, ale protože to prostě nemá smysl.
I u rozlišení, na které není optimalizovaný, bych čekal, že dosáhne minimálně srovnatelné velikosti.
Myslím, že to nemusí platit. U vyššího rozlišení máte přechody kontrastu jemnější a kodek s tím může počítat ve všech třech osách. U nižšího rozlišení je v jednom pixelu třeba čtyřnásobný nebo šestnáctinásobný kompromis a nový kodek tedy nemá data na to, aby zvlolil "svůj" kompromis.
Ztrátové kokdeky jsou založené na empirii, "ví" se, které detaily oko nepostřehne a které ano. Taky se ví, co bylo u generačních předchůdců nedotažené.
Pokud do nového kodeku pošlete data poškozená starším kodekem, bude výsledek o to horší. Pokud to chcete kompenzovat a situaci nezhoršovat, pak povolíte takovou bitrate (nebo kvalitu), která dosáhne ještě horší velikosti, než původní formát.
Pokud by měl být výsledek datově lepší, pak by bylo jedinou možností, aby to kodek dotáhl na kompresi dat (na bezeztrátové části). Jenže v této oblasti se zas takových pokroků nedosahuje.
Mám dotaz jako tazatel přede mnou. Proč by se domácí VHS neměly zakódovat např. H264tkou? Toto fakt vysvětlete.
1) Vůbec jste to v článku nevysvětlil.
2) Žádná negativa v oblasti obrazu nebudete mít.
3) Získáte pouze menší soubor na disku, při stejném rozlišení a bitrate s novějším kodekem oproti využití starších kodeků.
Podle mě, pokud člověk převádí starší videa( nemyslím již digitálně převedená DivX, Xvid s kostičkami např kolem roku +-2005), je nejvhodnější to dělat aktuálně nejrozšířenějším kodekem (dnes h264,265) s vhodným bitrate.
Ta kalkulace, že při 2x rozlišení je 4x víc pixelů, a tedy 4x větší datový tok i po kompresi (stejným kodekem), je mylná. Matematicky to sedí. Ale video je hejbací obrázek. Když se hýbe, je to rozmazané a informace tam moc není, vypadá to jako by většina obrazu byla nazvětšována z menšího rozlišení. A když se to nehýbe, tak zas informace je časově redundantní. Jediné co se zvětší úměrně rozlišení, jsou průměrně 2x delší motion vektory.
Zajímavé by to začalo být, kdyby se s rozlišením začalo používat i vyšší fps.
Ze zacatku je tam dost silnych slov.
Myslim, ze by pomohlo, kdyby - autor - nebo nekdo - zkusil tato tvrzeni podporit experimentalne. Nakonec se stejne pocita jen velikost souboru a kvalita (o dobe kodovani nebo narocnosti dekodovani nepadlo slovo). Pokud by experiment ukazal, ze h266 zachovalo velikost a nezhorsilo kvalitu, tak si myslim, ze slova o hlupacich by byla redundatni.
dekuji
Nakonec se stejne pocita jen velikost souboru a kvalita
Velikost souboru je kvantifikovatelná - tu můžete srovnat.
Jakostní parametr je subjektivní, kromě očividných excesů (hrubé artefakty, sekání, ...) záleží na konsensu diváků, co jim přijde nejlíbivější.
Pokud se bavíme o kvalitě kodeku, předpokladem pro porovnání je vstup nekomprimovaných dat.
Myslim, ze by pomohlo, kdyby - autor - nebo nekdo - zkusil tato tvrzeni podporit experimentalne.
Proklamace o efektivitě kodeků se vztahují na kompresi z nezkreslených dat. V domácím labu se to ověřit moc nedá - pochybuju, že má hodně lidí k dispozici 4k video bez komprese. Testem rekomprese h.265 => h.266 experimentálně ověříte leda prd.
Ne, nepočítá. Např. filmy vznikají jako sekvence polí ve formátu JPEG2000 (pouze bezeztrátová komprese), v tomto formátu se promítají i v kinech.
Jakákoliv komprese, i ta mírná, už zahazuje detaily, o kterých je přesvědčená, že lidské oko neocení. Jenže při druhé kompresi se to projeví tím, že chybí detaily tam, kde by byly potřeba (aby pomohli kvalitnější kompresi) a naopak vzniknou artefakty tam, kde být nemají (a druhá komprese je musí vzít v úvahu).
Velikost bitového toku bohužel úplně nevypovídá o kvalitě videa, může stejně tak vypovídat o nekvalitě kodéru. Je to tak vymyšlené schválně, že standardy MPEG definují bitstream a funkce, které musí zvládat dekodér, ale nechává volnou ruku vývojářům v tom, jak daný bitstream vytvořit. Tím je možné kompresi postupně zdokonalovat. Takže zatímco v devadesátých letech bylo na kódování jednoho SD programu do MPEG-2 potřeba třeba 10 Mbps, o 15 let později při stejné kvalitě a stejnému formátu MPEG-2 stačila jen třeba pětina bitového toku.
Proto taky není úplně fér porovávat výkonnost první verze implementace kodéru nového formátu s mnoho let vyvíjenou implementací kodéru staršího formátu. Resp. porovnávat to samozřejmě můžeme, ale nebude to rozhodně vypovídat nic o tom, o kolik je nový formát efektivnější než ten starý.
Naprostý souhlas, od začátku vývoje ztrátových formátů se různě bojovalo s poměrem rychlost komprese vs kvalita.
Rozdíly mohou být zcela propastné, je to věda. Nejen že, ty formáty jsou hrozně variabilní, ale i výpočty jako takové mohou být prováděné s různou přesností nebo být rozdělené do skupin kvůli vícevláknovému zpracování což má docela vliv na výsledek.
První verze koderů často mají jen některé funkce implementované, takže kvalita může časem jít nahoru. Pokud bude použité nějaké extrémní řízení toku (třeba na absolutní kvalitu místo variabilního nebo konstantního) výsledkem může být velmi krátký soubor.
https://streaminglearningcenter.com/blogs/promising-initial-results-with-av1-testing.html
Odporúčam si stiahnuť a vyskúšať VVC Test Model (VTM)
https://jvet.hhi.fraunhofer.de