Může mi někdo (autor článku / blogového zápisku) vysvětlit, nač míti audio ve vyšší vzorkovací frekvenci, než těch zmíněných 44 (a kousek) kHz?
Měl jsem za to, že Nyquist-Shannon dokázali, že zvuková (nebo jakákoli jiná) informace lze vždy ve 100 % případech bezeztrátově reprodukovat, a to až do frekvence zhruba 20 kHz a to bez žádné zubatice. O bitové hloubce se tu nebavím.
Takže moje otázka zní: K čemu je dobrá vyšší vzorkovací frekvence, když člověk více než 20 kHz stejně nedá? Je to jenom k dalšímu zpracování signálu? To bych pochopil u "intermediate" formátu pro nahrávací studia, ale nechápu to pro "end-user" spotřebitele.
Vysvětlit ti to nikdo nemůže, protože to je založené na nepochopení Nyquist-Shannon teorému. Což je jasně vidět na větě v článku:
"i když za cenu jen zhruba 2 vzorků sínusovky o této frekvenci (což je taková nepěkná zubatice)."
Když si pročteš pár diskusí s "netopýry" (lidi kteří potřebují stříbrné pojistky v zesilovačích a dvakrát přetavenou měď v napájecích kabelech), tak zjistíš že asi musí mít sluchový rozsah kočky.
10. 7. 2020, 08:17 editováno autorem komentáře
> Vysvětlit ti to nikdo nemůže, protože to je založené na nepochopení Nyquist-Shannon teorému.
Souhlas. Krásně vysvětleno je to třeba v tomhle videu.
Nicméně ten hlavní legitimní důvod, proč vzorkovat audio vyššími frekvencemi než ~40 kHz spočívá v technické realizovatelnosti nutné podmínky Niquist-Shannonova teorému, totiž, že signál musí být kmitočtově omezený. Nikdo nedokáže vyrobit filtr typu dolní propust, který bude mít konstantní přenos 0 dB do frekvence 22 kHz a následně mínus nekonečno dB pro frekvence od 22,05 kHz dál. Bude tam nějaké přechodové pásmo dané úrovní filtru, kdy bude s rostoucí frekvencí úroveň signálu postupně klesat a klesat. A čím strmější tu přechodovou funkci uděláme, tím zvlněnější bude okraj propustného pásma, protože přenosová funkce filtru je vždy spojitá, je to součet sinusovek. Některé slyšitelné frekvence pak budou potlačeny, jiné zesíleny. Což asi taky nechceme.
Pokud audiosignál vzorkujeme kmitočtem 96 kHz, požadavky na filtr se okamžitě rozvolní, budeme potřebovat nezvlněné propustné pásmo do cca. 20 kHz, pak nás přenosová funkce filtru nezajímá a maximální útlum budeme potřebovat od frekvence 48 kHz. Na to bude stačit jednoduchý filtr prvního řádu, který do slyšitelných frekvencí nezavede žádné zkreslení.
Pokud zavedeme větší bitovou hloubku, máme větší dynamický rozsah a o to víc tedy musí filtr tlumit v nepropustném pásmu. Než vylepšovat analogový filtr, může být v dnešní době mnohem jednodušší zase zdvojnásobit vzorkovací frekvenci a mít jistotu, že mezi 20 kHz a 96 kHz (při vzorkovací frekvenci 192 kHz) je dostatečný prostor na to, aby signál nad 96 kHz měl vždy nižší úroveň než nejmenší kvantizační krok.
To je taky častý zdroj nedorozumění: zaměňování vzorkovací frekvence (a bitové hloubky) použité při nahrávání a té, která je pak použita na finálním médiu. To, že CD obsahuje záznam s 44.1 kHz a 2x16 bity hloubky, ani zdaleka neznamená, že se to takhle i nahrává. V praxi se nahrávka pořizuje s vyšší frekvencí i bitovou hloubkou a pak se teprve přepočítává na parametry média. Podobné je to pak i při přehrávání, jak popisuje např. tahle recenze.
Jestli to chápu dobře, tak jde o to, že při přehrávání to digitálně upsampluješ z 44.1 na násobně vyšší frekvenci, a pak tam máš DA převodník, který díky tomu nemusí mít složitý rekonstrukční filtr. Jak se dělá to upsamplování? Naivní algoritmus co znám funguje tak, že vypíše vždycky jeden sample a N nul, což vyrobí signál s N+1-násobnou samplovací frekvencí se spektrálními replikami všude, a tento se pak projede low-pass filtrem, který repliky odstraní. Jenže tenhle filtr bude muset být dost ostrý (mezi replikami je málo místa) a tedy u něj hrozí pre-echo/ringing, ne? Nebo je na to nějaký trik, jak upsamplovat bez toho?
Technické detaily neznám, ale zkoušel jsem trochu hledat a zdá se, že se to prostě upočítá softwarově. Nějakou teorii jsem k tomu našel např. tady. Jestli se to dá zvládnout v reálném čase, to je otázka, ale tady tvrdí, že to přepočítávají dokonce na 250 GHz (i když v něčem, co ani zdaleka nevypadá jako consumer grade hardware), takže asi ano.
V praxi sa praveze hovori o tom, ze by malo byt uplne dostacujuce nahravat na 44.1 kHz a downsamplovanie z vyssich frekvencii moze byt problem (predovsetkym ak sa nepouzije nasobok 44.1 co je standard pri hudbe, pri audiovizualnom mediu je to potom 48, ale downsampluje sa inym faktorom nez 2). Predstavuje to zvysene naroky na priestor a real-time CPU (oboje viac citelne pred 20 rokmi, ale ani dnes to nie je zanedbatelne v porovnani s kvalitativnym rozdielom).
Co sa viac prejavi na kvalite je lepsi AD prevodnik a aspon 24bit, pripadne float, pretoze to pomaha SNR pri nahravani a umoznuje kvalitnejsie mixovanie zvukovych stop. Vysledny mix sa potom konvertuje na vysledne medium, co je CD audio 44.1kHz 16-bit.
Zmysel v nahravani >44.1 kHz moze byt v zachyteni vyssich harmonickych frekvencii. Ale treba brat do uvahy, ze realny range hudobnych nastrojov konci relativne nizko a teda aj tie vyssie harmonicke sa tam v praxi zmestia a v mixe sa to cele aj tak strati.
Je pro upresneni:
1. Pri vzorkovacim kmitoctu 96 kHz, max. kmitoctu uzitecneho signalu 20 kHz a kvantizaci 16 bitu je potreba potlacit o cca 96 dB (6dB pravidlo) az pocatek prvniho spektralniho obrazu centrovaneho na 96 kHz, tj. kmitočty vyssi nez 96 - 20 = 76 kHz, aby ve vyslednem signalu byla amplituda rusive slozky na urovni priblizne jedne kvantovaci hladiny. Toto splni az filtr cca 9. radu a vice. Ale situace nastesti je i neni tak zla - viz 3.
2. Pri vzorkovani 192 kHz a max. 20 kHz uzitecneho signalu zacina obraz opet az na 192 - 20 = 176 kHz.
3. Obecne je idealni maximalne potlacit kmitocty v rekonstukcnim filtru ihned nad 20 kHz bez ohledu na vzorkovaci kmitocet, nebot v retezci zpracovani signalu muze dochazet ke vzniku kmitoctovych artefaktu lezicich i v pasmu mezi obrazy (+ vsudypritomny sum). Tyto kmitocty sice neslysime (a mohli bychom se na celou filtraci vykaslat - toho treba vyuzivaji zes. tridy D s obecne chabou fitraci na vystupu), ale v tomto pripade na ceste mezi dolnopropustnym rekonstrukcnim filterm a nasim uchem je jeste spousta bloku (zesilovac, elektroakusticky menic), ktere jsou z principu nelineární, i kdyz se snazime o opak, a potom na jejich nelinearitach mohou vznikat kombinacni kmitoctove produkty padajici zpet do pasma pod 20 kHz. A je zle.
4. Na pozici rekonstrukcnich dolnopropustnych filtru se nepouzivaji ciste analogove varianty, ale digitalni, u kterych to s prechodovou casti charakteristiky nevypada tak spatne. Priklad, jak potom vypadaji parametry takoveho DACu s filtrem treba zde: https://www.ti.com/lit/ds/symlink/pcm1748.pdf , strana 7.
5. Faktem taktez je, ze na konci akustickeho pasma 20 kHz nas spise nez amplitudova charakteristika rekonstrukcniho filtru (to jsme schopni zvladnout docela dobre), tlaci charakteristika fazova. U nestacionarnich signalu pak muze dochazet k takovemu linearnimu zkresleni, ze to jedinci s dobrymi ušima slysi. Takze co se tyce filtru, je treba volit dobry kompromis, a zvyseni vzorkovaciho kmitoctu cele situaci jen prospeje.
Pán v showroomu mi udělal blind test s klasickým rockem. Přepínal mi mezi CD a síťovým přehrávačem se zdrojem 24/96 a rozeznal jsem to na 100%. V tom srovnání CD na výškách jakoby jemně kreslí, V lepším případě je takový ostřejší. Ta sestava byla ale v ceně kolem 500 000,- Těžko říct, co člověk musí mít, aby to bylo slyšet. Ale netopýr být nemusí, já sám vím, že už neslyším, co dřív.
Udělat takový opravdu slepý test není vůbec jednoduché a roznodně to nejde udělat tak, jak popisuje Ladino. Doporučuji např. tento článek, kde je popsané, jak takový test vypadá, aby bylo opravdu slepý. Rozhodně to nemůže vypadat tak, že se pustí dvě nahrávky ze dvou různých zdrojů.
Pusťte si klasiku, stejnou nahrávku z vinilu a CD, tak ať máte možnost přepnout. Budete překvapen. To že neslyšíte frekvenci 30 kHz neznamená, že tato frekvence nemá vliv na barvu zvuku. Jazz, klasický rock, blues, klasika to ukáže nejlépe.
Pokud posloucháte syntetiku, tak je to pravděpodobně irelevantní.
Jenze ta barva zvuku vznika tim, ze slysis ty frekvencni slozky tvorici tu barvu zvuku. Pokud tu slozku neslysis, tak nema vliv na tu barvu zvuku.
Argumentovat dvema naprosto rozdilnymi technologiemi zaznamu je uplne mimo. Vinyl a CD se lisi v "milionech" dalsich veci, nez jen ve zaznamenanem frekvencnim rozsahu.
Na vysoké škole jsme si jako studenti s ještě perfektním sluchem zkoušeli, zda dokážeme uslyšet ultrazvukové měřidlo vzdálenosti na 450 kHz. Překvapivě jsme něco slyšet dokázali. Na rozdíl od našeho cca 60 letého profesora jsme dokázali slyšet obálku kolem těch 450 kHz. Mělo to ale jedno velké ALE. Tu obálku jsme slyšeli asi do 0,5 m a cca 30° od osy zdroje toho ultrazvuku.
Takže je možné nějak slyšet i frekvence nad 20 kHz, otázka je jak moc a jak daleko.
Když jste slyšeli obálku, tak jste neslyšeli 450 kHz, ale tu obálku, která byla zřejmě někde mezi 15 a 20 kHz.
Stejně tak dokážeme všichni slyšet třeba rušení od GSM mobilů. Ale to přeci neznamená, že slyšíme 900 MHz! Ve skutečnosti slyšíme nízkofrekvenční TDMA.
Domnívám se, že jste slyšeli různé tříštěné odrazy / rezonance na jiných nižších frekvencích.
Jak ale bylo poznamenáno frekvence 44kHz/8bit je nedostačující protože logicky vykouzlí jen cca 20kHz /8bit zvuk, který může znít asi trochu "uměle".
48kHz a 16bitů už bych bral jako postačující, mnohem větší vliv bude mít reprodukční soustava a psychoakustické maskování kompresních algoritmů.
Ovšem nebral bych to tak dramaticky pamatuji se, že jsme kdysi omylem importovali mp3 na vysokém bitrate v profi studiu na studiových reproduktorech a ono bylo to rozpoznatelné jen vizuálně. Nic zásadního nebylo poznat. Pokud kodér nebyl nějak ošizený (některé vtipně limitovaly výpočty v plovoucí čárce kvůli rychlosti a to už je sakra znát)
Zaznam na platni je velmi nelinearny, z pohladu dnesnych technickych moznosti az primitivne nedokonaly.
Preto je zavedena standardna krivka pri reprodukcii https://en.m.wikipedia.org/wiki/RIAA_equalization krora ma toto eliminovat. Mnozstvo ludi si jednoducho na tu nedokonalost zvyklo a chyba im. Je to ako ked niekto horsie vidi a zrazu si da okuliare a zbada ze dlazka je spinava, co predtym nevidel a preto ho to netrapilo.