Multimedia

1.3 Digitální zvuk

1.3.3 Formáty souborů

Nyní si představíme základní typy formátů souborů a rozdílů mezi nimi. Cílem tohoto přehledu je stručný přehled formátů běžné praxe na středoškolské úrovni a vysvětlení základních rozdílů mezi nimi.

WAVE (.wav)

V praxi je formát WAVE převážně v nekomprimované formě (samozřejmě zde již hovořím o digitálně uloženém zvuku a neberu zde v úvahu ztrátu způsobenou převodem z analogového do digitálního signálu) v tzv. pulzně kódové modulaci (= PCM). Přípona wav je odvozena z "Waveform audio format", který vytvořily firmy IBM a Microsoft. Vzhledem k tomu, že zvuk takto uložený je bezztrátový, používá se nejčastěji při zpracování zvuku. Ovšem velkou nevýhodou je jeho náročnost na množství uložených dat, a proto se velikost výsledného souboru pohybuje v řádech desítkách MB. Proto se raději volí komprimované soubory, např. formát MPEG (.mp3).

MPEG (.mp3)

Formát mp3 je založený na kompresním algoritmu MPEG (Motion Picture Experts Group). Byl vyvinut hlavně proto, aby se minimalizovala velikost výsledného souboru. Komprese je ztrátová, proto se nehodí pro profesionální práci s hudbou, ale při dostatečně velkém bit rate (alespoň tak 320 kbit/s) jen málo kdo uslyší rozdíly oproti wav formátu. Ovšem podstatně menší velikost souboru přehlédne jen málo kdo. Tento formát je dnes populární pro své malé nároky na velikost a s tím spojenou dobrou manipulaci. Komprese probíhá podle teorie "smažu, co člověk stejně neuslyší". S tímto způsobem uložení dat přišel německý vědec Karlheinz Brandenburg a jeho vědecký tým. Mezi jeho klady patří i přidání tzv. ID3 tagu, který slouží k uložení různých informací přímo do souboru mp3 (např.: titul, interpret, album, rok vydání, číslo stopy, žánr a komentář) a tyto informace se pak následně zobrazují při přehrávání. Ovšem mezi jeho slabiny patří ukládání mluveného slova, protože může zkracovat pauzy mezi jednotlivými slovy či potlačit první nebo poslední slabiky slov. Pro účely uložení řeči lze použít kodek AMR.

AMR (.amr)

AMR (= Adaptive Multi-Rate compression) je kodek pro ukládání zvuku především pro mluvené slovo. Jeho největší užití je v telekomunikacích (např. mobilní sítě). Proto dnes většina mobilních zařízeních umí s tímto formátem pracovat, protože dosahuje dobrých výsledků. Vzorkovací frekvence je 8 kHz při 13 bitech a po každých 20 ms je možné tento datový tok (= bit rate ) změnit, proto název Adaptive Multi-Rate. Ovšem jeho slabou stránkou je ukládání hudby. Pro tyto účely se používá již zmíněný MPEG kodek a nebo Windows media audio (.wma).

WMA (.wma, .asf)

Windows Media Audio je formát zvuku, který byl standardně zamýšlen pro platformu Windows, kde je také tento kodek implementován do hudebního přehrávače Windows Media Player. Standardně tento formát je ztrátový, ale jsou i zvláštní kodeky z této rodiny pro bezztrátvou kompresi. Nyní se ale postupně dostává i do jiných prostředích, a to jak softwarových (operační systém Linux), tak i hardwarových (různá zařízení - DVD přehrávače, aj.), možná i díky rozšířenosti platformy Windows. Ovšem nevýhodou je, že není volně šiřitelný a nemá otevřený zdrojový kód, čili uživatel je závislý na tom, jaké možnosti nastavení "dostane" od Microsoftu. A těmi právě wma příliš nedisponuje. Říká se, že vznikl proto, aby Microsoft nemusel platit integraci mp3 do Windows. Dnes je považován za běžný standard ve světě hudebních souborů a spíše "soupeří" s Applový AAC formátem.