Dźwięk

Kompresja dźwięku i obrazu – jak działają kodeki MP3, AAC i H.265?

Na co dzień słuchamy muzyki, oglądamy filmy i przesyłamy nagrania wideo – nie zastanawiając się specjalnie, jak to wszystko się dzieje. Odtwarzacz działa, plik szybko się ładuje, jakość jest „wystarczająco dobra” – więc nie ma powodu, by drążyć temat. A jednak, jeśli tylko zagłębimy się w to, co dzieje się „pod maską” naszych ulubionych formatów, odkryjemy świat niesamowicie sprytnej inżynierii: świat kompresji danych multimedialnych.

To dzięki kodekom takim jak MP3, AAC czy H.265 możemy cieszyć się rozrywką bez konieczności pobierania gigabajtów danych czy posiadania superwydajnych łączy. I choć kompresja może wydawać się czymś abstrakcyjnym, w rzeczywistości jest bardzo praktyczna – a nawet fascynująca.

Dlaczego w ogóle potrzebujemy kompresji?

Kiedy próbujemy zapisać cyfrowo dźwięk lub obraz, szybko okazuje się, że surowe dane zajmują ogromne ilości przestrzeni. Kilkuminutowy utwór w formacie nieskompresowanym (np. WAV) może zająć dziesiątki megabajtów. Film w rozdzielczości Full HD, nagrany bez kompresji, to gigabajty danych na każdą minutę materiału.

W świecie, gdzie przesyłanie danych musi być szybkie, a pamięć i pasmo mają swoje limity, kompresja staje się nie tyle przydatna, co absolutnie niezbędna. Ale nie chodzi tylko o „ściśnięcie” pliku – chodzi o to, by zrobić to mądrze, bez zauważalnej utraty jakości. Tu właśnie wkraczają kodeki.

MP3 i AAC – dźwięk dopasowany do ludzkiego ucha

Kiedy spojrzeliśmy na pierwszy algorytm kompresji dźwięku, który faktycznie się przyjął – MP3 – zaskoczyło nas to, jak bardzo jego działanie opiera się na psychologii słyszenia. MP3 nie próbuje zapisać każdego szczegółu dźwięku – zamiast tego analizuje, co ludzkie ucho faktycznie słyszy, a co można pominąć. To tak, jakby filtr zmysłowy został zakodowany w algorytmie.

MP3 wykorzystuje tzw. maskowanie – czyli zjawisko, w którym pewne dźwięki zagłuszają inne. Jeśli w tle pojawia się bardzo cichy szum, a my jednocześnie słyszymy głośny dźwięk o podobnej częstotliwości, mózg po prostu ignoruje ten szum. MP3 usuwa więc te fragmenty sygnału, które są „niesłyszalne” – oszczędzając miejsce, ale bez istotnej straty dla percepcji.

AAC (Advanced Audio Coding), który dziś jest standardem np. w Apple Music czy YouTube, poszedł o krok dalej. Jest bardziej elastyczny, lepiej radzi sobie z wysokimi i niskimi częstotliwościami, a także oferuje wyższą jakość przy tym samym rozmiarze pliku. To, co dla nas było interesujące, to fakt, że AAC również bazuje na psychoakustyce, ale robi to z większą precyzją – dzięki czemu może lepiej dopasować się do różnych typów muzyki, głosu czy dźwięków otoczenia.

H.265 – wideo w jakości 4K bez bólu głowy

Wideo to zupełnie inna para kaloszy. W jednym obrazie mamy miliony pikseli, które zmieniają się co sekundę – i to w sposób, który ma wyglądać płynnie. Kodek H.265 (znany też jako HEVC – High Efficiency Video Coding) to odpowiedź na potrzeby współczesnych standardów jak 4K, HDR czy transmisje internetowe.

Kiedy analizowaliśmy, jak działa H.265, zrozumieliśmy, że tu kluczowa jest inteligencja predykcji. Kodek ten nie przechowuje każdej klatki jako osobnego obrazu – zamiast tego zapisuje różnice między klatkami, zakładając, że wiele pikseli się nie zmieni. Jeśli kamera pozostaje nieruchoma, a tylko obiekt się porusza, H.265 rejestruje jedynie ten ruch – co pozwala dramatycznie zmniejszyć objętość danych.

Kompresja wideo w H.265 to także segmentowanie obrazu na mniejsze bloki i analizowanie ich struktury w różnej skali. To trochę tak, jakby kodek patrzył na film z różnych odległości – raz z bliska, raz z daleka – i za każdym razem decydował, co warto zachować, a co można uprościć. Dzięki temu uzyskujemy jakość zbliżoną do Blu-ray, ale w pliku, który można bez problemu przesłać przez domowe Wi-Fi.

Czy kompresja zawsze coś zabiera?

Oczywiście, kompresja stratna – bo taką właśnie reprezentują MP3, AAC i H.265 – zawsze wiąże się z jakąś formą „ucięcia” danych. Ale to, co nas uderzyło najbardziej, to jak niewiele tej straty rzeczywiście widać lub słychać. Algorytmy są na tyle wyrafinowane, że przy dobrze dobranym bitrate'cie potrafią niemal całkowicie zachować wrażenie oryginału.

Dzięki temu możemy korzystać z muzyki i filmów na telefonach, w streamingu, czy nawet w aplikacjach VR – bez obawy, że zabraknie nam miejsca albo łącze się zapcha. A jeśli chcemy, możemy sięgnąć po wersje bezstratne – jak FLAC czy ProRes – choć te są już domeną archiwizacji, montażu i pracy profesjonalnej.

Podsumowanie: ukryta inżynieria, która zmieniła nasze codzienne życie

Kiedy dziś słuchamy playlisty w podróży albo oglądamy serial w 4K na laptopie, rzadko myślimy o tym, co dzieje się w tle. A jednak – każda nuta, każda klatka filmu przechodzi przez niezwykle złożone algorytmy, które analizują, przewidują, upraszczają i optymalizują dane z myślą o naszych oczekiwaniach i możliwościach sprzętu.

Kompresja dźwięku i obrazu to nie tylko oszczędność miejsca – to świadome projektowanie doświadczenia użytkownika. I choć kodeki takie jak MP3, AAC i H.265 mają swoje ograniczenia, to ich rola we współczesnych multimediach jest nie do przecenienia. To dzięki nim świat cyfrowy mieści się w naszych kieszeniach – a my możemy cieszyć się nim bez barier.