ето ви малко инфо за аудио компресията и що е то мп3:
Цитат("gad")
Аудио
От съществуващите днес формати за аудио компресия заслужават внимание следните три: МР3 (или MPEG-1 Audio Layer III), LQT (като представител на MPEG-2 AAC/MPEG-4) и новия формат OGG (Ogg Vorbis), разработван от група ентусиасти. Безплатния МР3 е най-популярният. Именно от него стартира триумфалното шествие на компресираната музика. Но както често се случва с пионерите, постепенно той отстъпва място на по-нови и по-качествени формати. LQT е представител на семейството ААС, характеризиращо се с нови алгоритми на кодиране. Форматът е много качествен, но е комерсиален и засекретен. OGG е напълно нов. Той става известен на широката общественост през лятото на 2000 година, характеризира се с много бързо развитие и се очаква да измести МР3 благодарение на по-високото качество при по-малък размер на файла.
Форматът OGG е сходен с МР3, но съдържа друг психоакустичен модел, както и някои отсъстващи при МР3 технически нововъведения. OGG поддържа само VBR (Variable BitRate) кодиране, като потребителите задават ориентировъчно скоростта на потока, а програмата се стреми да се доближава максимално до указаната стойност. Диапазонът е от 8 до 512 kbit/s и е значително по-дискретен в сравнение с МР3.
На CES през 2001 Fraunhofer Institute, съвместно с Thomson, представят нов формат за компресия - MP3PRO. Той свива аудиопоток на 64 kbit/s с качеството на МР3 на 128 kbit/s. Съществува обратна съвместимост - съвременните MP3 Player-и могат да просвирват MP3PRO файлове, макар и с качеството на обикновени 64 килобитови мелодии. MP3PRO е безплатен и е с отворен код.
Компресиране
Има два метода за компресия:
1.Компресия без загуба. Това е zip (Hoffman) компресията, където структурата от данни бива сканирана за да бъде намалено количеството, което ще се съхранява. Метода е изцяло математически и резултата е намаляване на количеството данни без тяхната загуба.
2.Психоакустични модели. На този метод се базират почти всички видове компресия. При него се губи информация, като енкодерът изрязва информация за да намали обема на данните. Базиран е на математически модел, който се опитва да определи кое не се чува от човешкото ухо и го премахва.
Коя точно информация ще бъде изхвърлена зависи от използвания кодек. Някои кодеци премахват определени честоти, така че компресията да е подходяща за гласове. Телефоните използват компресия, при която музиката звучи ужасно, дори когато е чиста синусоида.
С течение на времето са създадени различни модели за редуциране на големината на данните. Най-важния през последните години без съмнение е MPEG1 Layer 3 (MP3) модела.
Стъпки на МР3 компресията:
1. Сигналът бива разделен на малки секции, наричани frames и всяка от тях бива анализирана за честотите, които съдържа (спектрален анализ).
2. Получените резултати се сравняват с таблици с данни в кодека, които съдържат информация за психоакустичния модел. При МР3 кодека тези таблици са много комплексни и по-голямата част от моделирането е базирана на принципа на маскиране, който ще бъде разгледан по-долу. Всяка информация, която съвпада с психоакустичния модел, бива запазвана, а тази, която не съвпада – премахвана.
3. В зависимост от bitrate-ът кодека използва определеното количество битове за съхраняване на данните.
4. След приключване на горните операции резултатът минава през Hoffman-овата zip компресия без загуби, което намалява големината на файла с още около 10% (за това няма смисъл от zip-компресиране на МР3 файлове – те вече са компресирани така).
Общо взето това са операциите, които извършва един МР3 компресор. Основния метод, по който МР3 компресията отстранява информация е откриването на звуците, които не могат да бъдат доловени от човешкото ухо (маскирани звуци) и изрязването им. По този начин се получава компресия без загуба (по принцип) на звученето.
Психоакустични модели и маски
Има два вида маскиращи ефекти: едновременно и временно маскиране.
Едновременното маскиране работи на принципа че някои звуци биват заглушавани докато звучат други звуци по едно и също време. В тихите части на музиката може да долавяме едва доловими звуци като дишането на вокалиста. Във шумна песен тези звуци не могат да бъдат чути, но това не значи че са изчезнали. Освен това е установено, че когато просвирваме два еднакви звука, като първия е по-висок, но малко по-висок, е много трудно да доловим втория. Мозъка по самосебе си филтрира звукът. Все пак, ако трябва да различим просвирваните звуци , дори когато не можем да чуем единия, имаме повече информация. Това е един вид информация, която бива премахвана по принципа на едновременното маскиране – мозъка не долавя премахването на звука защото друг, по-силен, го заглушава.
Временното маскиране работи по подобен начин, но тук идеята е в това, че фактически ако просвирим един звук съвсем малко след друг, втория няма да бъде чут (и обратното). Премахнатата информация е звукова.
Всичко това звучи чудесно – можем да премахваме звуци, които не чуваме и да получаваме по-малки файлове. Донякъде е вярно, но е факт че се оттърваваме от много данни и някои хора ще кажат: няма такова нещо като МР3 колекция на истински меломан – той усеща разликата.
Запазване на данните: Битрейтове и как те работят
Какво бихме направили ако имахме определено количество битове за да опишем секунда аудио? Начинът на съхранение на данните представя вълните по математически начин. Използвайки математичния модел на дискретното косинусоидно преобразуване (DTC – discrete cosine transform) вълната може да бъде представена като сума от косинусоиди. Колкото повече косинусоиди се използват за описването, толкова по-точен ще бъде крайния резултат до оригинала. Битрейт-а съхранява тази информация и сложността, и оттук точността, ще бъде ограничена до количеството данни, които могат да бъдат съхранени за определеното време.
Константен и променлив битрейт
Повечето аудио е компресирано с постоянен битрейт (CBR – Constant BitRate), което значи че за всяка секунда има едно и също количество битове. Повече от ясно е, че аудиото не е константно. Има тихи и шумни откъси, сложни и прости секции, но ако кодираме с постоянен битрейт всички трябва да бъдат описани с еднакво количество данни.
Hence, Xing (които в момента са част от Real Networks) изобретяват система за кодиране с променлив битрейт (VBR – Variable BitRate) при която битрейта за всеки откъс бива мащабиран на принципа че някои секции се нуждаят от по-малко битове, а други – от повече. Това значи че при същата големина на файла можем да получим по-добро качество на кодирания файл.
Сглобено Стерео (Joint Stereo)
В повечето случаи данните в левия и десния канал си приличат доста. Тогава защо да запазваме и двата канала, като много от данните се повтарят? Оттук идва идеята за сглобеното стерео. При него се сравняват двата канала и се определя колко данни могат да се спестят като се направят каналите идентични и информацията се кодира веднъж. Това значи че ще има и елементи от аудиото, които са моно (ефекти). Те са само елементи в крайна сметка но са много важна добавка за намаляване на големината на файла.
Има и втори етап от формирането на сглобеното стерео, която е много хитра и използва още един психоакустичен модел. На теория човек трудно може да определи от къде идват много ниските и много високите честоти. Практически пример за това са басрефлекторните говорители (subwoofers). Те могат да бъдат поставени в единия ъгъл на стаята и все още не можем да определим точно от къде идва звука. Вземайки предвид тази идея басовете и много високите честоти се превръщат във моно – понеже не можем да уловим разликата.
Естествено, по този метод получаваме намаляне на пространствения (стерео) ефект. Много хора не забелязват разликата, но ако искаме наистина добро качетство трябва да кодираме в чисто стерео. Освен това е възможно и да се получат грешки, които не могат да бъдат поправени с по-висок битрейт.