что такое разрядность и частота дискретизации звука

15.12.202307.07.2022 admin 0 Comments

Частота дискретизации и разрядность

При описании цифровых записывающих устройств используют два фундаментальных понятия: частота дискретизации и разрядность. В этой статье мы рассмотрим, что это такое.

Частота дискретизации

Частота дискретизации — это частота, с которой записывающим устройством фиксируются отсчеты входного сигнала. При записи звука в цифровом виде фактически записываются отдельные отсчеты или, иными словами, значения интенсивности звука в отдельные моменты времени.

Частота дискретизации для записывающих устройств имеет обычно следующие стандартные значения: 44,1 кГц; 48 кГц и 96 кГц. Чем большая величина частоты дискретизации, тем большее количество отсчетов делается за 1 секунду и тем лучше качество цифрового звука мы имеет в результате.

Каково значение этих чисел? Они подразумевают количество раз снятия за секунду записывающим устройством значения интенсивности звука входного сигнала. Для измерения частоты дискретизации используются килогерцы (кГц), 1 кГц = 1 000 отсчетам в секунду.

К примеру, если запись осуществляется с частотой дискретизации 48 кГц, то это означает, что значение интенсивности звука звукозаписывающее устройство измеряет и фиксирует 48 000 раз в секунду.

Такое количество может показаться невообразимо огромным, но здесь стоит вспомнить о явлении, называемом частотой Никвиста. Частота Никвиста названа так в честь человека, который первым ее обнаружил. Она определяет наивысшую частоту звука, которую возможно записать при данной частоте дискретизации.

Если говорить вкратце, то максимальное значение высоты звука, которое может быть подано в цифровом виде, равно примерно половине частоты дискретизации.

Поэтому, при проведении записи с частотой дискретизации 48 кГц максимальная частота звука, которая может быть записана, равна 24 кГц. Этого вполне достаточно, если учесть, что человеческое ухо слышит частоты в среднем от 20 Гц до 20 кГц.

Разрядность

В разговоре о цифровых записывающих устройствах часто можно услышать слова «16 бит», «24 бита» и т. д. Одни означают количество единиц информации, с помощью которых можно представить значение каждого отсчета, получаемого при цифровой записи.

Чем большая величина этого числа, тем точнее можно записать значение каждого отсчета и тем более высокое качество звука можно получить в итоге.

Не стоит думать, что чем больше количество бит, то есть чем выше величина разрядности, тем большее значение интенсивности можно зафиксировать. Здесь имеется в виду именно точность представления.

В современных записывающих устройствах обычно реализована разрядность 24 бита. Стоит учитывать, что запись с большой разрядностью занимает много места на устройстве хранения, но это не так уж важно, ибо современные носители отличаются огромными объемами и постоянно стают более и более доступными в финансовом плане.

Источник

Что такое разрядность и частота дискретизации звука

Когда сигнал поступает на АЦП с предусилителя, компрессора, выхода пульта, синтезатора, — он представляет собой электромагнитные колебания. То есть на вход АЦП приходит некая волна с изменяющимся напряжением (очень маленьких величин). Для сохранения сигнала в файл его нужно «оцифровать», то есть закодировать с помощью единиц и нулей. В результате получается график волны на экране компьютера.

Даже самый лучший преобразователь имеет погрешность, ведь между нулем и единицей нет промежуточных значений, и график волны будет состоять только из вертикальных и горизонтальных отрезков, без наклонных линий. На графическую прорисовку волны будут влиять высота звука (частота колебаний), его тембр (форма волны) и громкость (амплитуда). Качественный АЦП должен корректно передать системе записи все эти параметры.

Итак, звук поступает в систему дискретно, то есть разделенным мелкие отрезки. От величины этих отрезков зависит точность кодирования аналогового сигнала в цифровой среде. Чем мельче горизонтальная и вертикальная дискретные единицы, тем точнее оцифровка.

Частота дискретизации

Горизонтальное дробление волны дает нам представление о частоте дискретизации, или частоте семплирования. Чем чаще АЦП фиксирует изменения значений графика волны, тем выше частота семплирования. Собственно, один семпл — это дискретный единичный отрезок, минимальная единица звука. Чем он короче, тем выше частота дискретизации.

К примеру, значение частоты дискретизации в 44.1 кГц показывает, что в одной секунде записи содержится 44100 семплов. Мы можем редактировать волну, принимая за минимальный элемент редактирования отрезок длительностью 1/44100 секунды. При увеличении частоты семплирования до 48 кГц этот отрезок уменьшается до 1/48000 доли секунды, давая возможность более точного воздействия.

Согласование частот дискретизации

АКАДЕМИЯ МЮЗИКМЕЙКЕРА

Книга А. Данилова о создании музыки

Каждый семпл по продолжительности равен предыдущему. Для корректного воспроизведения звука частоты дискретизации файла и системы должны быть идентичны. При добавлении в проект звуковой дорожки с частотой дискретизации, отличной от дискретизации хоста (программы), она должна быть сконвертирована.

Если воспроизводить файл более высокой частоты в системе с более низкой, он будет звучать медленнее, чем должен, и наоборот. Конвертирование сигнала из одной частоты в другую всегда приводит к появлению искажений. Чтобы «перекроить» звук под новую частоту дискретизации, система должна разбить семплы на более мелкие куски и снова собрать их в единую волну. Такой процесс может привести в лучшем случае просто к замыливанию звука, в худшем — к появлению щелчков.

Конечно, на встроенных колонках домашнего ноутбука разница будет незаметна. Но если речь идет о работе со звуком на профессиональном уровне, согласование частот дискретизации необходимо.

Не рекомендуется изменять частоту дискретизации в рамках одного проекта. Оправданием повышению дискретизации может быть, например, необходимость обработки файла алгоритмами или плагинами, лучше работающими на высоких частотах. Поскольку более высокая дискретность предполагает разбиение на более мелкие семплы, точность обработки будет выше, а качество в результате лучше. Но гарантировать эффективность этого метода тоже невозможно: в каждом случае результат будет индивидуальным. Необходимо каждый раз оценивать, что важнее — эффект от обработки на более высокой дискретности или негативное влияние конвертации.

Если по какой-то причине после завершения работы на частоте 48 кГц вам потребовалось конвертировать сигнал в 44.1 кГц, сохраните исходный файл на тот случай, если придется повторно вмешиваться в материал (например, для альтернативного мастеринга). Обработка на более высокой частоте дискретизации даст лучший эффект, чем на низкой.

Разрядность звука

Если горизонтальное дробление волны дает нам представление о частоте дискретизации, то вертикальная дискретизация – это разрядность, отвечающая за достоверную передачу динамических элементов записи. Чем большее количество «ступенек» может зафиксировать преобразователь, тем выше разрядность записанного звукового файла.

Например, волна за отрезок времени может совершить движение одной ступенькой от 0 до 16, а может четырьмя — по 4 единицы за шаг. Более точным представлением будет 16 шагов по единице. Количество ступенек, на которые волна дробится по вертикали, — это и есть разрядность.

Чем выше разрядность конвертора, тем достовернее он передаст сигналы разного уровня громкости. Если мы движемся большими шагами, каждый из которых равен 16 единицам (низкая разрядность), то при громкости входящей волны на уровне 4 график ее будет округлять до нуля. А если каждая ступенька разрядности равна 4 единицам (средняя разрядность), значение 4 будет зафиксировано на своем уровне, а значения 3 и 5 округлятся до 4. При единичном шаге все эти значения будут находиться на своих ступеньках — 3, 4, 5 (высокая разрядность).

Таким образом, более высокая разрядность АЦП дает возможность детальнее интерпретировать различные значения громкости звука и максимально приблизиться к форме реальной волны.

Разбиение волны на «ступеньки» по вертикали и горизонтали называется квантованием. Иногда частоту дискретизации называют частотой квантования, а разрядность динамическим квантованием, то есть разделением по уровням громкости (динамика).

Естественно, пример с 16 единицами — условность. Конверторы работают на гораздо более высоких значениях. Например, при разрядности 16 бит система может передать 65536 уровней громкости (2 в степени 16). А при 24 битах — 16777216 уровней (2 в степени 24).

Казалось бы, зачем столько? Неужели наше ухо способно различить хотя бы десять тысяч уровней громкости? Напрямую — не может. Скажем, два сигнала с «соседними» значениями даже при разрядности 16 бит мы различить не в состоянии. Но работа в студии ведется с разнообразными звуками, и некоторые из них имеют значительные перепады по громкости (к примеру, реверберация). Многие процессы требуют тонкой работы с громкостями (например, едва заметное воздействие эквалайзером на спектр). Для корректной работы нужна система с хорошей разрешающей способностью и по горизонтали, и по вертикали.

Но есть и обратная сторона медали. Высокие значения дискретизации и разрядности делают файлы более объемными, и для их обработки системе требуется больше ресурсов. Здесь самое время вспомнить про различия между ресурсонезависимыми и нативными системами. Чем выше квантование, тем сильнее загружается компьютер. Этот фактор более критичен для нативной системы, обремененной обслуживанием операционки и фоновых процессов.

Всегда нужно искать баланс между значениями дискретизации и разрядности и реальными возможностями системы. Не заставляйте ее работать на пределе, оставляйте резерв мощности.

Мы приближаемся к очень важной и мало кому понятной теме, связанной с музыкальным производством. Речь о так называемых шумах квантования. В ближайшее время этому явлению будет посвящен отдельный материал. Понимание природы шумов квантования дает возможность музыканту и звукорежиссеру разобраться в некоторых непростых вопросах, связанных с записью музыки в цифровой среде. Поскольку ввиду дороговизны и сложности в обслуживании аналогового оборудования подавляющее большинство музыкантов работает прежде всего именно в цифровых системах записи, эта тема так или иначе затрагивает всех.

Следите за обновлениями блога, подписывайтесь на новые статьи, чтобы совершенно бесплатно получать их на электронную почту. Также хочу напомнить, что очень много познавательной практической и теоретической информации содержится в моей книге «Академия Мюзикмейкера», которую без посредников можно приобрести на сайте MusicMaker.Pro.

Остались вопросы? Не стесняйтесь задавать их в комментариях под статьей или присоединяйтесь к обсуждениям в этой группе ВКонтакте, посвященной синтезаторам, музыкальному оборудованию и звукозаписи.

Хотите получать новые статьи
прямо на почту?

Подпишитесь на обновления блога А. Данилова

Источник

Цифровое представление аналогового аудиосигнала. Краткий ликбез

Дорогие читатели, меня зовут Феликс Арутюнян. Я студент, профессиональный скрипач. В этой статье хочу поделиться с Вами отрывком из моей презентации, которую я представил в университете музыки и театра Граца по предмету прикладная акустика.

Рассмотрим теоретические аспекты преобразования аналогового (аудио) сигнала в цифровой.
Статья не будет всеохватывающей, но в тексте будут гиперссылки для дальнейшего изучения темы.

Чем отличается цифровой аудиосигнал от аналогового?

Аналоговый (или континуальный) сигнал описывается непрерывной функцией времени, т.е. имеет непрерывную линию с непрерывным множеством возможных значений (рис. 1).

Цифровой сигнал — это сигнал, который можно представить как последовательность определенных цифровых значений. В любой момент времени он может принимать только одно определенное конечное значение (рис. 2).

Аналоговый сигнал в динамическом диапазоне может принимать любые значения. Аналоговый сигнал преобразуется в цифровой с помощью двух процессов — дискретизация и квантование. Очередь процессов не важна.

Дискретизацией называется процесс регистрации (измерения) значения сигнала через определенные промежутки (обычно равные) времени (рис. 3).

Квантование — это процесс разбиения диапазона амплитуды сигнала на определенное количество уровней и округление значений, измеренных во время дискретизации, до ближайшего уровня (рис. 4).

Дискретизация разбивает сигнал по временной составляющей (по вертикали, рис. 5, слева).
Квантование приводит сигнал к заданным значениям, то есть округляет сигнал до ближайших к нему уровней (по горизонтали, рис. 5, справа).

Эти два процесса создают как бы координатную систему, которая позволяет описывать аудиосигнал определенным значением в любой момент времени.
Цифровым называется сигнал, к которому применены дискретизация и квантование. Оцифровка происходит в аналого-цифровом преобразователе (АЦП). Чем больше число уровней квантования и чем выше частота дискретизации, тем точнее цифровой сигнал соответствует аналоговому (рис. 6).

Уровни квантования нумеруются и каждому уровню присваивается двоичный код. (рис. 7)

Количество битов, которые присваиваются каждому уровню квантования называют разрядностью или глубиной квантования (eng. bit depth). Чем выше разрядность, тем больше уровней можно представить двоичным кодом (рис. 8).

Данная формула позволяет вычислить количество уровней квантования:

Если N — количество уровней квантования,
n — разрядность, то

Обычно используют разрядности в 8, 12, 16 и 24 бит. Несложно вычислить, что при n=24 количество уровней N = 16,777,216.

При n = 1 аудиосигнал превратится в азбуку Морзе: либо есть «стук», либо нету. Существует также разрядность 32 бит с плавающей запятой. Обычный компактный Аудио-CD имеет разрядность 16 бит. Чем ниже разрядность, тем больше округляются значения и тем больше ошибка квантования.

Ошибкой квантований называют отклонение квантованного сигнала от аналогового, т.е. разница между входным значением и квантованным значением ()

Большие ошибки квантования приводят к сильным искажениям аудиосигнала (шум квантования).

Чем выше разрядность, тем незначительнее ошибки квантования и тем лучше отношение сигнал/шум (Signal-to-noise ratio, SNR), и наоборот: при низкой разрядности вырастает шум (рис. 9).

Разрядность также определяет динамический диапазон сигнала, то есть соотношение максимального и минимального значений. С каждым битом динамический диапазон вырастает примерно на 6dB (Децибел) (6dB это в 2 раза; то есть координатная сетка становиться плотнее, возрастает градация).

Ошибки квантования (округления) из-за недостаточного количество уровней не могут быть исправлены.

50dB SNR
примечание: если аудиофайлы не воспроизводятся онлайн, пожалуйста, скачивайте их.

Теперь о дискретизации.

Как уже говорили ранее, это разбиение сигнала по вертикали и измерение величины значения через определенный промежуток времени. Этот промежуток называется периодом дискретизации или интервалом выборок. Частотой выборок, или частотой дискретизации (всеми известный sample rate) называется величина, обратная периоду дискретизации и измеряется в герцах. Если
T — период дискретизации,
F — частота дискретизации, то

Чтобы аналоговый сигнал можно было преобразовать обратно из цифрового сигнала (точно реконструировать непрерывную и плавную функцию из дискретных, «точечных» значении), нужно следовать теореме Котельникова (теорема Найквиста — Шеннона).

Теорема Котельникова гласит:

Если аналоговый сигнал имеет финитный (ограниченной по ширине) спектр, то он может быть восстановлен однозначно и без потерь по своим дискретным отсчетам, взятым с частотой, строго большей удвоенной верхней частоты.

Вам знакомо число 44.1kHz? Это один из стандартов частоты дискретизации, и это число выбрали именно потому, что человеческое ухо слышит только сигналы до 20kHz. Число 44.1 более чем в два раза больше чем 20, поэтому все частоты в цифровом сигнале, доступные человеческому уху, могут быть преобразованы в аналоговом виде без искажении.

Но ведь 20*2=40, почему 44.1? Все дело в совместимости с стандартами PAL и NTSC. Но сегодня не будем рассматривать этот момент. Что будет, если не следовать теореме Котельникова?

Когда в аудиосигнале встречается частота, которая выше чем 1/2 частоты дискретизации, тогда возникает алиасинг — эффект, приводящий к наложению, неразличимости различных непрерывных сигналов при их дискретизации.

Как видно из предыдущей картинки, точки дискретизации расположены так далеко друг от друга, что при интерполировании (т.е. преобразовании дискретных точек обратно в аналоговый сигнал) по ошибке восстанавливается совершенно другая частота.

Аудиопример 4: Линейно возрастающая частота от

100 до 8000Hz. Частота дискретизации — 16000Hz. Нет алиасинга.

Аудиопример 5: Тот же файл. Частота дискретизации — 8000Hz. Присутствует алиасинг

Пример:
Имеется аудиоматериал, где пиковая частота — 2500Hz. Значит, частоту дискретизации нужно выбрать как минимум 5000Hz.

Следующая характеристика цифрового аудио это битрейт. Битрейт (bitrate) — это объем данных, передаваемых в единицу времени. Битрейт обычно измеряют в битах в секунду (Bit/s или bps). Битрейт может быть переменным, постоянным или усреднённым.

Следующая формула позволяет вычислить битрейт (действительна только для несжатых потоков данных):

Битрейт = Частота дискретизации * Разрядность * Количество каналов

Например, битрейт Audio-CD можно рассчитать так:
44100 (частота дискретизации) * 16 (разрядность) * 2 (количество каналов, stereo)= 1411200 bps = 1411.2 kbit/s

При постоянном битрейте (constant bitrate, CBR) передача объема потока данных в единицу времени не изменяется на протяжении всей передачи. Главное преимущество — возможность довольно точно предсказать размер конечного файла. Из минусов — не оптимальное соотношение размер/качество, так как «плотность» аудиоматериала в течении музыкального произведения динамично изменяется.

При кодировании переменным битрейтом (VBR), кодек выбирает битрейт исходя из задаваемого желаемого качества. Как видно из названия, битрейт варьируется в течение кодируемого аудиофайла. Данный метод даёт наилучшее соотношение качество/размер выходного файла. Из минусов: точный размер конечного файла очень плохо предсказуем.

Усреднённый битрейт (ABR) является частным случаем VBR и занимает промежуточное место между постоянным и переменным битрейтом. Конкретный битрейт задаётся пользователем. Программа все же варьирует его в определенном диапазоне, но не выходит за заданную среднюю величину.

При заданном битрейте качество VBR обычно выше чем ABR. Качество ABR в свою очередь выше чем CBR: VBR > ABR > CBR.

ABR подходит для пользователей, которым нужны преимущества кодирования VBR, но с относительно предсказуемым размером файла. Для ABR обычно требуется кодирование в 2 прохода, так как на первом проходе кодек не знает какие части аудиоматериала должны кодироваться с максимальным битрейтом.

Существуют 3 метода хранения цифрового аудиоматериала:

Несжатый (RAW) формат данных

Другой формат хранения несжатого аудиопотока это WAV. В отличие от RAW, WAV содержит заголовок файла.

Аудиоформаты с сжатием без потерь

Принцип сжатия схож с архиваторами (Winrar, Winzip и т.д.). Данные могут быть сжаты и снова распакованы любое количество раз без потери информации.

Как доказать, что при сжатии без потерь, информация действительно остаётся не тронутой? Это можно доказать методом деструктивной интерференции. Берем две аудиодорожки. В первой дорожке импортируем оригинальный, несжатый wav файл. Во второй дорожке импортируем тот же аудиофайл, сжатый без потерь. Инвертируем фазу одного из дорожек (зеркальное отображение). При проигрывании одновременно обеих дорожек выходной сигнал будет тишиной.

Это доказывает, что оба файла содержат абсолютно идентичные информации (рис. 11).

Кодеки сжатия без потерь: flac, WavPack, Monkey’s Audio…

При сжатии с потерями

акцент делается не на избежание потерь информации, а на спекуляцию с субъективными восприятиями (Психоакустика). Например, ухо взрослого человек обычно не воспринимает частоты выше 16kHz. Используя этот факт, кодек сжатия с потерями может просто жестко срезать все частоты выше 16kHz, так как «все равно никто не услышит разницу».

Другой пример — эффект маскировки. Слабые амплитуды, которые перекрываются сильными амплитудами, могут быть воспроизведены с меньшим качеством. При громких низких частотах тихие средние частоты не улавливаются ухом. Например, если присутствует звук в 1kHz с уровнем громкости в 80dB, то 2kHz-звук с громкостью 40dB больше не слышим.

Этим и пользуется кодек: 2kHz-звук можно убрать.

Кодеки сжатия с потерям: mp3, aac, ogg, wma, Musepack…

Источник

Теория звука. Что нужно знать о звуке, чтобы с ним работать. Опыт Яндекс.Музыки

Звук, как и цвет, люди воспринимают по-разному. Например, то, что кажется слишком громким или некачественным одним, может быть нормальным для других.

Для работы над Яндекс.Музыкой нам всегда важно помнить о разных тонкостях, которые таит в себе звук. Что такое громкость, как она меняется и от чего зависит? Как работают звуковые фильтры? Какие бывают шумы? Как меняется звук? Как люди его воспринимают.

Мы довольно много узнали обо всём этом, работая над нашим проектом, и сегодня я попробую описать на пальцах некоторые основные понятия, которые требуется знать, если вы имеете дело с цифровой обработкой звука. В этой статье нет серьёзной математики вроде быстрых преобразований Фурье и прочего — эти формулы несложно найти в сети. Я опишу суть и смысл вещей, с которыми придётся столкнуться.

Поводом для этого поста можете считать то, что мы добавили в приложения Яндекс.Музыки возможность слушать треки в высоком качестве (320kbps). А можете не считать. Итак.

Оцифровка, или Туда и обратно

Прежде всего разберёмся с тем, что такое цифровой сигнал, как он получается из аналогового и откуда собственно берётся аналоговый сигнал. Последний максимально просто можно определить как колебания напряжения, возникающие из-за колебаний мембраны в микрофоне.

Рис. 1. Осциллограмма звука

Это осциллограмма звука — так выглядит аудио сигнал. Думаю, каждый хоть раз в жизни видел подобные картинки. Для того чтобы понять, как устроен процесс преобразования аналогового сигнала в цифровой, нужно нарисовать осциллограмму звука на миллиметровой бумаге. Для каждой вертикальной линии найдем точку пересечения с осциллограммой и ближайшее целое значение по вертикальной шкале — набор таких значений и будет простейшей записью цифрового сигнала.

Рис. 2. Интерактивный пример сложения волн и оцифровки сигнала.
Источник: www.desmos.com/calculator/aojmanpjrl

Воспользуемся этим интерактивным примером, чтобы разобраться в том, как накладываются друг на друга волны разной частоты и как происходит оцифровка. В левом меню можно включать/выключать отображение графиков, настраивать параметры входных данных и параметры дискретизации, а можно просто двигать контрольные точки.

На аппаратном уровне это, разумеется, выглядит значительно сложнее, и в зависимости от аппаратуры сигнал может кодироваться совершенно разными способами. Самым распространённым из них является импульсно-кодовая модуляция, при которой записывается не конкретное значение уровня сигнала в каждый момент времени, а разница между текущим и предыдущим значением. Это позволяет снизить количество бит на каждый отсчёт примерно на 25%. Этот способ кодирования применяется в наиболее распространённых аудио-форматах (WAV, MP3, WMA, OGG, FLAC, APE), которые используют контейнер PCM WAV.

В реальности для создания стерео-эффекта при записи аудио чаще всего записывается не один, а сразу несколько каналов. В зависимости от используемого формата хранения они могут храниться независимо. Также уровни сигнала могут записываться как разница между уровнем основного канала и уровнем текущего.

Обратное преобразование из цифрового сигнала в аналоговый производится с помощью цифро-аналоговых преобразователей, которые могут иметь различное устройство и принципы работы. Я опущу описание этих принципов в данной статье.

Дискретизация

Как известно, цифровой сигнал — это набор значений уровня сигнала, записанный через заданные промежутки времени. Процесс преобразования непрерывного аналогового сигнала в цифровой сигнал называется дискретизацией (по времени и по уровню). Есть две основные характеристики цифрового сигнала — частота дискретизации и глубина дискретизации по уровню.

Рис. 3. Дискретизация сигнала.
Источник: https://en.wikipedia.org/wiki/Sampling_(signal_processing)

Частота дискретизации указывает на то, с какими интервалами по времени идут данные об уровне сигнала. Существует теорема Котельникова (в западной литературе её упоминают как теорему Найквиста — Шеннона, хотя встречается и название Котельникова — Шеннона), которая утверждает: для возможности точного восстановления аналогового сигнала из дискретного требуется, чтобы частота дискретизации была минимум в два раза выше, чем максимальная частота в аналоговом сигнале. Если брать примерный диапазон воспринимаемых человеком частот звука 20 Гц — 20 кГц, то оптимальная частота дискретизации (частота Найквиста) должна быть в районе 40 кГц. У стандартных аудио-CD она составляет 44.1 кГц

Рис. 4. Квантование сигнала.
Источник: https://ru.wikipedia.org/wiki/Квантование_(обработка сигналов)

Глубина дискретизации по уровню описывает разрядность числа, которым описывается уровень сигнала. Эта характеристика накладывает ограничение на точность записи уровня сигнала и на его минимальное значение. Стоит специально отметить, что данная характеристика не имеет отношения к громкости — она отражает точность записи сигнала. Стандартная глубина дискретизации на audio-CD — 16 бит. При этом, если не использовать специальную студийную аппаратуру, разницу в звучании большинство перестаёт замечать уже в районе 10-12 бит. Однако большая глубина дискретизации позволяет избежать появления шумов при дальнейшей обработке звука.

В цифровом звуке можно выделить три основных источника шумов.

Джиттер

Это случайные отклонения сигнала, как правило, возникающие из-за нестабильности частоты задающего генератора или различной скорости распространения разных частотных составляющих одного сигнала. Данная проблема возникает на стадии оцифровки. Если описывать ~~«на пальцах»~~ «на миллиметровке», это происходит из-за немного разного расстояния между вертикальными линиями.

Шум дробления

Он напрямую связан с глубиной дискретизации. Так как при оцифровке сигнала его реальные значения округляются с определённой точностью, возникают слабые шумы, связанные с её потерей. Эти шумы могут появляться не только на стадии оцифровки, но и в процессе цифровой обработки (например, если сначала уровень сигнала сильно понижается, а затем — снова повышается).

Алиасинг

При оцифровке возможна ситуация, при которой в цифровом сигнале могут появиться частотные составляющие, которых не было в оригинальном сигнале. Данная ошибка получила название Aliasing. Этот эффект напрямую связан с частотой дискретизации, а точнее — с частотой Найквиста. Проще всего понять, как это происходит, рассмотрев вот эту картинку:

Рис. 5. Алиас. Источник: ru.wikipedia.org/wiki/Алиасинг

Зелёным показана частотная составляющая, частота которой выше частоты Найквиста. При оцифровке такой частотной составляющей не удаётся записать достаточно данных для её корректного описания. В результате при воспроизведении получается совершенно другой сигнал — жёлтая кривая.

Уровень сигнала

Поначалу бывает тяжело разобраться с тем, как соотносятся децибелы и реальный уровень сигнала. На самом деле всё просто. Каждые

6 dB (точнее 20 log(2)

N.B. Стоит упомянуть, что логарифм в данном случае берётся десятичный, в то время как большинство библиотек под функцией с названием log подразумевает натуральный логарифм.

96.33 dB, для 24 бит

144.49 dB. Это означает, что самый большой перепад уровня, который можно описать с 24-битной глубиной дискретизации (144.49 dB), на 48.16 dB больше, чем самый большой перепад уровня с 16-битной глубиной (96.33 dB). Плюс к тому — шум дробления при 24 битах на 48 dB тише.

Восприятие

Когда мы говорим о восприятии звука человеком, следует сначала разобраться, каким образом люди воспринимают звук. Очевидно, что мы слышим с помощью ушей. Звуковые волны взаимодействуют с барабанной перепонкой, смещая её. Вибрации передаются во внутреннее ухо, где их улавливают рецепторы. То, насколько смещается барабанная перепонка, зависит от такой характеристики, как звуковое давление. При этом воспринимаемая громкость зависит от звукового давления не напрямую, а логарифмически. Поэтому при изменении громкости принято использовать относительную шкалу SPL (уровень звукового давления), значения которой указываются всё в тех же децибелах. Стоит также заметить, что воспринимаемая громкость звука зависит не только от уровня звукового давления, но ещё и от частоты звука:

Рис. 6. Зависимость воспринимаемой громкости от частоты и амплитуды звука.
Источник: ru.wikipedia.org/wiki/Громкость_звука

Громкость

Простейшим примером обработки звука является изменение его громкости. При этом происходит просто умножение уровня сигнала на некоторое фиксированное значение. Однако даже в таком простом деле, как регулировка громкости, есть один подводный камень. Как я уже отметил ранее, воспринимаемая громкость зависит от логарифма звукового давления, а это значит, что использование линейной шкалы громкости оказывается не очень эффективным. При линейной шкале громкости возникает сразу две проблемы — для ощутимого изменения громкости, когда ползунок находится выше середины шкалы приходится достаточно далеко его сдвигать, при этом ближе к самому низу шкалы сдвиг меньше, чем на толщину волоса, может изменить громкость в два раза (думаю, с этим каждый сталкивался). Для решения данной проблемы используется логарифмическая шкала громкости. При этом на всей её длине передвижение ползунка на фиксированное расстояние меняет громкость в одинаковое количество раз. В профессиональной записывающей и обрабатывающей аппаратуре, как правило, используется именно логарифмическая шкала громкости.

Математика

Тут я, пожалуй, немного вернусь к математике, потому что реализация логарифмической шкалы оказывается не такой простой и очевидной вещью для многих, а найти в интернете данную формулу не так просто, как хотелось бы. Заодно покажу, как просто переводить значения громкости в dBFS и обратно. Для дальнейших объяснений это будет полезным.

Цифровая обработка

Из того, что сигнал имеет верхнее ограничение уровня, следует, что нельзя безопасно увеличивать громкость выше единицы. При этом пики, которые окажутся выше границы, будут «срезаны» и произойдёт потеря данных.

Рис. 7. Клиппинг.
Источник: https://en.wikipedia.org/wiki/Clipping_(audio)

На практике всё это означает, что стандартные для Audio-CD параметры дискретизации (16 бит, 44,1 кГц) не позволяют производить качественную обработку звука, потому что имеют очень малую избыточность. Для этих целей лучше использовать более избыточные форматы. Однако стоит учитывать, что общий размер файла пропорционален параметрам дискретизации, поэтому выдача таких файлов для он-лайн воспроизведения — не лучшая идея.

Измерение громкости

Для того чтобы сравнивать громкость двух разных сигналов, её для начала нужно как-то измерить. Существует по меньшей мере три метрики для измерения громкости сигналов — максимальное пиковое значение, усреднённое значение уровня сигнала и метрика ReplayGain.

Максимальное пиковое значение достаточно слабая метрика для оценки громкости. Она никак не учитывает общий уровень громкости — например, если записать грозу, то большую часть времени на записи будет тихо шелестеть дождь и лишь пару раз прогремит гром. Максимальное пиковое значение уровня сигнала у такой записи будет довольно высоким, но большая часть записи будет иметь весьма низкий уровень сигнала. Однако эта метрика всё равно является полезной — она позволяет вычислить максимальное усиление, которое можно применить к записи, при котором не будет потерь данных из-за «обрезания» пиков.

Усреднённое значение уровня сигнала — более полезная метрика и легко вычислимая, но всё же имеет существенные недостатки, связанные с тем, как мы воспринимаем звук. Визг циркулярной пилы и рокот водопада, записанные с одинаковым средним уровнем сигнала, будут восприниматься совершенно по-разному.

ReplayGain наиболее точно передает воспринимаемый уровень громкости записи и учитывает физиологические и психические особенности восприятия звука. Для промышленного выпуска записей многие звукозаписывающие студии используют именно её, также она поддерживается большинством популярных медиа-плееров. (Русская статья на WIKI содержит много неточностей и фактически не корректно описывает саму суть технологии)

Нормализация громкости

Иногда нормализацию громкости производят в рамках одной записи — при этом различные части записи усиливают на разные величины, чтобы их воспринимаемая громкость была одинаковой. Такой подход очень часто применяется в компьютерных видео-плеерах — звуковая дорожка многих фильмов может содержать участки с очень сильно отличающейся громкостью. В такой ситуации возникают проблемы при просмотре фильмов без наушников в позднее время — при громкости, на которой нормально слышен шёпот главных героев, выстрелы способны перебудить соседей. А на громкости, при которой выстрелы не бьют по ушам, шёпот становится вообще неразличим. При внутри-трековой нормализации громкости плеер автоматически увеличивает громкость на тихих участках и понижает на громких. Однако этот подход создаёт ощутимые артефакты воспроизведения при резких переходах между тихим и громким звуком, а также порой завышает громкость некоторых звуков, которые по задумке должны быть фоновыми и еле различимыми.

Также внутреннюю нормализацию порой производят, чтобы повысить общую громкость треков. Это называется нормализацией с компрессией. При этом подходе среднее значение уровня сигнала максимизируется за счёт усиления всего сигнала на заданную величину. Те участки, которые должны были быть подвергнуты «обрезанию», из-за превышения максимального уровня усиливаются на меньшую величину, позволяя избежать этого. Этот способ увеличения громкости значительно снижает качество звучания трека, но, тем не менее, многие звукозаписывающие студии не брезгуют его применять.

Фильтрация

Я не стану описывать совсем все аудио-фильтры, ограничусь только стандартными, которые присутствуют в Web Audio API. Самым простым и распространённым из них является биквадратный фильтр (BiquadFilterNode) — это активный фильтр второго порядка с бесконечной импульсной характеристикой, который может воспроизводить достаточно большое количество эффектов. Принцип работы этого фильтра основан на использовании двух буферов, каждый с двумя отсчётами. Один буфер содержит два последних отсчёта во входном сигнале, другой — два последних отсчёта в выходном сигнале. Результирующее значение получается с помощью суммирования пяти значений: текущего отсчёта и отсчётов из обоих буферов перемноженных на заранее вычисленные коэффициенты. Коэффициенты данного фильтра задаются не напрямую, а вычисляются из параметров частоты, добротности (Q) и усиления.

Lowpass

Рис. 8. Фильтр lowpass.

Пропускает только частоты ниже заданной частоты. Фильтр задаётся частотой и добротностью.

Highpass

Рис. 9. Фильтр highpass.

Действует аналогично lowpass, за исключением того, что он пропускает частоты выше заданной, а не ниже.

Bandpass

Рис. 10. Фильтр bandpass.

Этот фильтр более избирателен — он пропускает только определённую полосу частот.

Notch

Рис. 11. Фильтр notch.

Является противоположностью bandpass — пропускает все частоты вне заданной полосы. Стоит, однако, отметить разность в графиках затухания воздействия и в фазовых характеристиках данных фильтров.

Lowshelf

Рис. 12. Фильтр lowshelf.

Является более «умной» версией highpass — усиливает или ослабляет частоты ниже заданной, частоты выше пропускает без изменений. Фильтр задаётся частотой и усилением.

Highshelf

Рис. 13. Фильтр highshelf.

Более умная версия lowpass — усиливает или ослабляет частоты выше заданной, частоты ниже пропускает без изменений.

Peaking

Рис. 14. Фильтр peaking.

Это уже более «умная» версия notch — он усиливает или ослабляет частоты в заданном диапазоне и пропускает остальные частоты без изменений. Фильтр задаётся частотой, усилением и добротностью.

Фильтр allpass

Рис. 15. Фильтр allpass.

Allpass отличается ото всех остальных — он не меняет амплитудные характеристики сигнала, вместо чего делает фазовый сдвиг заданных частот. Фильтр задаётся частотой и добротностью.

Фильтр WaveShaperNode

Вейвшейпер (en) применяется для формирования сложных эффектов звуковых искажений, в частности с помощью него можно реализовать эффекты «дисторшна», «овердрайва» и «фузза». Данный фильтр применяет к входному сигналу специальную формирующую функцию. Принципы построения подобных функций довольно сложные и тянут на отдельную статью, поэтому я опущу их описание.

Фильтр ConvolverNode

Фильтр, производящий линейную свёртку входного сигнала с аудио-буфером, задающим некую импульсную характеристику. Импульсная характеристика — это ответ некой системы на единичный импульс. Простым языком это можно назвать «фотографией» звука. Если реальная фотография содержит информацию о световых волнах, о том, насколько они отражаются, поглощаются и взаимодействуют, то импульсная характеристика содержит аналогичную информацию о звуковых волнах. Свёртка аудио-потока с подобной «фотографией» как бы накладывает эффекты окружения, в котором была сняла импульсная характеристика на входной сигнал.

Для работы данного фильтра требуется разложение сигнала на частотные составляющие. Это разложение производится с помощью быстрого преобразования Фурье (к сожалению, в русскоязычной Википедии совершенно несодержательная статья, написанная, судя по всему, для людей, которые и так знают, что такое БПФ и сами могут написать такую же несодержательную статью). Как я уже говорил во вступлении, не стану приводить в данной статье математику БПФ, однако не упомянуть краеугольный алгоритм для цифровой обработки сигналов было бы неправильно.

Данный фильтр реализует эффект реверберации. Существует множество библиотек готовых аудио-буферов для данного фильтра, которые реализуют различные эффекты (1, 2), подобные библиотеки хорошо находятся по запросу [impulse response mp3].

Материалы

Большое спасибо моим коллегам, которые помогали собирать материалы для этой статьи и давали полезные советы.

Отдельное спасибо Тарасу Audiophile Ковриженко за описание алгоритмов нормализации и максимизации громкости и Сергею forgotten Константинову за большое количество пояснений и советов по данной статье.

UPD. Поправил раздел про фильтрацию и добавил ссылки по разным типам фильтров. Спасибо Денису deniskreshikhin Крешихину и Никите merlin-vrn Киприянову за то, что обратили внимание.

Источник

Частота дискретизации и разрядность

Частота дискретизации

Разрядность

Что такое разрядность и частота дискретизации звука

Частота дискретизации

Согласование частот дискретизации

АКАДЕМИЯ МЮЗИКМЕЙКЕРА

Книга А. Данилова о создании музыки

Разрядность звука

Хотите получать новые статьи прямо на почту?

Цифровое представление аналогового аудиосигнала. Краткий ликбез

Чем отличается цифровой аудиосигнал от аналогового?

Теперь о дискретизации.

Несжатый (RAW) формат данных

Аудиоформаты с сжатием без потерь

При сжатии с потерями

Теория звука. Что нужно знать о звуке, чтобы с ним работать. Опыт Яндекс.Музыки

Оцифровка, или Туда и обратно

Дискретизация

Джиттер

Шум дробления

Алиасинг

Уровень сигнала

Восприятие

Громкость

Математика

Цифровая обработка

Измерение громкости

Нормализация громкости

Фильтрация

Lowpass

Highpass

Bandpass

Notch

Lowshelf

Highshelf

Peaking

Фильтр allpass

Фильтр WaveShaperNode

Фильтр ConvolverNode

Материалы

Вам также понравится

что такое соус песто состав

что делать когда ожог глаза сваркой

какая акита большие американская или ину

Добавить комментарий Отменить ответ

Хотите получать новые статьи
прямо на почту?