Чтение онлайн

ЖАНРЫ

Компьютерная обработка звука
Шрифт:

• возможность экспериментировать с монтируемыми фрагментами и сразу же их воспроизводить;

• удаление мельчайших помех;

• сглаживание сигнала посредством графической интерполяции;

• временная коррекция с уменьшением и увеличением длительности фонограммы;

• объединение функций эквалайзера и быстрого преобразования Фурье (спектральный анализ);

• выравнивание различий в уровнях;

• преобразование частоты дискретизации;

• экономия времени по сравнению с аналоговыми методами обработки;

• визуальный контроль результатов на экране видеомонитора.

Стереофония

Обязательное и очень важное требование к стереофонической записи – совместимость, то есть возможность ее воспроизведения в монофоническом режиме. При суммировании сигналов левого и правого каналов в монофоническом канале должны сохраняться все технические и художественные свойства записи (уровень громкости, музыкальный баланс, прозрачность, тембровая окраска звучания и др.), за исключением лишь пространственной локализации отдельных звуковых источников.

Совместимость стереофонических записей необходима для того, чтобы при параллельном существовании двух систем – стерео и моно – слушатели, располагающие обычной монофонической аппаратурой (например, монофоническими радиоприемниками), могли бы прослушивать стереофонические записи с удовлетворительным качеством, потеряв при этом лишь пространственный эффект.

Основные понятия, определяющие акустический сигнал

Для правильного понимания проблем обработки звука необходимо различать первичные и вторичные акустические

сигналы. К первичным относятся сигналы, создаваемые музыкальными инструментами, пение, речь, а также шумовые сигналы и т. п. В рамках этой книги фонограмму мы тоже рассматриваем как первичный акустический сигнал, который будем называть исходным сигналом. Ко вторичным относятся сигналы, воспроизводимые электроакустическими устройствами, то есть первичные акустические сигналы, прошедшие по электроакустическим трактам.

К параметрам, определяющим акустические сигналы, относятся значения уровня в частотном и временном представлениях, средние значения уровней, динамический диапазон, форма спектра и занимаемая полоса частот, а также время корреляции.

Слушатель всегда имеет собственное представление о «хорошем звуке», сформированное личным опытом, и оценивает звучание по многим субъективным критериям. Поэтому, говоря о свойствах звука, необходимо определить также критерии оценки, согласованные с субъективным восприятием звука.

Рассмотрим основные понятия, определяющие первичный акустический сигнал.

Динамический диапазон и уровни

Уровень акустического сигнала непрерывно изменяется во времени. Интервал таких изменений может быть довольно широким. На рис. 1.7 показана возможная зависимость уровня сигнала от времени.

Рис. 1.7. Зависимость уровня сигнала от времени: L – уровень сигнала; t – время; T – длительность сигнала; D – динамический диапазон

Разность между максимальным и минимальным уровнями (по мощности) называют динамическим диапазоном. Обычно единицей измерения динамических диапазонов является децибел (дБ). Диапазон в децибелах определяют как 20 десятичных логарифмов от квадрата максимального размаха (разности уровней) сигнала.

Сама по себе громкость звука определяется только как субъективный параметр. Но на практике уровни громкости также измеряют в децибелах.

Динамические диапазоны разных акустических сигналов существенно различаются. Некоторые из них приведены в табл. 1.1.

Таблица 1.1. Динамические диапазоны некоторых акустических сигналов

Следует различать динамические диапазоны первичного акустического сигнала и электроакустического тракта.

Частотный диапазон и спектры

Спектры акустических сигналов (форма и относительные мощности отдельных компонентов, полоса частот) для разных источников звука сильно отличаются. Любой сигнал можно представить в виде значений его уровня в любой момент времени. Такое представление называют импульсным. Другая форма представления сигнала – частотная. В этом случае сигнал изображают непрерывной совокупностью гармонических колебаний. Спектр звукового сигнала – это совокупность звуковых гармонических колебаний. Формально определением спектра является специальное интегральное преобразование, выполняемое на бесконечно большом отрезке времени. На практике временные интервалы, на которых определяют спектры сигналов, ограничены, но они все же должны быть намного больше обратного значения возможной полосы частот сигнала.

Зависимость амплитуды гармонического сигнала от частоты называют частотной характеристикой. Частотные характеристики реальных сигналов с ростом частоты спадают. Под полосой частот сигнала понимают тот интервал, где уровень частотных компонентов превышает некоторое заданное значение, например -60 дБ. За пределами этого интервала значения уровня частотных составляющих принимаются за 0.

К временным (импульсным) характеристикам относятся волновая форма сигнала и время корреляции. Корреляция – это достаточно сложный и важный параметр, заимствованный из теории вероятности. Дело в том, что любой несущий информацию сигнал следует рассматривать как случайный процесс. Белым шумом называют такой случайный сигнал, в котором все последующие значения уровня никак не зависят от предыдущих. Белый шум имеет нулевое среднее значение размаха сигнала и бесконечно широкий спектр. Реальные сигналы отличаются от белого шума тем, что последующие значения зависят от предыдущих. Такая зависимость и называется корреляцией, а среднее значение интервала времени, в пределах которого эта зависимость сохраняется, называется временем корреляции. Время корреляции, в частности, важно учитывать потому, что оно определяет время взаимодействия (интерференции) с отраженными сигналами, а следовательно, и интенсивность интерференционных помех.

Волновая форма сигнала дает возможность определить резкие переходы интенсивности звукового сигнала.

Возможны самые разнообразные нарушения точности передачи сигнала через электроакустические тракты. Основные из них: потеря акустической перспективы, смещение уровней, ограничение динамического и частотного диапазонов сигнала, помехи и искажения. Поэтому основной задачей электроакустических систем, в частности систем обработки звука, является максимальное достижение идентичности характеристик первичных и вторичных акустических сигналов. Совершенно очевидно, что для этого необходима обширная гамма средств, конкретно воздействующих на тот или иной параметр акустического сигнала.

Первичный акустический сигнал обладает широким спектром, и для его правильной передачи электроакустический тракт должен иметь достаточно широкий частотный диапазон. Системы обработки звука при этом должны соответственно работать во всем диапазоне.

Время реверберации

Время реверберации определяется как время, за которое после отключения источника сигнала звук в помещении, затухая, ослабнет в 1000 раз, то есть на 60 дБ. При превышении некоторых предельных значений этой величины снижаются разборчивость речи и «прозрачность» музыки (для речи – около 1,2 с, для музыки – 2 с).

Следует различать ранние и поздние отражения. Граница между ними лежит вблизи 50 мс для речи и 80 мс для музыки от момента прихода прямого звука.

При обработке звука необходимо учитывать, что в помещении время реверберации имеет частотную зависимость, то есть оказывает влияние на тембровую окраску звучания.

Субъективные критерии оценки звучания

Специфическая особенность всех процессов обработки звука заключается в том, что обязательным (если не важнейшим) его этапом является субъективная оценка качества звучания. Это, в свою очередь, обусловлено тем, что используемый в настоящее время набор объективных параметров – диапазон частот, неравномерность амплитудно-частотной характеристики, уровень нелинейных искажений и др. (хотя он постоянно расширяется и обновляется) – неоднозначно определяет «слуховой образ», воспринимаемый слушателем.

Поэтому субъективная экспертиза является обязательной процедурой на всех этапах записи и обработки звука, а также служит главным критерием оценки полученного результата.

Результаты оценки качества звучания зависят от многих факторов, таких как параметры помещения прослушивания, выбор тестовых программ, отбор и тренировка экспертов, метод выбора оценок и обработки результатов и т. д.

Если для речи важнейшим параметром является ее разборчивость (артикуляция) и степень зависимости от уровня громкости и посторонних шумов, то для музыки высокое качество звучания определяется факторами, которые в определенной степени могут быть охарактеризованы с помощью понятий уровня громкости, прозрачности, пространственного впечатления, тембровой окраски звучания, баланса и подобных субъективных критериев.

Слоговая разборчивость

Для речи существует один субъективный критерий качества звучания – хорошая слоговая разборчивость (артикуляция). Следует различать чисто информативную речь – доклад, объявление

и т. п. – и речь художественную, имеющую определенное эстетическое содержание в первую очередь благодаря интонации. Во втором случае для оценки качества звука только разборчивости недостаточно. Для художественной речи критерии качества ее звучания такие же, как и для музыки. Разборчивость зависит от уровней громкости полезного сигнала и шума, а также от акустических свойств помещения (ранних отражений и реверберации).

Отзвук

Отзвуком называют сохраняющийся после внезапного умолкания источника звукового сигнала и ослабевающий со временем звук, обусловленный последовательностью повторяющихся отражений, и связанное с этим явлением постепенное стихание звукового сигнала.

Длительность отзвука

Длительность отзвука – это время, в течение которого отзвук еще слышен. Длительность отзвука зависит от времени реверберации (свойств акустики помещения), уровня звукового сигнала, уровня помех, а также от порога слуха и частоты сигнала.

Прозрачность

Под прозрачностью обычно понимают различимость одновременно звучащих тонов и инструментов, несмотря на налагающийся отзвук помещения. Отметим, что временная граница для полезных с точки зрения прозрачности и пространственного впечатления первых отражений и отзвука помещения, определяющего его гулкость (сумма поздних отражений), составляет около 80 мс.

Пространственное впечатление

Пространственное впечатление возникает из слухового восприятия в частично или полностью закрытом пространстве. Пространственное впечатление складывается из ряда составляющих:

• ощущение, что слушатель находится в одном помещении с источником звука;

• представление о размерах помещения;

• гулкость;

• пространственность.

Пространственное впечатление основывается на сознательном различении отраженного и прямого звуковых сигналов.

Гулкость

Гулкостью называют такое ощущение, что кроме прямого звука имеется и отраженный звук, воспринимаемый не как повторение сигнала. В больших помещениях гулкость зависит от отношения поздней энергии отзвука к ранней. К ранней относится энергия прямого звука и отражений, которые при звучании речи приходят примерно за первые 50 мс, а при звучании музыки – за 80 мс после прихода прямого звука.

Эхо Эхом называют такие повторения звукового сигнала, при которых первичный и вторичный сигналы воспринимаются во времени, а в некоторых случаях и в пространстве, как самостоятельные слуховые объекты. Если повторение сигнала обусловлено отражениями, то для раздельного его восприятия необходимое время запаздывания – около 50 мс, в зависимости от вида сигнала. В тех случаях, когда периодические повторения сигнала следуют так быстро друг за другом, что уже не воспринимаются слухом как отдельные сигналы, говорят о многократном эхе.

Аналоговый и цифровой сигналы

Как известно, преобразование аналогового (непрерывного во времени) сигнала в цифровой происходит в три приема: выборка, квантование и кодирование.

Сначала аналоговый сигнал преобразуется в последовательность аналоговых же выборок, полученных через равные промежутки времени. Квантование аналогового сигнала представляет собой выбор конечного числа уровней, которые, как правило, равномерно распределены в диапазоне от – U до +U шкалы входного сигнала аналого-цифрового преобразователя (АЦП). Количество уровней квантования почти однозначно связывается с выходным цифровым сигналом посредством кодирования. Наиболее распространенным является прямое двоичное кодирование.

Если спектр преобразуемого аналогового сигнала располагается в полосе частот от 0 до F, то частота выборки (или частота дискретизации) не должна быть менее 2F. Таким образом, если реальный аналоговый сигнал содержит частотные компоненты от 0 Гц до 20 кГц, то частота дискретизации такого сигнала должна быть выбрана не меньше 40 кГц.

На этот счет существует теорема Шеннона-Котельникова и частота Найквиста (F) как следствие из данной теоремы. Однако теорема не содержит утверждения о точном восстановлении аналогового сигнала при указанном условии (> 2F). На самом деле восстановленный сигнал имеет произвольные амплитуду и фазу (в конкретных пределах). Статистически достоверное восстановление исходного аналогового сигнала имеет место при частоте выборки не менее 5F.

Отношение сигнал/шум на выходе N-разрядного АЦП в идеальном случае равно (6N-6) дБ, поскольку существует неустранимая погрешность квантования (так называемый шум квантования) равная половине разности между соседними уровнями квантования, что эквивалентно потере 6 дБ в отношении сигнал/шум. Повышение частоты преобразования существенно снижает интермодуляционные искажения, обусловленные наложением спектров – aliasing (совмещение, алиазинг), – и повышает достоверность восстановления аналогового сигнала. Реальный музыкальный сигнал далек от белого шума (близок к розовому – шуму дождя, прибоя, ветра – то есть шуму, плотность которого спадает с ростом частоты), но шум квантования не зависит от сигнала, если число уровней квантования неизменно и распределение их равномерно. Другое дело – погрешность преобразования, которая действительно зависит от амплитуды и частоты входного сигнала и выражается в реальных нелинейных и интермодуляционных искажениях, то есть паразитных спектральных составляющих.

На слух такие ошибки воспринимаются как «зернистость» во фрагментах записи с низким уровнем сигнала. При этом возникает ощущение «грязного» звука. Оно же появляется при изменении разрядности записи, например когда 20-разрядную запись приводят к 16-разрядной или последнюю – к 8-разрядной.

В таких случаях для уменьшения ошибок квантования в цифровых записях применяется дизеринг. Дизеринг (dithering – размывание) представляет собой подмешивание в исходный сигнал (в цифровой форме) псевдослучайного шума со специально подобранным спектром. В результате наиболее заметные (для человеческого слуха) паразитные спектральные составляющие перемещаются из среднечастотной (3–5 кГц) в высокочастотную область (15–17 кГц).

Другими словами, метод дизеринга заключается в добавлении при крайне низком уровне сигнала специального вида шума, обычно высокочастотного. Это приводит к независимости шумов квантования и сигнала, однако общий уровень шумов немного возрастает. Действительно, добавленный шум может восприниматься на слух как постоянное шипение. Однако это едва ощутимо и намного «приятнее» на слух, чем искажения, появляющиеся при отбрасывании младших разрядов.

В результате обработки сигнала с применением дизеринга к нему добавляется шум квантования. Его спектр равномерен и занимает полосу от 0 Гц до половины частоты дискретизации. Равномерность по частоте и некоррелированность шума с сигналом достигается благодаря дизерингу, а также правилу квантования, согласно которому амплитуда в отсчете округляется до ближайшей опорной величины. Применение более сложных правил округления позволяет получить другие (неравномерные) спектральные характеристики шумов округления при сохранении полной мощности шумов неизменной. Учитывая, что слух человека имеет спад чувствительности на высоких и на очень низких частотах, можно, используя специальные правила округления при квантовании, получить спектр шумов округления, большей частью сосредоточенный в области наименее заметных на слух частот. Следовательно, можно значительно увеличить отношение сигнал/шум в диапазоне слышимых частот в цифровом сигнале, не увеличивая количество битов на один отсчет.

Для этого формируется спектр шумов квантования, имеющий форму, обратную кривой чувствительности слухового аппарата человека. То есть там, где наш слух наиболее чувствителен к шумам, кривая спектра мощности шумов будет иметь минимум, и наоборот, там, где наш слух менее чувствителен к шуму, будет сосредоточен максимум шумов. Подобный метод называется нойс-шейпингом (noise-shaping – формирование шума).

Применяя такие методы обработки сигнала, можно достичь субъективно лучшего восприятия звука, хотя объективные измерения отношения сигнал/шум во всем частотном диапазоне могут показать ухудшение этого параметра за счет увеличения мощности высокочастотных шумов.

Поделиться с друзьями: