Слух человека устроен так, что субъективно мы оцениваем громкость именно в логарифмическом масштабе: увеличение мощности сигнала в десять раз ощущается как увеличение громкости всего в два раза. Минимальное различие уровня двух сигналов, которое способен заметить человек, составляет 1 дБ.
Отсюда вытекает понятие динамического диапазона, то есть разницы между самыми тихими и самыми громкими звуками. Человеческий слух обладает динамическим диапазоном около 120 дБ. Точно так же можно говорить о динамическом диапазоне какого-либо музыкального фрагмента. Если самые тихие звуки в нем имеют громкость 10 дБ, а самые громкие – 60 дБ, то динамический диапазон составит 60 – 10 = 50 дБ.
Если в воображаемом приборе, с помощью которого мы измеряли звуковое давление, вместо стрелки использовать острую иглу, а под этой иглой с постоянной скоростью протаскивать ленту, покрытую каким-нибудь мягким составом типа воска, то игла будет выцарапывать на нем извилистую бороздку – график изменения давления, или своеобразное графическое изображение звуковых колебаний, их временную развертку (рис. 1.2). Более того, если затем вновь провести иглой по бороздке, то мембрана начнет колебаться в соответствии с ее изгибами, и вы услышите звук. Именно так был устроен первый в истории звукозаписывающий аппарат – фонограф Эдисона. Только в нем звуковая дорожка процарапывалась на вращающемся валике, покрытом воском.
Рис. 1.2. Запись звуковых волн
Звуковые волны можно преобразовать в электрические колебания. Чувствительный элемент – мембрана микрофона – движется в соответствии с колебаниями воздуха и передает это движение на преобразователь – катушку, пластину конденсатора или пъезоэлемент. В любом случае на выходе микрофона возникают колебания электрического тока или напряжения, изменяющиеся во времени аналогично давлению на поверхности мембраны. В дальнейшем эти электрические колебания можно усиливать и записывать на какой-нибудь носитель, движущийся относительно записывающего элемента, например на магнитную ленту. Опять же, колебания намагниченности магнитной ленты почти точно повторяют форму звуковых колебаний – это аналоговая запись.
В процессе воспроизведения носитель движется относительно воспроизводящей головки, записанный на нем сигнал наводит в головке электрические колебания, которые затем усиливаются электроникой и заставляют колебаться диффузор динамика.
В качестве примера был приведен «чистый тон», то есть звук, представляющий собой колебания одной, строго определенной частоты. Развертка такого звука имеет форму правильной синусоиды (рис. 1.3), кривой, описываемой формулой y = sin(x).
Рис. 1.3. Синусоида – график звуковых колебаний
На практике подобные звуки встречаются редко – это, например, звук, издаваемый камертоном или вырабатываемый простейшим генератором, его еще называют гармоническим колебанием. Чистый тон характеризуется всего двумя параметрами – частотой и амплитудой. Субъективно частота воспринимается как высота тона, а амплитуда – как его громкость.
Реальные звуки, вроде звучания музыкальных инструментов, голоса или шума, образуются сочетанием множества колебаний разных частот. Графическая развертка таких колебаний выглядит как кривая сложной формы (рис. 1.4).
Рис. 1.4. Разложение колебания на гармонические составляющие
Именно так – графиком моментального значения сигнала – показывается звуковая дорожка в окне рабочей области программы Sound Forge (см. гл. 2, раздел «Окна рабочей области»). О средней за какой-то период времени амплитуде или уровне реального звука говорить уместно, но понятие частоты или тона здесь неприменимо.
Математическое описание сложения колебаний с разными частотами лежит далеко за пределами школьной программы, но практический вывод знать просто необходимо: любой, даже самый сложный, колебательный процесс можно представить как результат сложения нескольких гармонических колебаний или синусоид! Так называемое преобразование Фурье позволяет выделить из реального звука отдельные синусоидальные составляющие, то есть полностью разложить этот звук на множество отдельных синусоидальных колебаний, каждое со своей частотой и амплитудой. Если частоты составляющих кратны друг другу, то такие составляющие обычно называют гармониками.
Разложив звук на гармонические составляющие, можно (теоретически) измерить амплитуду каждой из них, а затем перечислить в порядке частот эти составляющие, указав амплитуду каждой из них. На практике поступают несколько иначе: разбивают весь диапазон слышимых частот на несколько участков (от… и до…) и указывают средние уровни всех составляющих, попадающих в каждый диапазон. Для музыканта совершенно естественно брать в качестве диапазонов октавы, а «техникам» свойственно указывать границы диапазонов частотами (в герцах). Уровень звука в пределах диапазона принято выражать в тех же децибелах. Такое описание звука называется спектром. Обычно спектр изображают в виде столбчатой диаграммы. Наглядное представление о спектре дают полосковые индикаторы звукозаписывающей аппаратуры. Субъективно спектр воспринимается как тембр или окраска звука: чем больше доля высших гармоник, тем более звонким, «металлическим» является звучание. В зависимости от наличия и соотношения разных гармонических составляющих звук может казаться «прозрачным» или, наоборот, хриплым.
Усиление или ослабление звукового сигнала в целом или изменение уровня отдельных его гармонических составляющих называют линейным преобразованием звука. В результате может меняться соотношение уровней отдельных гармоник, но новые гармоники при этом не возникают. В противоположность этому говорят о нелинейных преобразованиях, при которых в измененном звуковом сигнале появляются такие частоты или гармоники, которые в исходном звуке отсутствовали. Нелинейные преобразования специально используются для создания определенных эффектов, в противном случае их считают искажениями. Нелинейными искажениями сопровождается как оцифровка звука, так и восстановление сигнала из цифрового вида в аналоговый.
Сегодня аналоговая запись и обработка звука окончательно сдала позиции цифровым технологиям. Сейчас аналоговыми устройствами являются только микрофоны, звукосниматели электромузыкальных инструментов и предварительные усилители, иногда микшеры. В них звук представляется непрерывным, меняющимся во времени электрическим сигналом. Далее звуковой сигнал оцифровывается, и вся последующая работа ведется уже с цифровыми данными.
Оцифровка сигнала заключается в том, что аналоговый сигнал разбивается на отдельные, очень короткие участки (дискретизация или выборка), и уровень сигнала на каждом участке измеряется и записывается в виде целого числа (квантование). Каждый «столбик» (рис. 1.5) изображает одно измерение.
Рис. 1.5. Принцип оцифровки аналогового сигнала
Частота дискретизации показывает, сколько раз за секунду измеряется моментальное значение сигнала. Например, если сигнал оцифровывается при частоте дискретизации 44 кГц, то измерения производятся 44 000 раз в секунду. Очевидно, что чем чаще делаются замеры (чем выше частота дискретизации), тем более точным окажется представление сигнала в цифровой форме. Больше всего частота дискретизации влияет на передачу высокочастотных составляющих звука. В любом случае, она должна по меньшей мере в два раза превышать частоту самых высокочастотных составляющих оцифровываемого сигнала. Для оцифровки речи, например в телефонии, еще приемлема частота дискретизации около 8 или 12 кГц, для обычной «домашней» оцифровки музыки уже нужна частота дискретизации не менее 22,5 кГц, а «студийное качество» оцифровки начинается с 48 кГц. Наиболее качественной оцифровке соответствуют частоты дискретизации 88, 96 и даже 192 кГц, хотя оцифровывать сигнал с такой частотой способны лишь дорогие «профессиональные» звуковые карты.
Каждое полученное значение моментального уровня должно быть записано в виде целого двоичного числа фиксированной длины или разрядности. Разрядность двоичного числа выражается в битах и показывает, сколькими двоичными знаками (нулями и единицами) записано это число. Например, 16 бит – это последовательность из 16 двоичных знаков.
Аналоговый сигнал является непрерывным, любое моментальное значение может оказаться и дробным, поэтому оно округляется до ближайшего целого. Точность измерения или грубость округления зависит от того, какая задана разрядность (bit depth, буквально – глубина битов). Если оцифровка производится с разрядностью 8 бит, то доступно всего 28 = 256 различных значений уровня, а при разрядности 16 бит число может принимать уже одно из 28 = 65 536 значений. Чем выше разрядность, тем ближе оказываются округленные значения к реальным, физическим значениям. В конечной частоте дискретизации и округлении полученных значений уровня сигнала кроется причина неизбежной потери информации и возникновения искажений при оцифровке.