Google






20:07 28.10.2014
О бедных зеркалках замолвите слово...
 Подробности ...
 
03:22 20.10.2014
Жёсткий диск в компьютере, SSD - в голове?
 Подробности ...
 
20:50 31.12.2013
С наступающим Новым Годом!
 Подробности ...
 
14:39 24.12.2013
Свежий драйвер AMD Catalyst для видеокарт на базе чипов AMD Radeon
 Подробности ...
 
23:30 23.12.2013
FBReader 1.9.4 для Android
 Подробности ...
 
Rambler's Top100 liveinternet.ru

Реставрация звука на персональном компьютере
 
 
Обсудить на форуме Обсудить на форуме         Автор: Аркадий Русинов  
Быстрый переход на страницу :
   страницы : << 1 2 3 4 5 6 >>  
Вступление...



Специальная редакция для Обсерватории


Цикл статей по реставрации звука на обычном домашнем компьютере начат мной еще в 1999 году, но тихо почил, хотя и звуковых примеров и подготовленных анимированных gif-иллюстраций было набрано порядком. Любопытно, что мои материалы на эту тему погибали и восстанавливались несколько раз. Может, оно и к лучшему - на многое я сегодня смотрю по-другому, но и, как ни странно, остались кое-какие приемы и - что самое интересное - "софт", которые пережили эту почти семилетнюю разницу (а это огромный скачок в производительности домашних PC и качестве программ). На таких моментах я буду останавливаться подробней. В этом цикле я постараюсь охватить и общий подход к цифровой реставрации (в том виде, в котором я его отработал лично для себя, нисколько не претендуя на глобальность), и "задеть" необходимые места из теории звука и практики звукозаписи (как очень близкой области), и описать программы, которые мне кажутся наиболее удобными, и... однако, к делу.


Часть 1. Теория и общие рекомендации.


   Просто удручающее качество звуковых дорожек в большинстве из самопально оцифрованных советских мульт- и фильмов при довольно сносном качестве видео (про пираЦкие сборнички музыки просто стыдливо умолчим) убеждают меня в необходимости такого начала. Более того, даже кое-какие эээ... студийные, так сказать, работы, а также диалоги с людьми, считающими себя в этой области профи, в духе:

  - А ты в курсе, что у тебя полезный сигнал заканчивается на 3КГц?

  - Да некогда мне было возиться со всеми этими компрессорами...

или:

  - Я эти 11КГц преобразую в 44КГц и со звуком все нормально! Знаешь такой редактор CoolEdit?", - наводят на мысль, что даже самые примитивные базовые понятия порой следует внедрять под дулом автомата.

   Кто считает, что ему это не нужно, может сразу перейти к третьей части - но, вдруг, и в первых двух найдет для себя новое, или поправит одну из моих невольных ошибок, чему я буду только рад. Начинающие же (а статьи ориентированы в первую очередь на них) да не пропустят ни слова ;)

   Основных характеристик "цифрового звука" три: частота сэмплирования (или квантования, ее еще называют sample rate), разрядность (глубина) бит (или попросту битность, или sample width), и количество каналов. AudioCD по этой схеме имеет параметры 44100/16/2. Можно грубо сказать, что для получения этого формата 44100 раз в секунду замерялась громкость звука по линейке высотой 2^16=65536 условных "звуковых миллиметров", иначе - шагов квантования. По этим же делениям она была жестко "округлена" (в кавычках - потому что шаги квантования отнюдь не обязаны быть целочисленными).

   Изобразим условно аналоговый звук так:


Есть циничное мнение, что источников аналогового звука в природе вообще не существует - просто его разрешающая способность куда серьезнее. А среда распространения звука - воздух, например - является естественным фильтром очень высокого порядка ;). С другой стороны, любую форму сигнала, какой бы сложной или ломаной она ни была, можно "собрать" из вот таких простых синусоид.


NB: ухо человека представляет собой очень сложную систему, в центре которой - коническая резонансная трубка-мембрана. Она имеет около 25 тысяч (!) окончаний нервных клеток-"микрофонов", каждая из которых "настроена" на свой диапазон частот (это просто и гениально обусловлено ее расположением на конической, напомню, мембране). Человеческий мозг воссоздает картину звука, получив сигнал, сведенный из этого безумного 25-тысячеканального микшерного пульта. Понятно, что технически создать такую модель, мягко говоря, сложно, да и, по счастью, не является необходимостью.

   В электронном же мире звук превращается в аналоговый электросигнал вслед за колебаниями тоненькой круглой (плоской или слегка выпуклой) мембраны микрофона, порождаемыми мгновенной суммой амплитуд волн всех частот, ударяющих в нее. В том числе частот и гармоник, человеческим ухом не улавливаемых. Посмотрим, что происходит с этим электрическим, но все еще аналоговым сигналом при оцифровке с низкими и высокими частотой сэмплирования и разрядностью:


Как видим, "мелкоячеистая" сетка с высокими частотой (вертикальные линии) и разрядностью (горизонтальные линии) передает сигнал намного достоверней.


   Но не надо путать частоту сэмплирования с реальной верхней границей полезного сигнала - она всегда в два раза меньше частоты сэмплирования, т.е., квантование в 44100 Гц дает нам возможность более-менее достоверно воспроизводить звук до 22000 герц (20000 устарело считается верхней слышимой границей, а в оставшиеся 2 килогерца при помощи специальных приемов часто "уводят" побочные шумы, в. т.ч. и полученные при собственно квантизации). И, кстати, не пытайтесь "загнать" в оцифровщик частоты выше половины его частоты сэмплирования - если это Вам все же удастся, вместо ожидаемого расширенного диапазона частот Вы получите целый спектр паразитных гармоник в слышимой области, стартующий тем ниже, чем более высокая частота "проскочит" в оцифровку (подробно и глубоконаучно обо всем этом - поиском в Интернете по словам "частота Найквиста", "теорема Котельникова-Шеннона", "oversampling", "noise shaping").

   Разрядность 16 бит в формат бытового аудио тоже заложена буквально по минимуму, и для профессиональной работы со звуком используются разрядности в 18, 20, 24 и 32 бит (хотя на первый взгляд разница невелика, высо'ты таких линеек резко взлетают с 65535 в 1048576 (20бит) и 16777216 (24бит) "звуковых миллиметров". Размах же 32-битной шкалы даже произнести непросто: 4.294.967.296). С точки же зрения файловой системы занимаемый треками объем при переходе от 16 к 24 битам возрастет всего в 1,5 раза, а к 32 битам - ровно в 2.

   Количество каналов.... думаю, объяснять разницу между отжившими моно и квадро, вездесущим стерео и современными 5.1 и 7.1 сегодня не нужно даже младшеклассникам.

   Еще одна характеристика - громкость, более правильно - амплитуда, или размах сигнала. Хотя по определению амплитуда может быть только положительной, часто так называют и мгновенное значение напряжения сигнала (а оно вполне может быть отрицательным). Амплитуду часто измеряют в децибелах (дБ или dB), и эта единица так же непроста, как и разрядность. Дело в том, что децибелы измеряют не абсолютные, а относительные величины. Скажем, между амплитудами в 0.5 и 1 вольт разница всего в полвольта, в dB эта разница равна 6. А между амплитудами 110 и 220 вольт разница - уже 110 вольт. Тем не менее, в децибелах разница... снова равна 6! Дело в том, что 6dB означает соотношение амплитуд как 1:2, независимо от того, какие именно значения принимают в данный момент амплитуды. Более того, шкала, по которой измеряются децибелы - логарифмическая. К чему все эти сложности? Наши уши воспринимают звук по логарифмической шкале, и от этого никуда не деться. Вот краткая справочная таблица для перевода отношений амплитуд в децибелы:



dBОтношение
01.00
11.12
21.26
31.41
51.78
62.00
82.51
103.16
2010.0
40100.0
601 000.00
8010 000.00
100100 000.00


   Кроме того, у дорожки в целом есть и такая характеристика, как динамический диапазон (разница между самым тихим и самым громким звуками, при этом совсем необязательно самый тихий звук в дорожке окажется тихим вообще ;)). Чем шире диапазон - тем естественней звучат голоса, спецэффекты и "живые" музыкальные инструменты. Сжатие динамического диапазона позволяет усилить тихие звуки, не давая при этом громким "вырваться" за очерченные пределы. Такой процесс называют компрессией звука. Звук становится более плотным, иногда более ярким, но при излишнем усердии живые инструменты заметно "опластмассятся", а голоса станут похожими на пропущенные через (достаточно качественный, правда) радиотракт; спецэффекты же потеряют часть эффективности ;), основанную на резком изменении громкости. Например, накладываемый в фильмах любительский дубляж часто подвергается довольно жесткой компрессии, порой совершенно излишней. Понятно, что динамический диапазон косвенно ограничен разрядностью сигнала.

Потери, связанные с описанными характеристиками и их преобразованиями.


   Частотные. "Стандартные" компьютерные частоты сэмплирования, по счастью, кратны друг другу: 44100, 22050, 11025 и т.д. Это помогает избежать ряда проблем с искажениями при преобразованиях и, в частности, появления низкочастотных огибающих, которые мы можем получить при преобразовании "некратных" частот - к примеру, 48000 "киношных" и 44100 "компьютерных" могут дать нам, помимо прочего, искажения в районе 48000-44100=3900 герц - прямо в центре слышимого диапазона (все, кто хоть немного сталкивался со струнными инструментами, отлично знают на практике, что такое "биение частот" при подтягивании струн в унисон). Но это еще не все подарки мирового кинематографа: "благодаря" формату NTSC мы имеем т.н. "пониженные" частоты - 44056 и 47952 Гц. Вкратце, это связано с "рваной" частотой NTSC в 29.97 кадров в секунду, в то время как синхрокод SMPTE, согласующий работу устройств в студии, "отрабатывает" ровно 30. По счастью, встреча с такими оцифровщиками и их продуктами сегодня маловероятна. Цифровая спутниковая телесвязь, и за ними DAT-магнитофоны тоже не остались в стороне, присовокупив от себя частоту сэмплирования 32000 Гц, что, впрочем, на фоне проделок NTSC выглядит детской шалостью.

   Далее, при передаче цифрового сигнала от одного устройства к другому мы не застрахованы от искажений в низких частотах, связанных с несовершенством цифровых интерфейсов. Обо всем этом написано столько, что мы просто обозначим для себя: насколько возможно, следует избегать преобразования частот (особенно некратного) и передачи сигнала даже по, казалось бы, чисто цифровым интерфейсам. Всем этим условиям отвечает обработка звука полностью внутри компьютера - мы теряем только на входе. (С другой стороны, если у Вас вдруг окажется профессиональный внешний, специально предназначенный для преобразования частоты сэмплирования прибор, лучше воспользоваться им. Правда, это дорогостоящая техника, да и качества программной обработки вполне достаточно для дорожек к мультикам или самодельным концертным записям).

   Есть искажения, на которые мы повлиять не можем - например, зависящие от собственной частоты звука. По совести, для полноценного восстановления синусоиды частотой 20КГц частота сэмплирования должна бы быть далеко не 44КГц (44100/20000=2.205 замера явно мало для восстановления двух полуокружностей! Вместо них мы получим две "ступеньки" - см. графики в начале статьи), в идеале - несколько сот (!) килогерц. К счастью, этот тип искажений худо-бедно компенсируют современные фильтры высоких порядков, "отбрасывающие" большинство образующихся гармоник-искажений. По этой же причине микросхемы современных усилителей для качественной передачи звука работают с частотами от десятых долей мегагерц и выше.

   Еще одна очень неприятная потеря - т.н. детонация частоты ("wow", "flutter"). Возникает она на аналоговых носителях в случае, если лента по каким-то причинам ("бьющий" прижимной резиновый ролик или тонвал, и т.д.) движется "рывками" или с плавным ускорением-замедлением, либо сама лента уже деформирована лентопротяжным механизмом. Это приводит к изменению высоты тона и, при более явном проявлении, к нарушению ритмического рисунка. Я однажды с ужасом наткнулся на грампластинку с записью Тони Йомми, дорожки на второй стороне которой были... отпечатаны не по центру диска (!). Качание звука было то еще, да и визуальное гуляние тонарма и самих дорожек переплюнуло целый ряд "мультяшных" граммофонов. Почему я отдельно упоминаю о пластинках? Дело в том, что автоматического способа исправления таких искажений нет, и в ближайшее время он вряд ли появится. Если фонограмма имеет неоспоримую ценность, то имеет смысл помучаться с ней вручную, "подгадав" в несколько дублей период качания по паре десятков колебаний и наложив "противофазные" искажения (подробнее об этом позже); но и это справедливо только для ленточных детонаций, т.к. пластинка по мере продвижения ее спиральной дорожки к центру диска... вот-вот. Угловая-то скорость неизменна, а линейная - увы.

   Амплитудные. Следующий тип искажений связан с любыми преобразованиями, даже в виртуальных устройствах - это погрешности при необходимости снова "привязывать" полученные нами громкости сигнала к "высоте" разрядной линейки. Компьютер как таковой от них, конечно, уже не спасает, и в нашей воле - только выбор компромиссной разрядности при обработке (и хранении) сигнала. С действительно качественным звуком имеет смысл работать не ниже 24-32 бит (хотя многие даже не заметят разницы в звучании). Используемые программы при таком принципиальном подходе желательно проверять на честность обработки - так как порой она не соответствует заявленной производителями (во время обработки звук может быть пересчитан в 16 бит). Для проверки можно воспользоваться, например, BitPolicy.

   Отдельный и важный разговор - об оптимальной амплитуде обрабатываемого сигнала. Работа с тихим сигналом - в небольшой "нижней" части амплитудной линейки - понижает его разрядность, так как всякий раз после любой обработки мы округляем полученный размах к нескольким, пропорционально "укрупнившимся" ее ступенькам. Так можно "уронить" разрядность до 14 бит и даже ниже. Фактически, 16-битный сигнал в -24dB (около 6% макс. амплитуды) имеет разрядность в 12 (!) бит - "высота" соответствующей ему части линейки - всего 4096 делений! Пара упомянутых мной во вступлении мультфильмов имела именно такую амплитуду, но зато звук гордо замотан в AC3 с частотой 48 КГц. Знай, мол, наших. Кстати, для достижения 12-битным звуком качества 44100/16 частоту сэмплирования пришлось бы поднять до 705.6КГц!


Чем ниже амплитуда, тем большим искажениям при обработке она подвергается.


   Слишком же большая амплитуда, в свою очередь, может приводить к тому, что сигнал окажется выше самого "высокого" деления амплитудной "линейки". Это так называемый "клип" (clip) - "отрезанная", навсегда потерянная часть сигнала. "Звучат" клипы по-разному: полученные при обработке - как резкие сухие щелчки, при оцифровке - как глуховатый треск, и малозаметный "теплый" перегруз на более дорогих, профессиональных оцифровщиках, которые стараются по мере сил мягко лимитировать их до допустимого максимума. Подобные мягкие искажения близки к "живым" аналогам - скажем, к катушке динамика в акустической системе, которая дошла до максимума своего движения в магнитном поле, или магнитной пленке, попавшей в такое поле, при котором "дополнительное" намагничивание уже невозможно.

   Разумным компромиссом при обработке будет выбор амплитуды, над которой останется небольшой "воздух", от -3dB или чуть больше ("на глазок" в редакторах - до 30% свободного пространства от полной высоты аудиотрека). При записи сигнала, в предсказуемости которого (или в самом звуковом тракте) нет уверенности, верхний порог следует отрегулировать уровнями записи ближе к -6dB - это наверняка защитит Вас как от перегрузок платы во время неожиданного "всплеска" в звуке, так и от "запирания" в микшерном пульте или промежуточном усилителе (NB: метку "0 VU" аналоговых выходов студийного оборудования подстраивают и под -12, и даже под -15dB уровня цифровых рекордеров!). Альтернатива - использовать лимитер, если он у Вас, конечно, есть. Это позволит Вам не только сгладить ошибки с уровнем при оцифровке, но и снивелировать действительно ненужные пики; кроме того, при умелом подходе, Вы сможете немного "накачать" общую амплитуду, не испортив сигнал для дальнейшей обработки. Конечно, при вдумчивом и уважительном обращении.

   По окончании работы со звуком (но не раньше) можно нормализовать дорожку (см. часть 2) вплоть до -0.2dB - визуально примерно на 97% от максимального размаха. По другим рекомендациям, самый мощный сигнал при финальной нормализации не должен превышать -0.5дБ. Выравнивать пики под 0dB в любом случае не стоит. Заметного изменения громкости не произойдет, а вот к проблемам такой уровень приведет запросто. Здесь неплохо поставить точку еще на одном часто возникающем вопросе - чувствительность человеческого уха: вблизи порога слышимости она составляет 2-3dB, а на средних уровнях - около 0,4dB.

   Разрядность и... шум. На первый взгляд связь между ними уловить трудно, на деле же - это еще один подвох квантизованного звука. И еще один довод не работать без нужды с тихим сигналом. Для идеального (идеального, подчеркну) теоретического преобразователя всегда существует максимальное соотношение сигнал/шум, которое он может обеспечить, и оно в первую очередь зависит именно от амплитуды. Все очень просто: даже при нулевом шуме соотношение сигнал/шум не может быть больше, чем весь динамический диапазон, предоставляемый разрядностью. Существуют две формулы, более точная и упрощенная (1 и 2 соответственно):

(1)

1.76 + (число бит * 6.2) = отношение сигнал/шум

(2)

2 + (число бит * 6) = отношение сигнал/шум

   Таким образом, как ни крути, а 12-битная глубина физически не сможет обеспечить сигнал/шум больше, чем 74dB (звучание магнитофонной деки или FM-радиостанции). Для сравнения: 8-битный звук дает 50dB (радиовещание "старых", средневолновых станций), а 16-битный - 98dB (полный динамический диапазон симфонического оркестра). С реальными же, а не теоретическими оцифровщиками эти цифры, конечно, еще ниже - в эту копилку подкидывают свои монетки погрешности параметров электронных компонентов, недостатки экранировки аналоговой части, помехи соседних цифровых устройств, и т.д.

   Потери от уменьшения количества каналов мы рассматривать не станем :).

    Подведем итоги первой части:
  • увеличение частоты сэмплирования и разрядности сигнала хорошо отражается на его достоверности ;)

  • лишние преобразования (и особенно передача сигнала между устройствами), пусть даже в цифровой форме, искажают сигнал; как следствие - частоту сэмплирования выходного трека следует выбирать сразу при оцифровке и, если целью является просмотр на компьютере, лучше сразу установить ее в 44100, чем в 48000 с последующим (да к тому же "некратным") преобразованием.

  • максимальный пик сигнала желательно "подгадывать" при записи сигнала с непредсказуемой динамикой (либо на непредсказуемой аппаратуре) под -12dB - -6dB; в процессе обработки - в -6dB - -3dB, чтобы максимально уменьшить искажения при обработке и оставить при этом безопасное пространство для будущего изменения формы сигнала. (NB: при многоканальном сведении также неплохо удерживать уровни треков в диапазоне -12dB - -6dB). Финальную нормализацию микса или обработанного трека правильно делать ниже 0dB, в диапазоне -0.5dB - -0.2dB.


   P.S.: на самом деле еще многие "мелочи" и подвохи цифрового мира остались за кадром. К примеру, записывая тот же сигнал в 20КГц, вы всякий раз чудом попадаете в кнопку "Rec" именно при прохождении синусоидой нуля? Нет? Значит, каждый ваш дубль "даст" на осциллограмме (а значит, и в звуке) каждый раз совершенно различные результаты! И не только на этой частоте, но и, естесственно, на всех остальных. Остался за кадром и такой момент, как инерционность человеческого уха (а ведь оно, как и глаз, принимает свои слишком быстро сменяющиеся "слуховые кадрики" за плавное непрерывное "движение" звука), и прочее, о чем и без меня всюду и много. Мы же перейдем к части второй...

 
Обсудить на форуме Обсудить на форуме      страницы : << 1 2 3 4 5 6 >>  




codecs.mediatory.ru

drivers.mediatory.ru

hardware.mediatory.ru

mobile.mediatory.ru

photo.mediatory.ru

software.mediatory.ru

sound.mediatory.ru

video.mediatory.ru

Видео Гид

kanst.mediatory.ru

Новости фотомира, секреты фотографии и фотографов

Фотоновости от PhotoGenius.Ru


G+ © 1999-2014   Цитирование и перепечатка материалов - только со ссылкой на сайт и уведомлением авторов.