Принципы визуализации и образного анализ акустического сигнала.
В сегодняшних условиях бурного развития новых мультимедийных средств быстрые преобразования PC из одного вида представлений информационных данных в другие (из звукового представления в визуальное) и обратно приобретают новое «звучание», вследствие как появления мощного исследовательского компьютерного инструментария, так и приобретения большого практического значения в общем объеме информационного обмена результатами применения речевых технологий во всевозможных прикладных областях.
Современный персональный компьютер в реальном времени может представить речь графически - во временной или спектральной области. Осциллограмму речи можно получить с помощью обычного микрофона и звуковой карты, а обработать и проанализировать простейшим звуковым редактором. Более информативный способ анализа – это спектральное представление, когда акустический сигнал представляется в виде наложения большого числа синусоид. Разложение сигнала в спектр обычно проводится с помощью быстрого преобразования Фурье - БПФ, реализованного в большинстве компьютерных звуковых редакторов и специальных программ обработки речи.
В этой связи особый интерес вызывают различные способы визуализации речевых сообщений, аудиосигналов и результатов их обработки с возможностью обратного перехода от изображений к звуковому сигналу. Такой подход к представлению PC в виде графических образов (ГО) позволил бы применить по отношению к ним достаточно хорошо разработанный и бурно развивающийся математический аппарат цифровой обработки изображений для решения различных задач анализа, о6работки и синтеза речи, и на их основе разработать новые технологии обеспечения безопасности речевой связи.
Сравнительные характеристики известных способов визуального представления PC в виде графических образов приведены в табл. 2. Следует отметить, что графические образы представления речевого сигнала в виде волновой формы (осциллограммы) или его параметров в виде цифровых данных, графиков или динамических разверток амплитудного спектра (сонограммы) уже давно используются исследователями для анализа речи и оценки результатов ее обработки. Причем сонограммы могут представляться либо в виде изометрических бинарных изображений, либо в виде квазитрехмерных многоуровневых изображений (цветных или в уровнях серого цвета). Последние получили наибольшее распространение в задачах идентификации личности по голосу.
Сравнительные характеристики различных способов представления речи в виде графических образов табл.2. | ||||
Способ графического представления аудиосигнала (АС) или речи | Участок AC (PC), записанный на 1 кв. дюйме в с | Вид изображения | Чувствительность синтезированного AC (PC) к ошибкам считывания графического образа | |
Осциллограмма и графики | 1... 5 | бинарное | Средняя | |
Альфануме-рические данные кодирования | волновой формы PC | 1. ..4 | бинарное | Средняя |
параметров речи | 10... 40 | бинарное | Сильная | |
Сонограмма, спектрограмма | в изометрическом представлении | 1... 10 | бинарное | Средняя |
в квазитрехмерном представлении | 5... 15 | многоуровневое | Слабая |
Из табл. 2 видно, что речевые сонограммы или амплитудные спектрограммы других аудиосигналов являются наиболее предпочтительными ГО звуковых сигналов с точки зрения сохранения информативности и плотности их записи на бумажные и другие виды носителей, имеющих плоскую поверхность. Это стало особенно заметным при появлении на рынке компьютерной техники лазерных принтеров с плотностью разрешения, превышающей 600 dpi (точек на дюйм) и возможностями передачи более 64 полутонов серого цвета на обычной бумаге.
Исследовать и обрабатывать следы фонообъектов, составляющих аудиосигнал (в том числе и речь) во временной области, непосредственно по волновой форме, в подавляющем большинстве случаев решения задач безопасности речевых сообщений практически невозможно. После перехода в частотную область появляется возможность разложения исследуемого аудиосигнала на отдельные частотные компоненты, некоторые значения которых остаются неизменными или статистически определенными при передаче звуковых сигналов через сложные цепочки технических систем звукопередачи и звукозаписи. А поскольку, как правило, все фонообъекты динамически изменяют свое проявление в акустической среде или канале связи с течением времени, то реально исследование, анализ и обработка следов фонообъектов должны проводиться в частотно-временной области, где следы фонообъектов наглядно могут быть представлены, как будет показано далее, в виде совокупности контуров максимальной яркости во временных границах некоего фильма — протяженного изображения сонограммы.
После преобразования звукового сигнала в цифровую последовательность, воспринимаемую современными компьютерами, осуществляется пошаговое разложение аудио сигнала на отдельные частотные компоненты амплитудного и фазового спектров и представление всех следов фонообъектов, входящих в исследуемый аудио сигнал, в виде фильма — протяженной сонограммы.
Каждый вертикальный срез изображения построенной сонограммы фактически является мгновенным спектром некоторого отрезка исходного следа фонообъекта, рассчитанным с заданным шагом на частотно-временной сетке в соответствии с установленными параметрами отображения сонограммы. Горизонтальный срез такого изображения сонограммы отражает изменение мощности аудиосигнала на данном частотном канале с течением времени.
Сонограмма – амплитудно-частотно-временное представление речевого сигнала.
Чаще всего сонограмма отображается в виде квазитрехмерного многоуровневого изображения, где по осям ординат и абсцисс отложены, соответственно, частота и время, а амплитуда или мощность сигнала на данной частоте в данное время отражается на плоскости в виде определенного цвета. В этом смысле сонограммы бывают цветными и черно-белыми. В силу ряда причин последние получили наибольшее распространение в визуальном анализе речевых и других звуковых сигналов, только для аудиосигналов такого рода графические образы принято называть амплитудными спектрограммами или спектрограммами мощности в зависимости от того какой параметр звукового сигнала (амплитуда или мощность) выводится на изображении в виде цвета (уровня серого) в узлах частотно-временной сетки.
На черно-белых сонограммах именно уровень серого цвета соответствует мощности звукового сигнала в данном узле частотно-временной сетки. Из-за свойств человеческого зрения для отображения фильма-сонограммы можно использовать не более 64 уровней серого. В большинстве случаев для визуальной оценки оператором отображается «картинка» динамического амплитудного спектра речи на мониторе компьютера в 16 или 64 градациях серого цвета. Такого рода сонограммы, где используется 4-б бит на каждый пиксель изображения, назовем «грубыми» сонограммами. В большинстве приложений черный цвет изображения построенной сонограммы соответствует максимальной, а белый — минимальной мощности звукового сигнала на данном частотном канале в данный момент времени. В то же время возможно и инверсное представление уровня амплитуды или мощности аудиосигналов на частотно-временной сетке. На цветных сонограммах уровню амплитуды или мощности PC на частотно-временной сетке соответствует определенный цвет из палитры цветов, которую, как правило, можно менять по желанию пользователя, собственноручно ее настраивая.
В настоящее время существует большое количество хороших программных цифровых анализаторов и редакторов аудиосигналов, предназначенных для визуального анализа звуковых сигналов во временной (осциллограммы, графики уровня мощности сигнала и др.) и частотной (сонограммы, кепстры и др.) областях. Среди импортных программных продуктов такого рода следует отметить Cool Edit Pro I.I, Dart Pro, Sound Forge, Wave Lab, Wave Studio и др., среди отечественных — SIS 5.2, Win-Аудио, «Лазурь», Signal Quick Viewer 2 (SQV2), Signal Viewer (SV) и др. В ряде звуковых редакторов имеется возможность производить некоторые виды обработки аудиосигнала, которые можно применить и для решения ограниченного числа задач безопасности PC посредством компьютерных технологий. К этим задачам относится, прежде всего, фильтрация PC и удаление простых гармонических, импульсных и шумовых помех в речевом сообщении, принятом из канала связи. Такие несложные виды обработки в большинстве ПП производятся, в основном, во временной области с возможной оценкой полученных результатов обработки в частотной области, исходя из анализа сонограмм. Но только лишь в ряде ПП профессионального исполнения, специально предназначенных для решения некоторых задач защиты PC, можно производить сложные виды обработки, в том числе и в частотной области, исходя из произведенного анализа изображений динамических сонограмм.
Главное окно анализа следов фонообъектов размером во весь экран компьютерного монитора с разрешением 1024х768 точек одного такого программного продукта — «Cool Edit 2000» с фильмом сонограммой исходного речевого сигнала без помех в уровнях серого цвета показано на рис.
Очень часто дополнительную информацию, а иногда и главные сведения об исследуемом фонообъекте, можно получить, проводя по соответствующим образом рассчитанным изображениям спектрограмм информационный анализ его следов, или следов фонообъектов, входящих в состав данного аудио сигнала.
Такое представление видится более информативным для пользователя в отличие от традиционно используемой осциллограммы, так как в случае; анализа искаженной и/или зашумленной речи сразу дает возможность отличать паузные и не паузные участки исследуемого речевого сигнала. В нижней части главного окна «Сонограмма» в уровнях серого отображается амплитудная спектрограмма исходной речи, рассчитанная в соответствии с заданными в процессе загрузки ПП значениями разрешений по частоте и по времени. Точка с нулевым отсчетом на частотной и временной осях находится в левом нижнем углу главного окна.
На вокализованных непаузных участках сонограммы и шумов в паузах отчетливо видны на представленном изображении на рисунке траектории (контура) максимальной контрастности или цепочки (треки) локальных максимумов уровней серого, которые и являются теми самыми следами фонообъектов, которые нами и исследуются.
Основываясь на выше изложенном можно утверждать, что если применять данные методы представления звуковой информации, то каждый фонообъект будет иметь свой графический образ.
Следует отметить, что при решении некоторых задач безопасности речевой связи посредством компьютерных технологий под следом фонообъекта иногда понимается и одиночный трек (например, стационарная квазигармоническая помеха), а в других — некая совокупность треков на определенном участке анализа и обработки аудиосигнала (например, отдельное слово, звук). Причем на разных участках динамического спектрального анализа аудиосигнала выявленные следы могут соответствовать абсолютно разным фонообъектам, например речи и помехе, шуму и сигналам управления аппаратурой связи (набор телефонного номера), речи одного человека и речи другого и т.д.
Несмотря на то, что при визуальном анализе сонограмм не имеет смысла использовать более 64 уровней серого, во многих задачах речевой обработки крайне желательно хранить в памяти компьютера и использовать для расчетов изображение сонограммы или следов фонообъектов в формате с плавающей запятой. Также важно сохранять для расчетов в этом же формате и значения фазы в каждом узле частотно-временной сетки, особенно в случае вхождения данного узла в состав треков следов фонообъектов. Таким образом, каждому «грубому» изображению сонограммы, используемому для визуального или автоматического анализа и обработки звуковых сигналов будут соответствовать множества точных значений амплитуды и фазы, рассчитанные для каждого узла заданной частотно-временной сетки. Назовем их «точными» сонограммами и фазограммами. Именно их «точные» значения будут использованы для расчетов и синтеза нового аудиосигнала после выданных оператором или компьютером целе-указаний по выбранному алгоритму обработки аудиосигналов на основе анализа «грубых» сонограмм. Поэтому, «точные» сонограммы и фазограммы во многих вычислительных процедурах речепреобразования имеет смысл оставлять «за кадром», но в тоже время четко их привязывать к своим «грубым» сонограммам, и при модификации последних в процессе обработки изменять значения их «точных» образов вслед за ними. Заметим, что во многих задачах речевой обработки, чтобы избежать неопределенности в выборе фазы в узлах частотно-временной сетки для удобства расчетов можно использовать не саму фазу, а ее косинус, который в случае его суммирования с единицей всегда будет приобретать неотрицательные значения. Рассчитанные фазограммы также можно рассматривать как изображения и применять уже и к ним весь арсенал методов цифровой обработки изображений.
Методика проведения анализа и обработки сонограмм, основанная на выше изложенных фактах (обоснованиях) приведена на рис. внизу.
Главное правило которое следует соблюдать при проведении оцифровки аудио сигнала это сохранение наибольшей информативности, т.е. применение каких-либо средств сжатия, записанного аудио сигнала, ИСКЛЮЧЕНО. Исходя из этого наиболее подходящим форматом записи является формат wav.
Гистограмма представляет собой графическое изображение зависимости частоты попадания элементов выборки от соответствующего интервала группировки.