Принципы визуализации и образного анализ акустического сигнала.

В сегодняшних условиях бурного развития новых мультимедийных средств быстрые преобразования PC из одного вида представлений ин­формационных данных в другие (из звукового представления в визуальное) и обратно приобретают новое «звуча­ние», вследствие как появления мощного исследовательского компью­терного инструментария, так и приобретения большого практического значения в общем объеме информационного обмена результатами при­менения речевых технологий во всевозможных прикладных областях.

Современный персональный компьютер в реальном времени может представить речь графически - во временной или спектральной области. Осциллограмму речи можно получить с помощью обычного микрофона и звуковой карты, а обработать и проанализировать простейшим звуковым редактором. Более информативный способ анализа – это спектральное представление, когда акустический сигнал представляется в виде наложения большого числа синусоид. Разложение сигнала в спектр обычно проводится с помощью быстрого преобразования Фурье - БПФ, реализованного в большинстве компьютерных звуковых редакторов и специальных программ обработки речи.

В этой связи особый интерес вызывают различные способы визуа­лизации речевых сообщений, аудиосигналов и результатов их обработки с возможностью обратного перехода от изображений к звуковому сиг­налу. Такой подход к представлению PC в виде графических образов (ГО) позволил бы применить по отношению к ним достаточно хорошо разработанный и бурно развивающийся математический аппарат цифро­вой обработки изображений для решения различных задач анализа, о6работки и синтеза речи, и на их основе разработать новые технологии обеспечения безопасности речевой связи.

Сравнительные характеристики известных способов визуального представления PC в виде графических образов приведены в табл. 2. Следует отметить, что графические образы представления речевого сиг­нала в виде волновой формы (осциллограммы) или его параметров в ви­де цифровых данных, графиков или динамических разверток амплитуд­ного спектра (сонограммы) уже давно используются исследователями для анализа речи и оценки результатов ее обработки. Причем сонограм­мы могут представляться либо в виде изометрических бинарных изо­бражений, либо в виде квазитрехмерных многоуровневых изображений (цветных или в уровнях серого цвета). Последние получили наибольшее распространение в задачах идентификации личности по голосу.



Сравнительные характеристики различных способов представления речи в виде графических образов табл.2.
Способ графического представления аудиосигнала (АС) или речи Участок AC (PC), записанный на 1 кв. дюйме в с Вид изобра­жения Чувствительность синтезиро­ванного AC (PC) к ошибкам считывания графического образа
Осциллограмма и графики 1... 5 бинарное Средняя
Альфануме-рические данные кодирования волновой формы PC 1. ..4 бинарное Средняя
параметров речи 10... 40 бинарное Сильная
Сонограмма, спектро­грамма в изометрическом представлении 1... 10 бинарное Средняя
в квазитрехмерном представлении 5... 15 много­уровневое Слабая

Из табл. 2 видно, что речевые сонограммы или амплитудные спек­трограммы других аудиосигналов являются наиболее предпочтительны­ми ГО звуковых сигналов с точки зрения сохранения информативности и плотности их записи на бумажные и другие виды носителей, имею­щих плоскую поверхность. Это стало особенно заметным при появле­нии на рынке компьютерной техники лазерных принтеров с плотностью разрешения, превышающей 600 dpi (точек на дюйм) и возможностями передачи более 64 полутонов серого цвета на обычной бумаге.

Исследовать и обрабатывать следы фонообъектов, составляющих аудиосигнал (в том числе и речь) во временной области, непосредствен­но по волновой форме, в подавляющем большинстве случаев решения задач безопасности речевых сообщений практически невозможно. По­сле перехода в частотную область появляется возможность разложения исследуемого аудиосигнала на отдельные частотные компоненты, не­которые значения которых остаются неизменными или статистически определенными при передаче звуковых сигналов через сложные цепоч­ки технических систем звукопередачи и звукозаписи. А поскольку, как правило, все фонообъекты динамически изменяют свое проявление в акустической среде или канале связи с течением времени, то реально исследование, анализ и обработка следов фонообъектов должны прово­диться в частотно-временной области, где следы фонообъектов наглядно могут быть представлены, как будет показано далее, в виде совокупности контуров максимальной яркости во временных границах некоего филь­ма — протяженного изображения сонограммы.

После преобразования звукового сигнала в цифровую последовательность, воспринимаемую современными ком­пьютерами, осуществляется пошаговое разложение аудио сигнала на от­дельные частотные компоненты амплитудного и фазового спектров и представление всех следов фонообъектов, входящих в исследуемый ау­дио сигнал, в виде фильма — протяженной сонограммы.

Каждый вер­тикальный срез изображе­ния построенной сонограммы фактически является мгновенным спектром некоторого отрезка исходного следа фонообъекта, рассчитанным с заданным шагом на частотно-временной сетке в соответствии с уста­новленными параметрами отображения сонограммы. Горизонтальный срез такого изображения сонограммы отражает изменение мощности ау­диосигнала на данном частотном канале с течением времени.

Принципы визуализации и образного анализ акустического сигнала. - student2.ru Сонограмма – амплитудно-частотно-временное представление речевого сигнала.

Чаще всего сонограмма отображается в виде квазитрехмерного мно­гоуровневого изображения, где по осям ординат и абсцисс отложены, соответственно, частота и время, а амплитуда или мощность сигнала на данной частоте в данное время отражается на плоскости в виде опреде­ленного цвета. В этом смысле сонограммы бывают цветными и черно-белыми. В силу ряда причин последние получили наибольшее распро­странение в визуальном анализе речевых и других звуковых сигналов, только для аудиосигналов такого рода графические образы принято на­зывать амплитудными спектрограммами или спектрограммами мощно­сти в зависимости от того какой параметр звукового сигнала (амплитуда или мощность) выводится на изображении в виде цвета (уровня серого) в узлах частотно-временной сетки.

На черно-белых сонограммах именно уровень серого цвета соответ­ствует мощности звукового сигнала в данном узле частотно-временной сетки. Из-за свойств человеческого зрения для отображения фильма-сонограммы можно использовать не более 64 уровней серого. В большинстве случаев для визуальной оцен­ки оператором отображается «картинка» динамического амплитудного спектра речи на мониторе компьютера в 16 или 64 градациях серого цвета. Такого рода сонограммы, где используется 4-б бит на каждый пиксель изображения, назовем «грубыми» сонограммами. В большин­стве приложений черный цвет изображения построенной сонограммы соответствует максимальной, а белый — минимальной мощности зву­кового сигнала на данном частотном канале в данный момент времени. В то же время возможно и инверсное представление уровня амплитуды или мощности аудиосигналов на частотно-временной сетке. На цвет­ных сонограммах уровню амплитуды или мощности PC на частотно-временной сетке соответствует определенный цвет из палитры цветов, которую, как правило, можно менять по желанию пользователя, соб­ственноручно ее настраивая.

В настоящее время существует большое количество хороших про­граммных цифровых анализаторов и редакторов аудиосигналов, пред­назначенных для визуального анализа звуковых сигналов во временной (осциллограммы, графики уровня мощности сигнала и др.) и частотной (сонограммы, кепстры и др.) областях. Среди импортных программ­ных продуктов такого рода следует отметить Cool Edit Pro I.I, Dart Pro, Sound Forge, Wave Lab, Wave Studio и др., среди отечественных — SIS 5.2, Win-Аудио, «Лазурь», Signal Quick Viewer 2 (SQV2), Signal Viewer (SV) и др. В ряде звуковых редакторов имеется возможность производить некоторые виды обработки аудиосигнала, которые мож­но применить и для решения ограниченного числа задач безопасности PC посредством компьютерных технологий. К этим задачам относится, прежде всего, фильтрация PC и удаление простых гармонических, им­пульсных и шумовых помех в речевом сообщении, принятом из канала связи. Такие несложные виды обработки в большинстве ПП произво­дятся, в основном, во временной области с возможной оценкой полу­ченных результатов обработки в частотной области, исходя из анализа сонограмм. Но только лишь в ряде ПП профессионального исполне­ния, специально предназначенных для решения некоторых задач защи­ты PC, можно производить сложные виды обработки, в том числе и в частотной области, исходя из произведенного анализа изображений динамических сонограмм.

Принципы визуализации и образного анализ акустического сигнала. - student2.ru Принципы визуализации и образного анализ акустического сигнала. - student2.ru Главное окно анализа следов фонообъектов размером во весь экран компьютерного монитора с разрешением 1024х768 точек одного такого программного продукта — «Cool Edit 2000» с фильмом сонограммой исходного речевого сигнала без по­мех в уровнях серого цвета показано на рис.

Очень часто дополнительную информацию, а иногда и главные сведения об исследуемом фонообъекте, можно получить, проводя по соответствующим образом рассчитанным изображениям спектрограмм информационный анализ его следов, или следов фонообъектов, входящих в состав данного аудио сигнала.

Такое представление видится более информативным для пользователя в отличие от традиционно используемой осциллограммы, так как в случае; анализа искаженной и/или зашумленной речи сразу дает возможность отличать паузные и не паузные участки исследуемого речевого сигнала. В нижней части главного окна «Сонограмма» в уровнях серого отображается амплитудная спектрограмма исходной речи, рассчитанная в соответствии с заданными в процессе загрузки ПП значениями разрешений по частоте и по времени. Точка с нулевым отсчетом на частотной и временной осях находится в левом нижнем углу главного окна.

На вокализованных непаузных участках сонограммы и шумов в паузах отчетливо видны на представленном изображении на рисунке траектории (контура) максимальной контрастности или цепочки (треки) локальных максимумов уровней серого, которые и являются теми самыми следами фонообъектов, которые нами и исследуются.

Основываясь на выше изложенном можно утверждать, что если применять данные методы представления звуковой информации, то каждый фонообъект будет иметь свой графический образ.

Следует отметить, что при решении некоторых задач безопасности речевой связи посредством компьютерных технологий под следом фонообъекта иногда понимается и одиночный трек (например, стационарная квазигармоническая помеха), а в других — некая совокупность треков на определенном участке анализа и обработки аудиосигнала (например, отдельное слово, звук). Причем на разных участках динамического спек­трального анализа аудиосигнала выявленные следы могут соответство­вать абсолютно разным фонообъектам, например речи и помехе, шуму и сигналам управления аппаратурой связи (набор телефонного номе­ра), речи одного человека и речи другого и т.д.

Несмотря на то, что при визуальном анализе сонограмм не имеет смысла использовать более 64 уровней серого, во многих задачах речевой обработки крайне желательно хранить в памяти компьютера и использовать для расчетов изображе­ние сонограммы или следов фонообъектов в формате с плавающей за­пятой. Также важно сохранять для расчетов в этом же формате и зна­чения фазы в каждом узле частотно-временной сетки, особенно в случае вхождения данного узла в состав треков следов фонообъектов. Таким образом, каждому «грубому» изображению сонограммы, используемо­му для визуального или автоматического анализа и обработки звуковых сигналов будут соответствовать множества точных значений амплитуды и фазы, рассчитанные для каждого узла заданной частотно-временной сетки. Назовем их «точными» сонограммами и фазограммами. Именно их «точные» значения будут использованы для расчетов и синтеза но­вого аудиосигнала после выданных оператором или компьютером целе-указаний по выбранному алгоритму обработки аудиосигналов на основе анализа «грубых» сонограмм. Поэтому, «точные» сонограммы и фазограммы во многих вычислительных процедурах речепреобразования имеет смысл оставлять «за кадром», но в тоже время четко их привя­зывать к своим «грубым» сонограммам, и при модификации последних в процессе обработки изменять значения их «точных» образов вслед за ними. Заметим, что во многих задачах речевой обработки, чтобы из­бежать неопределенности в выборе фазы в узлах частотно-временной сетки для удобства расчетов можно использовать не саму фазу, а ее ко­синус, который в случае его суммирования с единицей всегда будет при­обретать неотрицательные значения. Рассчитанные фазограммы также можно рассматривать как изображения и применять уже и к ним весь арсенал методов цифровой обработки изображений.

Методика проведения анализа и обработки сонограмм, основанная на выше изложенных фактах (обоснованиях) приведена на рис. внизу.

Главное правило которое следует соблюдать при проведении оцифровки аудио сигнала это сохранение наибольшей информативности, т.е. применение каких-либо средств сжатия, записанного аудио сигнала, ИСКЛЮЧЕНО. Исходя из этого наиболее подходящим форматом записи является формат wav.

Гистограмма представляет собой графическое изображение зависимости частоты попадания элементов выборки от соответствующего интервала группировки.

Принципы визуализации и образного анализ акустического сигнала. - student2.ru

Наши рекомендации