История развития систем распознавания речи

Еще в первой половине прошлого века системы распознавания речи считались чем-то фантастическим, сегодня же они стали неотъемлемой частью нашей жизни. Однако на их развитие потребовались десятки лет и сотни тысяч долларов инвестиций.

Ø 50-е и 60-е года. Появление первых устройств распознавания речи

В 1952 годупоявилось первое устройство для распознавания речи.[1]Американская компания BellLaboratories, крупный исследователь в области компьютерных и электронных систем, представила свою новую разработку, систему названую Audrey. В отличие от современных систем Audreyмогла оперировать только цифрами, не имея своего словарного запаса. Точность работы системы составляла примерно 90%, однако достигалась она только при соблюдении ряда ограничений

Основные ограничения на работу Audrey:

  • Диктующий человек должен был быть мужчиной
  • Это человек должен был уже ранее работать с системой
  • Пауза между словами должна была составлять около 350 миллисекунд[2]

При нарушении данных правил точность распознавания могла снизиться до 60-70%. Несмотря на сильное отставание в эффективности по сравнению с современными системами распознавания речи, создание Audrey послужило переломным моментом в ходе развития систем распознавания речи.

В 1962 году произошла очередная знаменательная дата в развитии систем распознавания речи. На выставке SeattleWorld’sFair в 1962 году IBM продемонстрировала Shoebox, самую передовую систему в мире систему распознавания речи. Она могла распознавать 16 слов: номера от нуля до девяти, а также «минус», «плюс», subtotal (подсумма, или промежуточная сумма), total (сумма), false («ложный» – как значение логической переменной) и off (отмена, отключение).Не трудно заметить, что на переход от цифры к слову понадобилось целых десять лет. Посетители выставочного павильона IBM, которые могли общаться с Shoebox через микрофон, приходили в изумление, видя, как принтер выдает печатные ответы на простые арифметические операции. После революционного прорыва Shoebox развитие систем распознавания речи ускорилось – этому способствовал и экспоненциальный рост вычислительной мощности. Технология распознавания речи значительно расширила возможности работы за компьютером для людей с нарушениями зрения, опорно-двигательного аппарата и другими расстройствами здоровья. [3]

Во второй половине шестидесятых годов в лабораториях США, Великобритании, Японии, СССР ведутся опыты по разработке систем распознавания речи способных распознавать отдельно произнесенные звуки. Медленно, но уверенно технологии постепенно совершенствовались.

Ø 70-е годы. Бурное развитие и создание первых коммерческих продуктов

В 1971 году перспективная технология обратила на себя внимание военных США. Министерством обороны были выделены средства на исследования и разработку систем распознавания речи. Конечный продукт в итоге должен был распознавать не менее тысячи слов, и понимать связную речь, т. е. речь без четко определенных пауз между словами.

В 1972 году появилось первое программное обеспечение систем распознавания речи поставленное на коммерческую основу. Это была программа Vip-100, она могла распознавать несколько сот слов, правда не было поддержки связной речи. Да и те же проблемы что и в предыдущих подобных продуктах, предварительная «тренировка системы», то есть надиктовка слов.

К 1976 году было разработано шесть систем, которые в той или иной степени, соответствовали необходимым критериям. Самой удачной, пожалуй, была «гарпия», разработанная исследовательским центром при Университете Карнеги-Мелона. По-прежнему сохранялась проблема скорости обработки полученной информации и предварительной «тренировки системы». Зато она обладала словарным запасом в 1011 слов, понимала связную речь и обладала эффективным алгоритмом поиска правильных конструкций. Все эти качества оставляли далеко позади всех её предшественников, и делали эту программу одной из лучших в свое время.

В 80-е годы идет бурное развитие систем распознавания речи. Флагманом выступают американские компании BellLaboratories и IBM. Внедряя новые подходы и технологии в развитие данных систем, удалось увеличить их словарный запас до нескольких тысяч слов. Фирма IBM направила свою деятельность на исследования в направлении N-грамм (непрерывных последовательностей из N элементов заданного текста или речи), и спикерозависимых, другими словами тренируемых, систем. В то время как BellLaboratories занималась разработкой систем способных работать с акустической дисперсией, акцентами и не требующих предварительных тренировок.

Одну из главных ролей в развитии этих систем в 80-ых годах сыграл, так называемый, статистический метод. Сутью этого метода было распознание неизвестных параметров, на основании заданных. Проще говоря, системы распознавания речи учили распознавать контекст на самом примитивном уровне и узнавать слова на основании неполных данных, вызванных помехами, акцентом и т. п.

В этот период огромным провалом закончилась попытка использовать искусственные нейронные сети для распознавания речи. Выходят коммерческие предложения на подобие Kurzweiltext-to-speech. Но все они были весьма неудобными в работе и поддерживали только надиктовку.

В 1987 году в свет выходит первый коммерческий продукт для широкой общественности с функцией распознавания речи. Это была кукла с функцией распознавания детской речи на основе тренировки. В дополнение к этому она могла реагировать на простые события, происходящие с ней, будь то попадание на свет или темноту, и даже «читать» специальные книги из комплекта, пользуясь сенсорами на пальчиках.

В1990году выходит программа DragonDictate – первая в своем роде коммерческая программа для обычных пользователей. Цена ее составила 9000$, что являлось весьма высокой ценой для еще далекой от совершенства системы.

В 1996 году появился VAL от BellSouth – первый голосовой портал. Эта система была призвана обрабатывать телефонные справочные запросы, информационные стенды в крупных торговых центрах и т. п. Она занималась поиском информации для покупателей и абонентов по заданным запросам, услугам, торговым маркам.

В 1997 году вышла новая, улучшенная версия программы Dragon – NaturallySpeaking. Эта программа уже была способна распознавать нормальную речь. Приблизительно сто слов в минуту. Да и цена, снизилась до 695 долларов.

Ø Выход систем распознавания речи на широкий рфнок

В 2001 годуMicrosoft выпускает свою систему распознавания речи. Работала она с Office XP, на тот момент передовой версией пакета офисных программ. Несмотря на свои несовершенства (наличие «тренировки», перенастройки со сменой рабочего помещения или нечеткости произношения) данная программа стала поистине популярной.

В 2002 годуGoogle запускает, правда в тестовом режиме, VoiceSearch, предназначенного для голосового поиска в сети интернет. Но данную разработку пришлось сразу свернуть. Дело в том что, что бы выполнять данный поиск, требовалось звонить на специальный номер, что было весьма неудобно. Но Google не опустил рук, и продолжал разработки в этом направлении.

В 2005 году выходит первая операционная система с функцией распознания речи. Первооткрывателем была Mac OS X Tiger. Однако следует упомянуть, что подобные наработки были и у Windows 95, но там была скорее тестовая версия, чем полноценный продукт. VoiceOver была способна не только на распознание речи, в дополнение к этому она являлась её синтезатором. Эта программа могла прочитать содержимое текстовых документов, почтовых и веб-страниц. Большим плюсом было то, что она являлась спикеронезависимой, и даже работала с несколькими пользователями одновременно.

В2006 году не желая отставать от своего извечного конкурента Apple, Microsoft выпускает операционную систему с полноценной поддержкой функции распознания речи WindowsVista.

В 2009 году выходит приложение VoiceSearch от Googleдля iPhone. Работа данного приложения опирается на заоблачные вычисления своих суперкомпьютеров. Эти вычисления позволили провести крупномасштабный анализ данных поиска совпадений между огромным числом голосовых запросов пользователей и их словами. Эта процедура способствовала быстрому росту и совершенствованию системы.VoiceSearch постепенно закрепляет за собой славу самого популярного приложения от Google для мобильных устройств. Появляется версия для Android.

В 2011 годуGoogle учел ошибки прошлых лет, результатом чего явилась функция распознавания голоса в браузере Chrome. Были устранены ненужные звонки и прочие неудобства. На сегодняшний день в базе насчитывается около 230 миллиардов слов на многих языках мира.

Ø 2011 год. Прорыв в использовании систем распознвания речи

И на конец, без преуменьшения поворотная и эпохальная дата в истории развития систем распознавания речи. 14 октября2011 годаApple начинает массовую продажу своих iPhone 4S с установленной программой Siri. Это программа не просто распознает речь, она выступает в качестве персонального виртуального помощника, способного обрабатывать естественную речь, отвечать на заданные вопросы и предоставлять рекомендации. Примечательно в ней то, что она не использует стандартные программы, а идет живое общение между пользователем и аппаратом. Она даже может отвечать шутками на курьезные либо глупые вопросы. На сегодняшний день данная программа поддерживает английский, французский и немецкий языки.

Виды систем

На сегодняшний день существует два типа систем распознавания речи — работающие «на клиенте» (client-based) и по принципу «клиент-сервер» (client-server). При использовании клиент-серверной технологии речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где обрабатывается и возвращается на устройство в виде команды (GoogleVoice, Vlingo, пр.); ввиду большого количества пользователей сервера система распознавания получает большую базу для обучения. Первый вариант работает на иных математических алгоритмах и встречается редко (SpeereoSoftware) — в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же. Плюс обработки «на клиенте» в мобильности, независимости от наличия связи и работы удаленного оборудования. Так, система, работающая «на клиенте» кажется надежнее, но ограничивается, порой, мощностью устройства на стороне пользователя.

Сейчас применяется также технология SIND (без привязки к голосу конкретного человека).

На сегодняшний день можно выделить пять основных направлений использования систем распознавания речи:

§ Голосовое управление

§ Голосовой набор в различной технике (мобильники, компьютеры, и пр.)

§ Голосовой ввод текстовых сообщений в смартфонах и прочих мобильных компьютерах

§ Голосовой поиск

§ Голосовая почта

Голосовое управление - способ взаимодействия и управления работой устройства при помощи голосовых команд. Системы голосового управления малоэффективны для ввода текста, зато удобны для ввода команд, таких как: создание нового документа, поиск информации и отключение звука.

Распознавание отдельных команд несколько проще, чем распознавание слитного текста и не требует значительных вычислительных мощностей. Благодаря этому, сегодня существует богатый выбор программного обеспечения и оборудования (специализированных цифровых сигнальных процессоров), имеющих небольшую стоимость и высокое качество распознавания команд.[4]

Голосовое управление различными приборами сегодня очень востребовано. Современные мобильные телефоны и автомобили VIP-класса оснащаются системами голосового управления, позволяющими без лишних манипуляций и трудоемких движений управлять миниатюрным, многофункциональным устройством или движением транспортного средства. Аналогичные системы повсеместно применяются в новейших моделях мобильных телефонов, компьютеров, ноутбуков и прочих устройств, управляемых человеком.

Система голосового управления мобильным телефоном основана на считывании голосовых команд, их анализе и сравнении с записанными в памяти аппаратуры данными. Если голосовая команда идентифицируется, как имеющаяся в памяти устройства, она выполняется. Если аппаратура «заметит» малейшие отклонения, то добиться активации не удастся.

Сегодня существуют различные типы систем управления голосом. Одни срабатывают на смысловое значение команд, другие идентифицируют не только смысл команды, но и голос «хозяина». Последние типы устройств активно применяются в мобильных телефонах, автоугонных устройствах, системах сигнализации.

Как все это работает? В памяти такой системы записаны все возможные комбинации команд. Цифровое устройство, распознавая голосовые данные, отцифровывает и сравнивает эту цифровую команду с уже записанными. Совпадение цифрового кода должно быть стопроцентным, иначе защитное устройство среагирует, заблокировав управление. В некоторых системах, особенно антивандальных и противоугонных, несовпадение цифрового кода считывается, как попытка взлома. В этом случае срабатывает противоугонная система и воспользоваться транспортным средством, снабженным такой системой будет не только невозможно, но и выбраться из него можно будет только при помощи истинного владельца автомобиля. В мобильных телефонах все проще. Он просто не активируется и воспользоваться устройством будет совершенно невозможно.

Голосовые системы управления помимо мобильных телефонов и противоугонных систем не редко используются в кодовых замках, пропускных системах, паролях доступа к компьютерам, ноутбукам и прочим электронным устройствам.[5]

Голосовой набор в различной технике -Данная функция позволяет осуществлять набор нужного телефонного номера голосом (без набора номера на клавиатуре). Если произнести ключевое слово, например имя или фамилию абонента, то сам аппарат вызовет телефонный номер из записной книжки и начнет его набирать. Голосовые метки, соответствующие различным телефонным номерам, предварительно необходимо занести в память телефона самим владельцем.

Голосовой ввод текста и текстовых сообщений в смартфонах и прочих мобильных компьютерах

Подходит для людей, у которых возникают проблемы с набором текста. Однака, до сих пор существуют некоторые ограничения, которые не позволяют голосовому вводу текста стать основным методом набора. Прежде всего, это необходимость произносить текст очень четко и раздельно. Кроме того, системы распознавания текста до сих пор склонны совершать ошибки, особенно это касается окончаний слов.

Голосовой поиск - технология распознавания речи, позволяющая осуществлять перевод речевого запроса пользователя в текстовый вид, который затем передается в стандартную систему поиска по базе данных.

Приложения наиболее явно связанные с термином «голосовой поиск» основываются на использовании систем распознавания речи и часто синтеза речи для автоматизированного возвращения результатов поиска. Голосовой поиск реализуется в следующих направлениях:

  • алфавитный справочник, поиск компании по имени или категории, поиск человека по списку;
  • поиск информации, такой как новости, финансы, пробки, направление движения, погода или информация по кинотеатрам (при этом часто используется управление многоуровневым голосовым меню);
  • поиск в Интернете, аналогичный тому, как если бы запрос был напечатан в поисковой строке, но осуществляемый голосом (иногда приводящий к текстовой выдаче результатов на мобильном телефоне);
  • выбор опций из длинного списка служб мобильного сервиса, на портативном устройстве или в автомобильной системе (песни или радиостанции).

Все эти формы поиска инициализируются голосовым запросом, результатом чего является либо выбор нужного действия, либо доставка информации в виде синтезированной речи. Отличительной характеристикой этих основных приложений является быстрый доступ к информации, сводящей до минимума ее усилия по ее поиску.

Причиной дляиспользование голоса часто служит то, что используемое устройство является мобильным телефоном, где текстовый ввод неудобен или опасно отвлекает внимание, и где трудно просматривать длинные списки из-за маленького экрана.

Бизнес-модель для голосовых приложений может охватывать бесплатные услуги по поддержанию лояльности или для построения бренда, платные сервисы по подписке, сервисы объявлений, сервисы с оплатой за услуги (usage-based-fee) и сервисы, ориентированные на совершение сделок.

Другая категория приложений, которые можно считать частью голосового поиска — «голосовой набор номера» — поиск контакта в каталоге. Сервис состоит в том, что после голосового обращения к системе и определения искомого имени она совершает звонок по выбранному контакту.

Иногда под понятием «звуковой поиск» понимается поиск по аудио (или аудиодорожке видеофрагмента) для нахождения фрагментов речи и преобразования их в доступное для поиска содержание. Приложения включают в себя обнаружение в видео или в подкасте определенной темы или упоминания компании; радиокомпании могут преобразовывать заархивированное звуковое/видео содержание в более удобную для использования форму, а дикторы могут более легко находить информацию. Эта технология базируется на речевых технологиях, позволяющих анализировать голосовое содержание файлов.

При использовании данных технологий в call-центрах они носят название «речевой аналитики», которая дополняет распознанную речевую информацию, чтобы сделать некоторый статистический и языковой анализ, используя готовый текстовый и фонетический материал. Такие приложения позволяют искать определенные звуковые фрагменты по необходимым атрибутам (например, определять недовольные отзывы позвонивших клиентов).

Преобразование голосовых файлов в текст для дальнейшего текстового поиска по ним существует, например, в таких сервисах, которые позволяют преобразовывать голосовую почту (voicemail) в текст для более легкого поиска и просмотра, а также позволяют дальнейшую пересылку голосовой почты в виде электронной почты или sms. Так же доступны сервисы, предоставляющие возможность оставлять голосовые заметки по телефону и преобразовывать их в текст. Одна из главных целей такого обслуживания состоит в том, чтобы сделать голосовое содержимое легко архивируемым и удобным для поиска.

«Голосовой поиск» открывает коммерческие перспективы в обеспечении быстрого доступа к информации, особенно на мобильных устройствах. Он предоставляет некоторые из преимуществ письменной речи, сохраняя преимущества разговорной речи.

Голосовая почта — это электронная система для регистрации, сохранения и перенаправления телефонных голосовых сообщений (иногда — для розыска и оповещения пользователей).

В настоящее время под голосовой почтой понимают два вида сервисов, предоставляемых операторами и почтовыми серверами:

  • Возможность для абонента телефонной сети оставить адресату голосовое сообщение, которое тот сможет прослушать позже.
  • Возможность прослушать по телефону хранящиеся на сервере электронной почты сообщения, читаемые роботом.

Наши рекомендации