Oslash; 70-е годы. Бурное развитие и создание первых коммерческих продуктов

Введение

Распознавание речи — процесс преобразования речевого сигнала в цифровую информацию.

История развития систем распознавания речи

Еще в первой половине прошлого века системы распознавания речи считались чем-то фантастическим, сегодня же они стали неотъемлемой частью нашей жизни. Однако на их развитие потребовались десятки лет и сотни тысяч долларов инвестиций.

Ø 50-е и 60-е года. Появление первых устройств распознавания речи

В 1952 году появилось первое устройство для распознавания речи.[1]Американская компания Bell Laboratories, крупный исследователь в области компьютерных и электронных систем, представила свою новую разработку, систему названую Audrey. В отличие от современных систем Audrey могла оперировать только цифрами, не имея своего словарного запаса. Точность работы системы составляла примерно 90%, однако достигалась она только при соблюдении ряда ограничений

Основные ограничения на работу Audrey:

  • Диктующий человек должен был быть мужчиной
  • Это человек должен был уже ранее работать с системой
  • Пауза между словами должна была составлять около 350 миллисекунд[2]

При нарушении данных правил точность распознавания могла снизиться до 60-70%. Несмотря на сильное отставание в эффективности по сравнению с современными системами распознавания речи, создание Audrey послужило переломным моментом в ходе развития систем распознавания речи.

В 1962 году произошла очередная знаменательная дата в развитии систем распознавания речи. На выставке Seattle World’s Fair в 1962 году IBM продемонстрировала Shoebox, самую передовую систему в мире систему распознавания речи. Она могла распознавать 16 слов: номера от нуля до девяти, а также «минус», «плюс», subtotal (подсумма, или промежуточная сумма), total (сумма), false («ложный» – как значение логической переменной) и off (отмена, отключение). Не трудно заметить, что на переход от цифры к слову понадобилось целых десять лет. Посетители выставочного павильона IBM, которые могли общаться с Shoebox через микрофон, приходили в изумление, видя, как принтер выдает печатные ответы на простые арифметические операции. После революционного прорыва Shoebox развитие систем распознавания речи ускорилось – этому способствовал и экспоненциальный рост вычислительной мощности. Технология распознавания речи значительно расширила возможности работы за компьютером для людей с нарушениями зрения, опорно-двигательного аппарата и другими расстройствами здоровья. [3]

Во второй половине шестидесятых годов в лабораториях США, Великобритании, Японии, СССР ведутся опыты по разработке систем распознавания речи способных распознавать отдельно произнесенные звуки. Медленно, но уверенно технологии постепенно совершенствовались.

Oslash; 70-е годы. Бурное развитие и создание первых коммерческих продуктов

В 1971 году перспективная технология обратила на себя внимание военных США. Министерством обороны были выделены средства на исследования и разработку систем распознавания речи. Конечный продукт в итоге должен был распознавать не менее тысячи слов, и понимать связную речь, т. е. речь без четко определенных пауз между словами.

В 1972 году появилось первое программное обеспечение систем распознавания речи поставленное на коммерческую основу. Это была программа Vip-100, она могла распознавать несколько сот слов, правда не было поддержки связной речи. Да и те же проблемы что и в предыдущих подобных продуктах, предварительная «тренировка системы», то есть надиктовка слов.

К 1976 году было разработано шесть систем, которые в той или иной степени, соответствовали необходимым критериям. Самой удачной, пожалуй, была «гарпия», разработанная исследовательским центром при Университете Карнеги-Мелона. По-прежнему сохранялась проблема скорости обработки полученной информации и предварительной «тренировки системы». Зато она обладала словарным запасом в 1011 слов, понимала связную речь и обладала эффективным алгоритмом поиска правильных конструкций. Все эти качества оставляли далеко позади всех её предшественников, и делали эту программу одной из лучших в свое время.

В 80-е годы идет бурное развитие систем распознавания речи. Флагманом выступают американские компании Bell Laboratories и IBM. Внедряя новые подходы и технологии в развитие данных систем, удалось увеличить их словарный запас до нескольких тысяч слов. Фирма IBM направила свою деятельность на исследования в направлении N-грамм (непрерывных последовательностей из N элементов заданного текста или речи), и спикерозависимых, другими словами тренируемых, систем. В то время как Bell Laboratories занималась разработкой систем способных работать с акустической дисперсией, акцентами и не требующих предварительных тренировок.

Одну из главных ролей в развитии этих систем в 80-ых годах сыграл, так называемый, статистический метод. Сутью этого метода было распознание неизвестных параметров, на основании заданных. Проще говоря, системы распознавания речи учили распознавать контекст на самом примитивном уровне и узнавать слова на основании неполных данных, вызванных помехами, акцентом и т. п.

В этот период огромным провалом закончилась попытка использовать искусственные нейронные сети для распознавания речи. Выходят коммерческие предложения на подобие Kurzweil text-to-speech. Но все они были весьма неудобными в работе и поддерживали только надиктовку.

В 1987 году в свет выходит первый коммерческий продукт для широкой общественности с функцией распознавания речи. Это была кукла с функцией распознавания детской речи на основе тренировки. В дополнение к этому она могла реагировать на простые события, происходящие с ней, будь то попадание на свет или темноту, и даже «читать» специальные книги из комплекта, пользуясь сенсорами на пальчиках.

В1990году выходит программа Dragon Dictate – первая в своем роде коммерческая программа для обычных пользователей. Цена ее составила 9000$, что являлось весьма высокой ценой для еще далекой от совершенства системы.

В 1996 году появился VAL от BellSouth – первый голосовой портал. Эта система была призвана обрабатывать телефонные справочные запросы, информационные стенды в крупных торговых центрах и т. п. Она занималась поиском информации для покупателей и абонентов по заданным запросам, услугам, торговым маркам.

В 1997 году вышла новая, улучшенная версия программы Dragon – NaturallySpeaking. Эта программа уже была способна распознавать нормальную речь. Приблизительно сто слов в минуту. Да и цена, снизилась до 695 долларов.

Ø Выход систем распознавания речи на широкий рфнок

В 2001 году Microsoft выпускает свою систему распознавания речи. Работала она с Office XP, на тот момент передовой версией пакета офисных программ. Несмотря на свои несовершенства (наличие «тренировки», перенастройки со сменой рабочего помещения или нечеткости произношения) данная программа стала поистине популярной.

В 2002 году Google запускает, правда в тестовом режиме, Voice Search, предназначенного для голосового поиска в сети интернет. Но данную разработку пришлось сразу свернуть. Дело в том что, что бы выполнять данный поиск, требовалось звонить на специальный номер, что было весьма неудобно. Но Google не опустил рук, и продолжал разработки в этом направлении.

В 2005 году выходит первая операционная система с функцией распознания речи. Первооткрывателем была Mac OS X Tiger. Однако следует упомянуть, что подобные наработки были и у Windows 95, но там была скорее тестовая версия, чем полноценный продукт. VoiceOver была способна не только на распознание речи, в дополнение к этому она являлась её синтезатором. Эта программа могла прочитать содержимое текстовых документов, почтовых и веб-страниц. Большим плюсом было то, что она являлась спикеронезависимой, и даже работала с несколькими пользователями одновременно.

В 2006 году не желая отставать от своего извечного конкурента Apple, Microsoft выпускает операционную систему с полноценной поддержкой функции распознания речи Windows Vista.

В 2009 году выходит приложение Voice Search от Google для iPhone. Работа данного приложения опирается на заоблачные вычисления своих суперкомпьютеров. Эти вычисления позволили провести крупномасштабный анализ данных поиска совпадений между огромным числом голосовых запросов пользователей и их словами. Эта процедура способствовала быстрому росту и совершенствованию системы. Voice Search постепенно закрепляет за собой славу самого популярного приложения от Google для мобильных устройств. Появляется версия для Android.

В 2011 году Google учел ошибки прошлых лет, результатом чего явилась функция распознавания голоса в браузере Chrome. Были устранены ненужные звонки и прочие неудобства. На сегодняшний день в базе насчитывается около 230 миллиардов слов на многих языках мира.

Ø 2011 год. Прорыв в использовании систем распознвания речи

И на конец, без преуменьшения поворотная и эпохальная дата в истории развития систем распознавания речи. 14 октября2011 года Apple начинает массовую продажу своих iPhone 4S с установленной программой Siri. Это программа не просто распознает речь, она выступает в качестве персонального виртуального помощника, способного обрабатывать естественную речь, отвечать на заданные вопросы и предоставлять рекомендации. Примечательно в ней то, что она не использует стандартные программы, а идет живое общение между пользователем и аппаратом. Она даже может отвечать шутками на курьезные либо глупые вопросы. На сегодняшний день данная программа поддерживает английский, французский и немецкий языки.

Наши рекомендации