Синтез речи и понимания речи машиной.

Помимо проговаривания текста есть еще одна весьма важная задача, которая ставится перед ИТ. Она является как бы противоположностью синтеза речи и её решить труднее. Синтез речи, грубо говоря, и очень упрощенно, это произнесение последовательности конкретных символов – букв. И с эти машины уже худо-бедно справляются, т.к. буквы одинаковы и их не много. То, что человеку не привычно слушать монотонно произнесенные буквы с неправильным ударением, это уже другой вопрос. Но в принципе, с проблемой синтеза речи, справились. С пониманием речи все обстоит намного сложнее, т.к. звуки человеческой речи, которые машине предстоит преобразовать обратно в буквы, весьма разнообразны. Разнообразность их вызвана массой факторов: личной индивидуальной особенностью произносящего, окружающей обстановкой, микрофоном, и многим другим. Поэтому так трудно из голоса, особенно не знакомого вычленить и идентифицировать те или иные звуки фразы, слова, буквы. Тем не менее, и в данном направлении уже есть кое какие успехи. Думаю, уже сейчас можно было бы использовать эти две технологии вместе, с предварительной тренировкой второй и подстройке к конкретному голосу собеседника, конкретному микрофону и т.д. Эту идею уже взяли на вооружение и используют некоторые кол-центры [B24] и др. организации, умеющие экономить свои деньги и делать перспективные инвестиции. Надеюсь, что в будущем именно связка этих двух технологий будет объединена в одной программе, которую любой обычный пользователь сможет бесплатно установить и использовать на ПК. Возможно, синтез и понимание речи станет визитной карточкой многих устройств и частью интерфейса ОС способной общаться с людьми привычным для них способом. А уже в дальнейшем, при создании хорошего аналитического ядра, подключенного к мощной базе, границы будут стерты еще больше. Но это уже относится больше к оптимистичным планам и далекому будущему. Тем не мене, раз данные технологии есть уже сейчас, именно проблем в том, чтобы использовать их в одном пакете, нет ни каких препятствий.

Дабы (исправил было даны) мои слова не казались пустым звуком, дам ссылку на один очень интересный сайтhttps://speechpad.ru/ с помощью него, я надиктовал данные строки (два абзаца) голосом.Правда для меня это было непривычно, потому что печатаю быстрее, чем говорю, особенно если касается продуманных речей.Тем не менее, даже меня возможности этого ресурса и программы приятно удивила, поскольку надиктовывал некоторые предложения довольно быстро.Естественно программа до этого мой голос не слышала.Никакой предворительной подстройки, калибровки не было.На диктовка производилась в микрофон далеко не лучшего качества, который я купил лет 5 назад за пол доллара. К сожалению программа, на данный момент не ставит знаки пунктуации.Да и в словахбыльи не значительные ошибки.Которые, я оставил в данном тексте, выделив красным. Возможно, надо говорить разборчиво и внятно прямо в микрофон, тогда ошибок вовсе не будет.

Можно с таким же успехом (практический без ошибок) надиктовывать и украинский текст. Надеюсь, это, уже сейчас мне очень пригодится в работе.Потому что ко мне часто приходят сотрудники, которые не умеют пользоваться клавиатурой и просят меня сделать то, что в принципе может сделать эта программа.

При регистрации доступны более расширенные возможности. К сожалению,насколько я понял, часть функции платные.Но с учетом того, что данную программу я нашёл практически случайно, за 5 минут, ужеэто весьма обнадеживает. Если немного подождать и поискать более целенаправленно, вероятно отыщутся программы лишённые и этих незначительных недостатков. Способные вводить текст с знаками пунктуации прямо в ворд или другой текстовый редактор. Кстати, версия программы доступны и для андроид. Приложение скачать, можно с гугл маркета. Но установка её в BlueStacks и попытка что-то надиктовать пока не увенчалась успехом. Несмотря на то, что голосовой поиск там работает нормально.

В настоящее время в голосовом блокноте имеется кнопка Транскрибация.Это дает возможность работать не только с надиктовываемым текстом,но и с видеои аудиоматериалом, записанным ранее. О приимуществах и необходимости создания текста с видео и аудио уже писал.Доступен перевод аудиотекстов из форматов html5 видео и аудио, а также из видеозаписей youtube. Как это сделать подробно показано в видео «транскрибирование аудио». А с помощью функции синхронного перевода, надеюсь, в будущем отпадет необходимость в живых переводчиках. Языковая проблема, возникшая по легенде, со времен Вавилона, рухнет. И появится уже рабочая цифровая Вавилонская рыбка.

Вот еще не плохая статья по данной теме «Голосовой набор текста – онлайн сервисы распознавания речи в текст».

Наши рекомендации