Распознавание речи

Распознавание речи — процесс преобразования речевого сигнала в текстовый поток

 
 

Речевое общение является естественным и удобным для человека. Задача распознавания речи состоит в том, что бы убрать посредника в общении человека и компьютера. Управление машиной голосом в реальном времени, а также ввод информации посредством человеческой речи намного упростит жизнь современного человека. Научить машину понимать без посредника тот язык, на котором говорят между собой люди – задачи распознавания речи.

Ученые и инженеры уже много лет решают проблему речевого общения человека и машины. Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры. Коммерческие программы по распознаванию речи появились в начале девяностых годов.

Все системы распознавания речи можно разделить на два класса:

  • Системы, зависимые от диктора - настраиваются на речь диктора в процессе обучения. Для работы с другим диктором такие системы требуют полной перенастройки.
  • Системы, не зависимые от диктора - работа которых не зависит от диктора. Такие системы не требуют предварительного обучения и способны распознавать речь любого диктора.

Изначально на рынке появились системы первого вида. В них звуковой образ команды хранился в виде целостного эталона. Для сравнения неизвестного произнесения и эталона команды использовались методы динамического программирования. Эти системы хорошо работали при распознавании небольших наборов из 10-30 команд и понимали только одного диктора. Для работы с другим диктором эти системы требовали полной перенастройки.

Для того чтобы понимать слитную речь, необходимо было перейти к словарям гораздо больших размеров, от нескольких десятков до сотен тысяч слов. Методы, использовавшиеся в системах первого вида, не подходили для решения этой задачи, так как просто невозможно создать эталоны для такого количества слов.

Кроме этого, существовало желание сделать систему, не зависящую от диктора. Это весьма сложная задача, поскольку у каждого человека индивидуальная манера произнесения: темп речи, тембр голоса, особенности произношения. Такие различия называются вариативностью речи. Чтобы ее учесть, были предложены новые статистические методы, опирающиеся в основном на математические аппараты Скрытых Марковских Моделей (СММ) или Искусственных Нейронных сетей. Вместо создания эталонов для каждого слова, создаются эталоны отдельных звуков, из которых состоят слова, так называемые акустические модели. Акустические модели формируются путём статистической обработки больших речевых баз данных, содержащих записи речи сотен людей.

В существующих системах распознавания речи используются два принципиально разных подхода:

  • Распознавание голосовых меток - распознавание фрагментов речи по заранее записанному образцу. Этот подход широко используется в относительно простых системах, предназначенных для исполнения заранее записанных речевых команд.
  • Распознавание лексических элементов - предполагает распознавание фрагментов речи по заранее записанному образцу. Этот подход широко используется в относительно простых системах, предназначенных для исполнения заранее записанных речевых команд.
  • Отметим, что создание систем распознавания речи представляет собой чрезвычайно сложную задачу. Специалисты компании Речевые Технологии обладают многолетним опытом в практическом применении речевых технологий.

Системы автоматического распознавания речи сегодня находят широкое применение в различных областях жизнедеятельности человека.

Наиболее очевидное использование системы распознавания слитной речи заключается в создании систем автоматического стенографирования, которые могут заменять секретарей при диктовке голосом текстов писем, заметок в ежедневник, докладов. В таком случае происходит не только экономия за счет сокращения работы стенографиста, но и повышение степени конфиденциальности информации. На данный момент подобные системы в лучшей степени реализованы для английского языка (да и то с большим количеством ограничений по применению), системы распознавания слитной русской речи находятся на стадии активной разработки.

Известно, насколько неудобно и опасно использование мобильных телефонов с обычным (тактильным) способом набора номера за рулем. Во многих странах принимаются законы о запрете использования водителями таких телефонов с целью сокращения количества ДТП. Поэтому в последнее время все больший интерес вызывают мобильные телефоны с голосовым набором, избавляющие пользователя от необходимости набирать нужный номер вручную. Достаточно произнести имя абонента, и соединение произойдет автоматически. В таком телефоне все функциональные и цифровые кнопки также заменены голосовыми командами, и при использовании за рулем автомобиля он оказывается безопаснее не только обычных мобильных телефонов, но и мобильных телефонов с гарнитурой hands-free. Аудиосистемы контроля и управления также уже применяются в некоторых марках автомобилей. Владелец автомобиля голосом подает команды управления температурным режимом, радио, навигационной системой, которые воспринимают голос и выполняют команды (ссылка на DIVO и VoiceCommander).

Системы автоматического распознавания речи активно применяются в call-центрах. Как правило такие системы носят название IVR-систем (Interactive Voice Response). IVR-системы позволяют автоматизировать диалог с клиентом, в результате чего отпадает необходимость нанимать огромное количество операторов, принимающих телефонные звонки, т.е. сокращаются расходы на содержание персонала. Вдобавок улучшается качество обслуживания клиентов, так как соединение с машиной осуществляется практически сразу, избавляя клиентов от длительного ожидания освободившегося оператора на линии. IVR-система позволяет осуществлять выбор меню не тональным набором, а голосовыми командами, что значительно упрощает работу с клиентами. Для того чтобы получить необходимую информацию, абоненту больше не обязательно прослушивать до конца весь перечень предлагаемых услуг, с надеждой поскорее услышать нужную. Дозвонившись, человек может попасть на любой уровень меню, произнеся лишь одну фразу, что значительно экономит время. Сегодня многие крупные компании уже перешли или переходят на использование IVR-систем.
Системы распознавания речи открывают такие возможности, которые были недоступны при использовании тонального набора. Например, для службы бронирования билетов по телефону: количество городов настолько обширно, что тональное меню здесь нереализуемо. В то же время система распознавания речи сможет обеспечить максимально естественное общение.

На основе распознавания речи создаются видеоигры с голосовым управлением героями, разрабатываются словари и переводчики с голоса на голос, реализуются сложные системы диалога человека с компьютером.

Мы привели только некоторые примеры использования технологии автоматического распознавания речи, на самом деле их гораздо больше.