Речевая аналитика в интеллектуальных диалоговых системах

УДК 004.822:514

Speech Voice QA интеллектуальная система речевой аналитики

В статье рассматривается анализ речевой коммуникации в интеллектуальных диалоговых системах телекоммуникационной сферы. Применительно, к контакт или колл центрам можно говорить о диалоге между человеком-человеком, человеком-интеллектуальной системой. Речевая аналитика – новое направление в области речевых технологий ориентированное, на автоматический анализ разговора с целью выявления удовлетворенности собеседника. В статье будут кратко представлены практические аспекты, освещены проблемы и оценка предметной области.

Ключевые слова: интеллектуальные диалоговые системы, речевая аналитика, система голосового самообслуживания, контакт-центр.

Разработка технологий, которые могли бы взаимодействовать с человеком на доступном ему естественном языке, всегда привлекала ученых и исследователей в области науки и техники. Уже в 1930 г. была предложена первая модель системы по распознаванию и синтезу речи. С тех пор произошел серьезный прогресс в сфере интеллектуальных технологий: стандартные автоматизированные системы, распознававшие ранее отдельные звуки, сегодня заменены на усовершенствованные речевые технологии, которые реагируют на естественную речь человека, учитывая при этом различные особенности данного языка [Juang и др., 2004].

К настоящему времени новые автоматизированные услуги постепенно вытесняют естественный телефонный разговор между людьми. Традиционная телефонная связь переросла в комплекс по передачи голоса, звука, изображения, видео, текста и информации через стационарные и мобильные приложения.

Интеллектуальные диалоговые системы представляют собой систему голосового самообслуживания клиентов (обеспечение услугами и сервисами через телефонный канал связи посредством голоса).

Речевые диалоговые системы – это «компьютерные системы, с которыми пользователи взаимодействуют поочередно» [Möller, 2005].

Разговорные диалоговые системы представляют собой речевой (голосовой) интерфейс пользователя. Под интерфейсом при этом понимаются элементы и компоненты программы, которые способны оказывать влияние на взаимодействие пользователя с программным обеспечением. Основу такого взаимодействия составляют диалоги.

Диалоговый (интерактивный) режим – способ взаимодействия пользователя или оператора с компьютером, при котором происходит непосредственный и двухсторонний обмен информацией, командами или инструкциями между человеком и компьютером. Диалоговый режим подразумевает такую скорость обработки данных, которая не сказывается на технологии действий пользователя [Möller, 2005]. Каждый диалог состоит из отдельных процессов ввода/вывода, которые физически обеспечивают связь пользователя и компьютера. Обмен информацией осуществляется передачей сообщения.

Интеллектуальные диалоговые системы играют значительную роль в телекоммуникационной сфере. Многие компании проявляют живой интерес к диалоговым системам, т.к. это дает возможность выхода на новейший уровень обслуживания клиентов, при котором становится возможным предоставление таких современных услуг, как, например, автоматизированная справочная служба.

Информационные услуги эффективно используются в самых разных отраслях, таких как телекоммуникации, государственные организации, финансовый сектор и страхование, розничные сети, здравоохранение, туризм и транспорт и другие.

Эффективность использования диалоговых систем. С одной стороны, разговорные диалоговые системы обладают рядом преимуществ: естественность, оперативность, смысловая точность ввода, освобождение рук и зрения пользователя. С другой стороны, существует ряд ограничений: язык пользователя должен быть доступен и понятен системе; пользователь не знает обо всех возможностях системы. В процессе взаимодействия с компьютером, пользователю необходимо быстро улавливать информацию, так как речь носит быстротечный характер восприятия.

Эффективность распознавания естественной произвольной речи далека от совершенства. Это объясняется тем, что речевой сигнал имеет сложную изменчивую структуру: содержит, помимо известных системе слов, незнакомые слова, обрывки речи, акустический шум, одно и то же слово может иметь различные значения.

Исследователи определили основные причины, влияющие на эффективность взаимодействия компьютера с пользователем, на качество передаваемой пользователю речи:

• факторы окружающей среды – условия, в которых находится пользователь (окружающий шум, эхосигнал от слушающего абонента),
• характеристики каналов связи, автоматизированных систем (потеря пакетов/блоков данных, передаваемых по каналу связи; ошибка передачи; ослабление уровня или искажение формы передаваемого сигнала по мере его перемещения; искажение амплитудно-частотной характеристики),
• контекстно-зависимые факторы (условия доступа, расходы) [Möller, 2005]. От этих факторов зависит результативность, приемлемость, удовлетворенность пользователя и удобство использования данных услуг.

Таким образом, существующие модели автоматического понимания речи пока еще уступают речевым возможностям человека. В результате стали разрабатывать так называемые системы с многомодальным интерфейсом. Такие интерфейсы позволяют обеспечить наиболее эффективное и естественное для человека взаимодействие с различными автоматизированными средствами управления и коммуникации, позволяют параллельно обрабатывать два или более потока информации, таких как речь, рукописный текст, жесты, движение головы и т.д. [Möller, 2005].

3. Структура интеллектуальной диалоговой системы

Архитектура работы диалоговой системы представлена на рисунке 1. Абонент произносит речь, производя шумный акустический сигнал; механизм распознавания речи преобразовывает его в словарную последовательность [Young, 2010]. Автоматическое распознавание речи – процесс преобразования речевого сигнала в текстовый поток. В широком смысле распознавание речи подразумевает определение ее смыслового содержания [Камынин, 2008]. Семантический декодер конвертирует словарную последовательность в абстрактное представление речи клиента. Управляющая диалогом программа обеспечивает выполнение цели клиента, сохраняет гипотетический речевой акт, исходящий от пользователя, ведет релевантную запись действий пользователя. В зависимости от того на каком этапе находится диалоговый процесс, программа производит речевой акт, исходящий от системы. Речевой акт преобразуется в выходное сообщение посредством генератора речевого потока, и, наконец – в речь при помощи синтеза речи. Под синтезом речи понимается такое звуковое представление какой-либо информации, которое воспринимается человеком как речь [Камынин, 2008]. Технологии распознавания непрерывной речи и синтеза речи по тексту включают в себя метод поиска ключевого слова. Речевые анализаторы находят в процессе разговора ключевые слова, которые являются связующими звеньями для потока фонем в речи. В заключении, пользователь дает ответ (реагирует), подавая на вход новые данные, и цикл действий снова повторяется [Young, 2010].

4. Речевая аналитика

В системе голосового обслуживания клиентов в настоящее время все больше находят применение приложения речевой аналитики. Речевая аналитика – автоматический анализ записанного или текущего разговора с целью извлечения нужной информации [Ziv, 2004].

Считается, что речевая аналитика в основном применяется в Call-центрах различных компаний. Однако, потенциальные возможности данных приложений выходят далеко за эти рамки. В широком смысле автоматический или автоматизированный анализ телефонного звонка необходим для получения информации о потребностях клиента, его удовлетворенности общения с оператором. Ориентированная на клиента, она помогает вести успешную борьбу на рынке, сокращать издержки компании и повышать прибыль.

4.1. Механизм работы речевой аналитики

Речевая аналитика включает в себя три самостоятельных этапа анализа звонков: поиск, категоризацию и автоматический анализ звонка [Ziv, 2004].

1. Поиск. Приложения речевой аналитики совершают поиск нужной информации (тема, обсуждаемого вопроса; личность и пол говорящего; эмоциональную окраску разговора; условия окружающей обстановки) по значениям, словам и фразам, в результате формируются метаданные для дальнейшего анализа звонков.

2. Категоризация. Технологии речевой аналитики анализируют, структурируют разговоры оператора с клиентом, подразделяют их на категории: жалобы клиентов, финансовые вопросы, обратная связь, повторяющиеся и «эмоционально напряженные» звонки. Категоризация дает как количественную информацию (рост жалоб клиентов, касающихся определенной продукции), так и качественную (звонки, касающиеся качества обслуживания).

3. Автоматический анализ звонка. Данная технология позволяют получить ответы на основные вопросы: почему клиенты звонят, почему уровень клиентской удовлетворенности повышается или понижается, почему наблюдается уход клиентов, какие минусы в продукте или обслуживании требуют немедленного внимания, используют ли операторы неподобающий язык общения, были ли инциденты с верификацией клиентов. [Ziv, 2004].

Таким образом, речевая аналитика повышает информированность компаний о предпочтениях клиентов, изучает уровень их удовлетворенности; определяет эмоциональное состояние клиентов; повышает скорость обслуживания и эффективность труда операторов, обеспечивает более высокий уровень контроля качества их работы; снижает себестоимость обслуживания вызовов и т.д.

4.2. Практические примеры

По результатам опроса 2008 г. в большинстве случаев (66%) компании используют речевые анализаторы для улучшения качества обслуживания клиентов [Lawrence, 2009]. Было отмечено, что посредством речевой аналитики контакт-центры выявляют клиентов, готовых покинуть компанию, ищут способы их удержания (стабилизация клиентской базы – 24%); используют приложения для сокращения расходов компании – 24%; для улучшения качества мониторинга – 22%, а также по другим не менее важным причинам.
Практика применения речевой аналитики в контакт-центрах показала, что приложения способствуют выявлению эффективности работы отдела предприятия, например маркетинга, сбыта продукции, разработки продуктов, информационной безопасности.

Рассмотрим пример использования речевых технологий в информбюро железнодорожного вокзала. В исследовании участвовало 130 информбюро из шести стран [Möller, 2005], было проанализировано более 100 миллионов звонков в год, 10 миллионов звонков осталось без ответа. В результате, выяснилось, что около 91% звонков поступило с целью получения информации и всего лишь 9% - для бронирования билетов на транспорт. Было подсчитано, что система сервиса автоматической справки может обработать более 90% звонков с возможностью распознавания около 400 названий городов и более 95% - системой с распознаванием 500 городов. Таким образом, сервис автоматического обслуживания клиентов на основе интеллектуальных диалоговых систем значительно упрощает получение справочной информации пассажирами, снижает время ожидания и увеличении часов работы компании, представляет собой экономически выгодное решение.

Заключение

Речевые технологии предлагают пользователям широкий спектр автоматизированных услуг. Информационные системы становятся дружественными и понятными даже для обычного пользователя. Современные технические средства позволяют реализовывать диалог компьютера с пользователем на естественном языке.
В работе рассмотрены системы голосового информационного обслуживания абонентов с комбинацией традиционных методов обслуживания (контакт-центры) и сервиса самообслуживания на основе интеллектуальных диалоговых систем.

Центр обработки вызовов представляет собой подразделения, оснащенные оборудованием и специализированным ПО, группу операторов с другой стороны, которые предназначены для повышения эффективности работы с клиентами при обслуживании обращений абонентов, нуждающихся в получении справочной информации. Преимущество контакт-центра заключается в том, что при непрерывном притоке клиентов он обеспечивает заданный уровень качества обслуживания на любом этапе общения оператора с абонентом. Современный центр обработки вызовов отличается скоростью реакции на запросы абонентов, предлагает адекватные решения, повышает уровень их удовлетворенности, стремится к установлению эмоциональной связи с каждым абонентом.

Автоматизированные диалоговые системы позволяют обеспечить в автоматическом режиме, без участия операторов, полное информационное обслуживание большого объема входящих запросов. Как показала практика, данное приложение позволяет удовлетворить информационные потребности клиентов, сократить время ожидания, представляет собой экономически выгодное решение. Однако, диалог человек-машина представляет собой точно управляемое и формализованное общение, что и является основной проблемой для человека.

Для того чтобы разработать подходящие, рациональные, удобные в использовании разговорные диалоговые системы необходимо учитывать как технологии передачи, распознавания и синтеза речи, корректное понимание языка, управление диалогом, так и учет всех составляющих информационного обмена между людьми, позволяющие организовывать взаимодействие компьютера с человеком на естественном языке. Диалоговые системы будут только тогда эффективны, если они будут привычными для пользователя, адаптированы к нему.

Тщательный структурированный подход в разработки разговорных диалоговых систем может привести к появлению новых усовершенствованных технологий для успешного будущего человека (пример, автомобильная навигационная система, «умная» локальная система сотовой радиосвязи, многомодальные системы). Успех в их реализации будет зависеть напрямую от уровня качества, который они смогут предложить пользователям.

Автор: Киселёв В.В.

Все материалы, размещенные на данном сайте, разрешены к публикации и печати на других ресурсах и печатных издания только при наличии письменного разрешения компании ООО "Речевые Технологии"