Интересу к голосовым технологиям предшествовал бум чат-ботов. Казалось, что текстовые чаты смогут заменить графические интерфейсы сайтов и мобильных приложений. Были успешные попытки реализовать сервисы обработки заказов в интернет-магазинах, покупки билетов и финансовые системы. Эта концепция родилась как логичное развитие чатов с операторами служб поддержки. Предполагалось, что, заменив человека на алгоритм или чат-бота, можно сократить расходы и легко масштабироваться без расширения штата.
Но проблема, как обычно, в деталях. Чат-боты не всегда улавливают важные детали в разговоре с человеком. На конференциях и в статьях любят приводить статистику успешных заказов через подобные системы. Но, согласитесь, для вас при заказе, например, авиабилета критически важно, чтобы были учтены все параметры путешествия: время вылета и прилета, аэропорты, условия тарифа и прочее. Если система что-то упустит, цена ошибки для вас будет очень высокой и вам будет все равно, что остальные 85 % пользователей остались довольны.
Следующим шагом в развитии стало преобразование голоса человека в текст, и генерация голосового сообщения на основе текстового ответа системы. Современные технологии уже прошли далеко вперед, и качество распознавания, и генерации голоса находятся на очень высоком уровне. И это только усугубляет проблему наполнения смыслом общения с голосовым чат-ботом. Когда человек слышит речь, то интуитивно ожидает интеллекта, которого в таких системах нет, даже если речь идет об «искусственном». В результате у пользователей появляются завышенные ожидания, которые подобные системы не способны оправдать. Проработка сценариев, делающих общение человека с голосовым сервисом полезным и осмысленным, – самая сложная часть в создании подобных систем.
Где же голосовое взаимодействие с пользователем может дать преимущества перед другими технологиями? Стоит сфокусироваться на двух аспектах. Первый: учитывая, что настоящей интеллектуальности нет, система должна быть ориентирована на конкретные прикладные функции, не предполагающие пространных рассуждений и длинных сценариев общения человека и сервиса. Например, команда «Помоги организовать поездку» означает, что вы никогда никуда не поедете, а вот «Закажи мне такси на ближайшее время, поедем на вокзал» уже сработает.