Дом Перспективное мышление Интеллектуальные помощники: что будет после Сири?

Интеллектуальные помощники: что будет после Сири?

2024

Видео: Маша и Медведь (Masha and The Bear) - Подкидыш (23 Серия) (Ноябрь 2024)

Интеллектуальные помощники - Siri, Google Now, Cortana и т. Д. - всего лишь несколько лет назад из курьезов и приемов в салонах стали незаменимыми инструментами, которые многие люди используют в своей повседневной жизни. На прошлой неделе я посетил конференцию Intelligent Assistants Conference в Нью-Йорке, представленную Opus Research, и был впечатлен прогрессом, достигнутым программным обеспечением в различных отраслях, включая прогресс финансовых, страховых и медицинских компаний в создании конкретных агентов.,

Основатель Opus Research Дэн Миллер объяснил, что многие из основных технологий, таких как распознавание речи, существуют уже более 20 лет. Хотя в последнее время он видел некоторые большие улучшения, а не революцию, он сказал, что «мы находимся на эволюционном пути», с множеством продуктов в континууме с различными возможностями. Он отметил, что существуют сотни интеллектуальных помощников предприятия, которые можно использовать для простого текстового разговора на простом английском языке с использованием фиксированного набора данных и для таких вещей, как навигация по веб-сайту или ответы на часто задаваемые вопросы. На другом конце спектра, вероятно, есть только несколько десятков «динамических, чувствительных к человеку приложений», которые более разговорные и контекстно-зависимые.

Миллер указал на заявки, получившие награды на конференции. Джулия из Amtrak начинала как интерактивный агент телефонной связи с голосовым ответом много лет назад, но теперь превратилась в агента, который работает на веб-сайте, чтобы вести путешественников через Amtrak.com, на основе агента из Next IT. Telefonica Mexico имеет агента по имени Нико, который имеет аватар, а также предоставляет поддержку через Twitter и Facebook на основе платформы AgentBot. В ING Netherlands есть Inge, приложение, которое позволяет вам проверять баланс вашего банковского счета или переводить деньги с помощью голоса, используя голосовую биометрическую технологию Nuance, чтобы подтвердить свою личность.

Поощрительные упоминания включают приложения здравоохранения, такие как приложение, которое поможет вам выбрать план медицинского обслуживания. Другие приложения, о которых я слышал на шоу, включают Domino's Pizza, в котором есть приложение Dom, которое позволяет вам использовать голос для заказа пиццы; и BMW, у которой есть виртуальный агент в составе группы по финансированию авто Up2drive.

Бретт Беранек из Nuance рассказал о том, как достижения в области нейронных сетей глубокого обучения улучшили такие вещи, как понимание естественного языка, а также распознавание голоса, и как это теперь объединяется, чтобы обеспечить гораздо больший интерес в этой области. Помощник Нины в Nuance был ранним примером, и с тех пор он вырос до множества конкретных приложений, от интерактивных систем голосового ответа в страховых компаниях до приложений для покупок. Каждое из этих приложений имеет свою индивидуальность, в зависимости от того, что оно пытается вам помочь.

Одна большая новая особенность, которую он обсуждал, была голосовой биометрией, в которой ваш голос заменяет пароль. Он рассказал о том, как такие компании, как ING в Европе, разрабатывают агентов, которые не только используют распознавание голоса и обработку на естественном языке, но также начинают использовать голос для распознавания звонящего. Он сказал, что это и безопаснее, и более естественно, чем традиционный пароль.

В то время как недавние исследования беспокоились о том, что голосовые записи могут обмануть такие системы, Нюанс отметил, что сегодняшняя технология включает в себя функции, предназначенные для выявления аномалий из записанного голоса, и указал на другие исследования, которые приняли другую точку зрения. Кроме того, по его словам, дизайнеры могут использовать разные уровни голосовой биометрии для различных функций, таких как простое распознавание для проверки баланса счета или просьба повторить случайную последовательность слов для значительных денежных переводов.

Голосовая биометрия, безусловно, набирает обороты. На прошедшем на прошлой неделе симпозиуме Gartner на семинаре по «интересным случаям для клиентов» в сфере финансовых услуг было включено приложение Ситибанка, в котором использовалась эта функция.

У MyWave есть помощник по имени Фрэнк, который должен быть включен несколькими предприятиями, чтобы вы могли взаимодействовать с ними более разговорным способом, вместо того чтобы каждый бизнес развивал свой собственный. Первое использование включает в себя банк Новой Зеландии и приложение под названием Saveawatt, разработанное, чтобы помочь вам выбрать поставщика электроэнергии.

Генеральный директор Джеральдин МакБрайд (Geraldine McBride) пояснил, что компания пытается создать помощников, которые ликвидируют разрыв между клиентами и сервисными приложениями, используя то, что называется «отношениями с клиентами» или CMR, что является распространением традиционных приложений CRM. По ее словам, одно большое отличие заключается в том, что клиент отвечает за все свои данные, а не за бизнес.

Еще одна относительно новая компания, Expect Labs, имеет продукт под названием MindMeld, который работает как бэкэнд для ряда компаний, которые хотят предложить голосовой интерфейс для замены традиционных интерфейсов и обработки вопросов и ответов. Это может быть использовано для различных приложений, таких как просмотр телевизионных шоу, просто спрашивая имя и запрашивая систему у нескольких систем. (Amazon Fire TV обладает некоторыми из этих функций, но не интегрируется с вашей кабельной приставкой, в то время как одним из инвесторов в Expect Labs является кабельная компания Liberty Global.)

Генеральный директор Тим Таттл (Tim Tuttle) объяснил, что MindMeld стремится использовать распознавание речи, уже доступное на большинстве устройств, и вместо этого сосредотачивается на понимании естественного языка и построении графика знания доступной информации. Он сказал, что фирма пытается масштабировать систему, чтобы она включала больше информации из разных источников, и разрушала иерархии различных категорий информации, которые являются частью большинства таких систем. По его словам, по-настоящему понимать вопросы - значит понимать намерения в разных категориях.

Одна вещь, которую я услышал от ряда участников, была статистика, предполагающая, что около 10 процентов всех поисковых запросов в Интернете в настоящее время осуществляется через агентов разведки. (Пионер ИИ Эндрю Нг сказал, что это было верно для голосового поиска в Baidu в прошлом году, и несколько человек сказали, что теперь это верно и для Google, но я не слышал ни одного подтверждения из первых рук.)

Забегая вперед, Миллер из Opus Research сказал, что предстоит еще много работы. Базовая точность систем имеет много возможностей для совершенствования, особенно при переходе от того, что вы говорите, к тому, что вы имеете в виду, что делать в результате. Он упомянул выступление генерального директора Xerox PARC Стивена Хувера на конференции, который сказал, что сегодня системы на 90 процентов точнее понимают, что мы имеем в виду, но 10 процентов все еще остаются проблемой, потому что большинство людей помнят, когда имеют дело с система. И Миллер сказал, что есть место для лучшей персонализации, потому что, если система знает, с кем она говорит, она может дать лучшие результаты. Например, он отметил, что Facebook знает, кто использует систему, потому что вы вошли в систему; и сказал, что беспрепятственно делать это с большим количеством агентов станет более важным.

Это, безусловно, захватывающая категория, и я ожидаю, что мы все будем тратить гораздо больше времени на общение с нашими телефонами и компьютерами и взаимодействие с агентами, которые не совсем люди. Я считаю, что это одна из самых интригующих тенденций в вычислительной технике в наши дни.