Голосовые помощники существенно экономят время пользователей: с их помощью можно мгновенно включить музыку или набрать нужный номер. Для правильного реагирования на запрос человека, голосовому ассистенту нужно выполнить десятки действий: распознать отдельные звуки, представить их в виде чисел, перевести в текст и так далее.
Для распознавания голоса голосовые помощники на первой стадии в работе обрабатывают звук.Если сказать помощнику «Лев Толстой», то он услышит не два слова, а звуковой сигнал, в котором гласные и согласные плавно перетекают друг в друга.
Главная задача системы распознавания речи SpeechKit — это четко восстановить по этому сигналу то, что человек говорил.
Процесс распознавания осложняется тем, что одни и те же фразы, произнесённые разными людьми в разной обстановке (например, в вагоне метро или в безлюдном парке), будут давать непохожие друг на друга сигналы. Поэтому для распознавания речи голосовой помощник делит слова на звуковые фрагменты — фонемы. Носители языка узнают именно их: например, первые гласные в словах «дом» и «домашний» мы воспринимаем одинаково, хотя звуки разные. В Алисе различают всего 48 фонем