100% как это сделано скажет только разработчик, который занимался этим компонентом.
Но есть мнение что там организован алгоритм воспроизведения звуков(возможно даже "слогов") пропущенных через некий сглаживающий voice generator. т.е. у каждой буквы/слога есть свой звуковой файл, группа файлов воспроизводятся в соответствующей фразе последовательности с некой деформацией (заданной значениями компонента voise controller). В целом, концептуально, алгоритм не очень сложный. Реализация конечно полна подводных камней :)