Что ты знаешь о яндексе

Шёпот и эмоции в Алисе: история развития голосового синтеза Яндекса

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Четыре года назад мы запустили Алису. С самого начала она обладала собственным, узнаваемым голосом. Хотя проблемы тоже были: интонации хромали, эмоции скакали от слова к слову, а омонимы и вовсе ставили синтез в тупик. Алиса звучала пусть и не как робот, но ещё и не как человек.

Исследования показывают, что желание общаться с голосовым помощником напрямую зависит от того, насколько точно он имитирует речь людей. Поэтому мы постоянно работаем над «очеловечениванием» голоса Алисы. С тех пор сменилось несколько поколений нашего голосового синтеза. Мы научились расставлять интонации, отличать «замОк» от «зАмка» и многое другое.

Сейчас мы переходим на следующий уровень: учим Алису управлять эмоциями и стилем своей речи, распознавать шёпот и отвечать на него шёпотом. Казалось бы, что в этом сложного и почему всё это было невозможно ещё несколько лет назад? Вот об этом я и расскажу сегодня сообществу Хабра.

Ранний параметрический синтез: эпоха до Алисы

Мы начали заниматься голосовыми технологиями в 2012 году. Через год родился SpeechKit. Ещё через год мы научились синтезировать голос — возможно, вы помните YaC 2014 и экспериментальный проект Яндекс.Диктовка. С тех пор прогресс не останавливается.

Исторически речевой синтез бывает двух видов: конкатенативный и параметрический. В случае с первым, есть база кусочков звука, размеченных элементами речи — словами или фонемами. Мы собираем предложение из кусочков, конкатенируя (то есть склеивая) звуковые сегменты. Такой метод требует большой базы звука, он очень дорогой и негибкий, зато до пришествия нейросетей давал самое высокое качество.

При параметрическом синтезе базы звука нет — мы рисуем его с нуля. Из-за большого прыжка в размерности end2end работает плохо даже сейчас. Лучше разделить это преобразование на два шага: сначала нарисовать звук в особом параметрическом (отсюда название метода) пространстве, а затем преобразовать параметрическое представление звука в wav-файл.

В 2014 году нейросетевые методы речевого синтеза только зарождались. Тогда качеством правил конкатенативный синтез, но нам в эру SpeechKit было необходимо легковесное решение (для Навигатора), поэтому остановились на простом и дешёвом параметрическом синтезе. Он состоял из двух блоков:

Это стандартная архитектура для любой ранней параметрики со своими достоинствами и недостатками. Главный плюс — для обучения модели нужно мало данных (нам хватило 5-10 часов записей человеческой речи). Можно синтезировать любой произвольный текст, который даже будет плавно звучать. К сожалению, слишком плавно: недостатком раннего параметрического синтеза было то, что полученный голос звучал неестественно. Он был слишком гладким, лишённым интонаций и эмоций, звенел металлом. Люди так не говорят.

Вот как звучал голос при раннем параметрическом синтезе:

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексеЧто ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексеЧто ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Причина неестественности синтезированного голоса кроется в самой архитектуре. У акустической модели мало информации о тексте в целом. Даже рекуррентная нейросеть, которая, казалось бы, умеет запоминать предыдущие состояния, очень быстро забывает их и фактически не учитывает полный текст. При этом человек обычно произносит речь, понимая, что только что прозвучало и что будет дальше по тексту.

Кроме того, человеческая речь мультимодальна — есть несколько способов произнести текст, каждый из которых описывается сигналом и звучит более-менее нормально. Но среднее между этими способами звучит неестественно. Проблема стандартных регрессионных методов глубокого обучения в том, что они ищут одну моду — «хорошее среднее» — и попадают в такие «провалы неестественности». В результате оказывается, что лучше случайно выбрать один из двух способов, чем попасть в среднее между ними.

Впрочем, даже если акустическая модель и смогла бы разобраться в контексте и выдать обогащённое информацией промежуточное состояние, то с ним уже не мог справиться примитивный вокодер. Поэтому мы не остановились и стали искать более совершенные решения.

Конкатенативный синтез: рождение Алисы

В 2016 году мы решили создать Алису — сразу было понятно, что это более амбициозная задача, чем всё, чем занимались раньше. Дело в том, что в отличие от простых TTS-инструментов, голосовой помощник должен звучать человечно, иначе люди просто не станут с ним (или с ней) общаться. Предыдущая архитектура совершенно не подходила. К счастью, был и другой подход. Точнее, даже два.

Тогда как раз набирал обороты нейропараметрический подход, в котором задачу вокодера выполняла сложная нейросетевая модель. Например, появился проект WaveNet на базе свёрточной нейросети, которая могла обходиться и без отдельной акустической модели. На вход можно было загрузить простые лингвистические данные, а на выходе получить приличную речь.

Первым импульсом было пойти именно таким путём, но нейросети были совсем сырые и медленные, поэтому мы не стали их рассматривать как основное решение, а исследовали эту задачу в фоновом режиме. На генерацию секунды речи уходило до пяти минут реального времени. Это очень долго: чтобы использовать синтез в реальном времени, нужно генерировать секунду звука быстрее, чем за секунду.

Что же делать? Если нельзя синтезировать живую речь с нуля, нужно взять крошечные фрагменты речи человека и собрать из них любую произвольную фразу. Напомню, что в этом суть конкатенативного синтеза, который обычно ассоциируется с методом unit selection. Пять лет назад он уже давал наилучшее качество (при достаточном количестве данных) в задачах, где была нужна качественная речь в реальном времени. И здесь мы смогли переиспользовать нейросети нашей старой параметрики. Работало это следующим образом:

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе
Схема конкатенативного синтеза

У такого подхода тоже есть плюсы и минусы. Среди достоинств — более естественное звучание голоса, ведь исходный материал не синтезирован, а записан вживую. Правда, есть и обратная сторона: чем меньше данных, тем более грубо будут звучать места склейки фрагментов. Для шаблонных фраз всё более-менее хорошо, но шаг влево или вправо — и вы замечаете склейку. Поэтому нужно очень много исходного материала, а это требует многих часов записи голоса диктора. К примеру, в первые несколько лет работы над Алисой нам пришлось записать несколько десятков часов. Это несколько месяцев непрерывной работы с актрисой Татьяной Шитовой в студии.

При этом нужно не просто «прочитать текст по листочку». Чем более нейтрально будет звучать голос, тем лучше. Обычно от актёров ждут эмоциональности, проявления темперамента в своей речи. У нас ровно обратная задача, потому что нужны универсальные «кубики» для создания произвольных фраз.

Вот характерный пример работы синтеза:

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексеЧто ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексеЧто ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

В этом главный недостаток метода unit selection: несмотря на все усилия, фрагменты речи не будут идеально соответствовать друг другу по эмоциям и стилю. Из-за этого сгенерированная речь Алисы постоянно «переключалась» между ними. На коротких фразах это не всегда заметно, но если хотите услышать произвольный ответ длиной хотя бы в пару предложений (например, быстрый ответ из поиска), то недостатки подхода становятся очевидны.

В общем, unit selection перестал нас устраивать и нужно было развиваться дальше.

Иногда они возвращаются: опять параметрический синтез

В результате мы вернулись к архитектуре из двух последовательных блоков: акустическая модель и вокодер. Правда, на более низком уровне обновилось примерно всё.

1. Акустическая модель

В отличие от старой параметрики, новую модель мы построили на основе seq2seq-подхода с механизмом внимания.

Помните проблему с потерей контекста в нашей ранней параметрике? Если нет нормального контекста, то нет и нормальной интонации в речи. Решение пришло из машинного перевода.

Дело в том, что в машинном переводе как раз возникает проблема глобального контекста — смысл слов в разных языках может задаваться разным порядком или вообще разными структурами, поэтому порой для корректного перевода предложения нужно увидеть его целиком. Для решения этой задачи исследователи предложили механизм внимания — идея в том, чтобы рассмотреть всё предложение разом, но сфокусироваться (через softmax-слой) на небольшом числе «важных» токенов.

При генерации каждого нового выходного токена нейросеть смотрит на обработанные токены (фонемы для речевого синтеза или символы языка для перевода) входа и «решает», насколько каждый из них важен на этом шаге. Оценив важность, сеть учитывает её при агрегировании результатов и получает информацию для генерации очередного токена выхода.

Таким образом нейросеть может заглянуть в любой элемент входа на любом шаге и при этом не перегружается информацией, поскольку фокусируется на небольшом количестве входных токенов. Для синтеза важна подобная глобальность, так как интонация сама по себе глобальна и нужно «видеть» всё предложение, чтобы правильно его проинтонировать.

На тот момент для синтеза была хорошая seq2seq-архитектура Tacotron 2 — она и легла в основу нашей акустической модели.

2. Мел-спектрограмма

Параметрическое пространство можно сжать разными способами. Более сжатые представления лучше работают с примитивными акустическими моделями и вокодерами — там меньше возможностей для ошибок. Более полные представления позволяют лучше восстановить wav, но их генерация — сложная задача для акустической модели. Кроме того, восстановление из таких представлений у детерминированных вокодеров не очень качественное из-за их нестабильности. С появлением нейросетевых вокодеров сложность промежуточного пространства стала расти и сейчас в индустрии одним из стандартов стала мел-спектрограмма.

Она отличается от обычного распределения частоты звука по времени тем, что частоты переводятся в особую мел-частоту звука. Другими словами, мел-спектрограмма — это спектрограмма, в которой частота звука выражена в мелах, а не герцах. Мелы пришли из музыкальной акустики, а их название — это просто сокращение слова «мелодия».

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе
Строение улитки уха (из Википедии)

Эта шкала не линейная и основана на том, что человеческое ухо по-разному воспринимает звук различной частоты. Вспомните строение улитки в ухе: это просто канал, закрученный по спирали. Высокочастотный звук не может «повернуть» по спирали, поэтому воспринимается достаточно короткой частью слуховых рецепторов. Низкочастотный же звук проходит вглубь. Поэтому люди хорошо различают низкочастотные звуки, но высокочастотные сливаются.

Мел-спектрограмма как раз позволяет представить звук, акцентируясь на той части спектра, которая значимо различается слухом. Это полезно, потому что мы генерируем звук именно для человека, а не для машины.

Вот как выглядит мел-спектрограмма синтеза текста «Я — Алиса»:
Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе
У мел-спектрограммы по одному измерению [X на рисунке выше] — время, по другому [Y] — частота, а значение [яркость на рисунке] — мощность сигнала на заданной частоте в определенный момент времени. Проще говоря, эта штуковина показывает, какое распределение по мощностям было у различных частот звука в конкретный момент. Мел-спектрограмма непрерывна, то есть с ней можно работать как с изображением.

А так звучит результат синтеза:

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексеЧто ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексеЧто ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

3. Новый вокодер

Вероятно, вы уже догадались, что мы перешли к использованию нового нейросетевого вокодера. Именно он в реальном времени превращает мел-спектрограмму в голос. Наиболее близкий аналог нашего первого решения на основе нейросетей, которое вышло в 2018 году — модель WaveGlow.

Архитектура WaveGlow основана на генеративных потоках — довольно изящном методе создания генеративных сетей, впервые предложенном в статье про генерацию лиц. Сеть обучается конвертировать случайный шум и мел-спектрограмму на входе в осмысленный wav-сэмпл. За счёт случайного шума на входе обеспечивается выбор случайной wav-ки — одной из множества соответствующих мел-спектрограмме. Как я объяснил выше, в домене речи такой случайный выбор будет лучше детерминированного среднего по всем возможным wav-кам.

В отличие от WaveNet, WaveGlow не авторегрессионен, то есть не требует для генерации нового wav-сэмпла знания предыдущих. Его параллельная свёрточная архитектура хорошо ложится на вычислительную модель видеокарты, позволяя за одну секунду работы генерировать несколько сотен секунд звука.

Затем вышла модель HiFi-GAN, которая сильно выигрывала по качеству у других решений. HiFi-GAN — доработка генеративно-состязательной сети MelGAN, создающей wav-сэмплы на основе мел-спектрограммы.

Главное отличие, за счёт которого HiFi-GAN обеспечивает гораздо лучшее качество, заключается в наборе подсетей-дискриминаторов. Они валидируют натуральность звука, смотря на сэмплы с различными периодами и на различном масштабе. Как и WaveGlow, HiFi-GAN не имеет авторегрессионной зависимости и хорошо параллелится, при этом новая сеть намного легковеснее, что позволило при реализации ещё больше повысить скорость синтеза. Кроме того, оказалось, что HiFi-GAN лучше работает на экспрессивной речи, что в дальнейшем позволило запустить эмоциональный синтез — об этом подробно расскажу чуть позже. Летом 2021 года мы полностью перешли на HiFi-GAN.

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе
Схема HiFi-GAN из статьи авторов модели

Комбинация этих трёх компонентов позволила вернуться к параметрическому синтезу голоса, который звучал плавно и качественно, требовал меньше данных и давал больше возможностей в кастомизации и изменении стиля голоса.

Параллельно мы работали над улучшением отдельных элементов синтеза:

С чувством, толком, расстановкой: стили голоса Алисы

Один и тот же текст можно произнести десятком разных способов, при этом сам исходный текст, как правило, никаких подсказок не содержит. Если отправить такой текст в акустическую модель без дополнительных меток и обучить её на достаточно богатом различными стилями и интонациями корпусе, то модель сойдёт с ума — либо переусреднит всё к металлическому «голосу робота», либо начнёт генерировать случайный стиль на каждое предложение. Это и произошло с Алисой: в начале она воспроизводила рандомные стили в разговоре. Казалось, что у неё менялось настроение в каждом предложении.

Вот пример записи с явными перебоями в стилях:

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексеЧто ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексеЧто ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Чтобы решить проблему, мы добавили в акустическую модель стили: в процессе обучения нейросети специально ввели «утечку». Суть в том, что через очень lossy-пространство (всего 16 чисел на всё предложение) разрешаем сетке посмотреть на ответ — истинную мел-спектрограмму, которую ей и нужно предсказать на обучении. За счёт такой «шпаргалки» сеть не пытается выдумывать непредсказуемую по тексту компоненту, а для другой информации не хватит размерности шпаргалки.

На инференсе мы генерируем стилевую подсказку, похожую на те, что были в обучающем сете. Это можно делать, взяв готовый стиль из обучающего примера или обучив специальную подсеть генерировать стили по тексту.

Если эту подсеть обучить на особом подмножестве примеров, можно получить специальные стили для, скажем, мягкого или дружелюбного голоса. Или резкого и холодного. Или относительно нейтрального. Чтобы определиться со стилем по умолчанию, мы устроили турнир, где судьями выступали пользователи Толоки. Там не было разметки, мы просто нашли кластеры стилей и провели между ними соревнование. Победил кластер с очень мягкой и приятной интонацией.

Дальше началось самое интересное. Мы взяли образцы синтезированной «мягкой» речи Алисы и фрагменты речи актрисы Татьяны Шитовой, которые относились к более резкому стилю. Затем эти образцы с одним и тем же текстом протестировали вслепую на толокерах. Оказалось, что люди выбирают синтезированный вариант Алисы, несмотря на более плохое качество по сравнению с реальной речью человека. В принципе, этого можно было ожидать: уверен, многие предпочтут более ласковый разговор по телефону (то есть с потерей в качестве) живому, но холодному общению.

К примеру, так звучал резкий голос:

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексеЧто ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексеЧто ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексеЧто ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексеЧто ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Результаты турниров позволили нам выделить во всем обучающем датасете данные, которые относятся к стилю-победителю, и использовать для обучения только их. Благодаря этому Алиса по умолчанию стала говорить более мягким и дружелюбным голосом.

Этот пример показывает, что с точки зрения восприятия важно работать не только над качеством синтеза, но и над стилем речи. После этого оставалось только обогатить Алису новыми эмоциями.

Бодрая или спокойная: управляем эмоциями Алисы

Когда вы включаете утреннее шоу Алисы или запускаете автоматический перевод лекции на YouTube, то слышите разные голоса — бодрый в первом случае и более флегматичный в другом. Эту разницу сложно описать словами, но она интуитивно понятна — люди хорошо умеют распознавать эмоции и произносить один и тот же текст с разной эмоциональной окраской. Мы обучили этому навыку Алису с помощью той же разметки подсказок, которую применили для стилей.

У языка есть интересное свойство — просодия, или набор элементов, которые не выражаются словами. Это особенности произношения, интенсивность, придыхание и так далее. Один текст можно произнести со множеством смыслов. Как и в случае со стилями речи, можно, например, выделить кластеры «веселая Алиса», «злая Алиса» и так далее.

Поскольку стилевой механизм отделяет просодию («как говорим») от артикуляции («что говорим»), то новую эмоцию можно получить буквально из пары часов данных. По сути, нейросети нужно только выучить стиль, а информацию о том, как читать сочетания фонем, она возьмёт из остального корпуса.

Прямо сейчас доступны три эмоции. Например, часть пользователей утреннего шоу Алисы слышат бодрую эмоцию. Кроме того, её можно услышать, спросив Алису «Кем ты работаешь?» или «Какую музыку ты любишь?». Флегматичная эмоция пригодилась для перевода видео — оказалось, что голос по умолчанию слишком игривый для этой задачи. Наконец, радостная эмоция нужна для ответов Алисы на специфические запросы вроде «Давай дружить» и «Орёл или решка?». Ещё есть негативная эмоция, которую пока не знаем, как использовать — сложно представить ситуацию, когда людям понравится, что на них ругается робот.

Первый корпус эмоций мы записали ещё при WaveGlow, но результат нас не устроил и выкатывать его не стали. С переходом на HiFi-GAN стало понятно, что он хорошо работает с эмоциями, это позволило запустить полноценный эмоциональный синтез.

Наконец, мы решили внедрить шёпот. Когда люди обращаются к Алисе шёпотом, она должна и отвечать шёпотом — это делает её человечнее. При этом шёпот — не просто тихая речь, там слова произносятся без использования голосовых связок. Спектр звука получается совсем другим.

С одной стороны, это упрощает детекцию шёпота: по «картинке» мел-спектрограммы можно понять, где заканчивается обычная речь и начинается шепот. С другой стороны, это усложняет синтез шёпота: привычные механизмы обработки и подготовки речи перестают работать. Поэтому шёпотный синтез нельзя получить детерминированным преобразованием сигнала из речи.

Так выглядят мел-спектрограммы обычной речи и шёпота при произнесении одной и той же фразы:
Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе
Так звучит обычная речь:

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексеЧто ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексеЧто ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексеЧто ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексеЧто ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Сначала мы научили Алису понимать шёпот. Для этого обучили нейросеть различать спектры звука для обычного голоса и шёпота. Система смотрит на спектр звука и решает, когда говорят шёпотом, а когда — голосом.

В процессе обучения оказалось, что спектры шёпота и речи курильщиков похожи, так что пришлось научить нейросеть их различать. Для этого собрали больше пограничных данных с речью курильщиков и простуженных людей и донастроили нейросеть на них.

Чтобы научить Алису говорить шёпотом, мы записали несколько часов шёпота речи в исполнении Татьяны Шитовой. Сложности начались уже на предобработке данных: наш VAD (детектор тишины в речи) сломался на шёпотных гласных — трудно отличить сказанное шёпотом «а!» от обычного громкого вздоха. Починить его удалось, только совместив признаки энергии сигнала и данные от распознавания речи, при этом под шёпот конструкцию пришлось калибровать отдельно.

Затем записанные данные добавили в обучающий корпус акустической модели. Мы решили рассматривать шёпот как еще один «стиль» речи или, в терминах нашего синтеза, «эмоцию». Добавив данные в трейнсет, мы дали акустической модели на вход дополнительную информацию — шёпот или эмоцию она сейчас проигрывает. По этому входу модель научилась по команде пользователя переключаться между генерацией речи и шёпота.

Сгенерированный шёпот по качеству не отличался от обычной речи. По нашей метрике PSER (Pronunciation Sentence Error Rate — средняя доля ошибок произношения в предложении) он оказался даже лучше. Оказалось, что ряд ошибок интонации в шёпотной речи были значительно менее ярко выражены.

Этот голос будет полезен при общении с Алисой ночью, чтобы не мешать близким. Можно задавать вопросы тихим голосом и Алиса будет отвечать шёпотом. Кроме того, такой стиль ещё и звучит очень приятно — поклонники ASMR оценят.

Источник

Что умеет голосовой помощник Алиса

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Несколько лет назад вышла голосовая помощница от компании Яндекс – Алиса. Ее выпуск можно было сравнить с громом среди ясного неба, так как она обладала довольно уникальными навыками, которыми Siri и Alexa не могли похвастаться.

Давайте поговорим о том, что же это за умения и по какому принципу работает голосовой помощник Алиса.

Алиса – а что это за робот.

Алиса – это, как вы уже поняли, виртуальный голосовой помощник Яндекса. Она управляет устройством, отвечает на вопросы и выполняет некоторые задания. В то же время ассистент обладает некоторыми чертами «личности» – Алиса любит шутить, иронизировать над собой и жаловаться на «одиночество в тесной коробке».

Виртуального помощника официально анонсировали еще в 2017 году. На данный момент он может распознавать естественную речь и незаконченные фразы, отвечать с интонацией, учитывать контекст разговора. На этом ее функционал не ограничивается – Алиса постоянно и интенсивно развивается, в основном за счет навыка самостоятельного обучения.

Алиса говорит голосом Татьяны Шировой, официального дублера Скарлет Йоханссон в России. Из-за привязки к женскому имени функцию переключения пола разработчики не предусмотрели.

…и где она живет?

Алиса «живет» практически во всех приложениях Яндекса. На некоторых устройствах голосовой ассистент установлен по умолчанию.

Смартфон. Неважно, на базе какой ОС работает девайс (Android или iOS). Алиса предусмотрена в приложении Яндекс и Яндекс.Браузер, а также в Яндекс.Навигатор.

Компьютер. А вот тут разница есть. Разработчики до сих пор не внедрили Алису в приложения Яндекса для macOS. Для Windows же нужно будет просто установить тот же Яндекс.Браузер.

Умные устройства. Это может быть Яндекс.Станция, колонки или смарт-часы от Irbis и Elari. В них виртуальный ассистент заранее встроен, управление функциями осуществляется именно с помощью Алисы.

Автомобиль. Алиса живет в Яндекс.Навигаторе и помогает прокладывать маршруты, оповещает о пробках или штрафах и предоставляет информацию о погоде.

Умный дом. Яндекс продвигает концепцию умного дома, центром которого является именно Алиса. В эко-систему объединены все устройства, поддерживающие работу с виртуальным ассистентом.

Есть один очевидный нюанс – без интернета голосовой помощник не работает.

Яндекс.Диалоги

С помощью сервиса Яндекс.Диалоги можно создавать навыки и онлайн-чаты. Разработчики могут создавать скрипты диалогов с пользователем для развития собственного бизнеса. На данный момент есть предложения от Сбербанка, Макдоналдса, HeadHunter, Skyeng и других компаний. Некоторые работают только на одном устройстве – смартфоне или компьютере.

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Плюс для обычных пользователей – это возможность использования самых разных сервисов и услуг. К примеру, с помощью Алисы можно заказать пиццу, составить список покупок, узнать баланс, посмотреть новости, выбрать одежду или вообще найти вакансию.

Как работает голосовой помощник

Алиса работает на основе нейронных сетей и глубокого обучения (Deep Learning). Именно за счет этого она способна самостоятельно обучаться, а также воспринимать не только заготовленные команды, но и произвольные фразы. А благодаря технологии SpeechKit она отлично распознает речь при наличии посторонних шумов, акцента или диалекта у говорящего, использования сленговых слов.

Все ответы голосового помощника можно оценить, поставив «палец вверх» или «палец вниз». За счет этого нейросеть определяет, правильный был дан ответ или нет. Эти данные обрабатываются, и на их основе уже составляются новые алгоритмы. Чем больше вы общаетесь с Алисой, тем быстрее и лучше она обучается.

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Умение работать в контексте заключается в запоминании предыдущих реплик. На их основе голосовой помощник и ведет диалог. В результате общение получается более естественным, привычным для человека. Но «глюки» порой бывают, и Алиса может реагировать на новую голосовую реплику как на поисковый запрос.

Интересные навыки голосового помощника

Точное количество навыков Алисы неизвестно. Ассистент, конечно, дает какой-то вразумительный ответ, если ее спросить, но он неточен. Можно, кстати, посмотреть список на странице Яндекс.Диалоги или нажать по иконке рядом с меню в правом верхнем углу (которая откроет ту же страницу).

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Кстати, почти к каждому умению приложено описание, в котором указан разработчик, рейтинг, возрастное ограничение (если есть), а также способы запуска.

Все навыки подразделяются на множество категорий. Есть, конечно, топ, выбор пользователей, но он постоянно меняется. Ниже я перечислю наиболее интересные навыки Алисы для компьютера и смартфона.

Игры и развлечения

Если вам стало совсем скучно, можно посмотреть навыки из этой категории, тут есть довольно интересные варианты. Мне вот лично приглянулась игра в «Города» и «Вопросы на время».

Угадай персонажа – здесь вы загадываете любого персонажа, будь он реальным или вымышленным. По некоторым деталям и уточнениям Алиса постарается определить, кого вы загадали. Бывает, что она не отгадывает персонажа, если он не особо популярен.

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Занимательные истории – здесь вы просто диктуете подходящие слова или имена Алисе, а она по итогу выдает забавную историю. Есть множество категорий, шаблоны сортируются по знакам зодиака, по местам и всяким случаям из жизни.

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Спорт и здоровье

Голосовая помощница Яндекса также ратует за здоровый образ жизни. С ее помощью можно проводить тренировки, расшифровывать коды пищевых добавок, считать калории в разных продуктах и многое другое.

Йога для глаз – навык предлагает упражнения для тренировки зрения. Здесь главное слушать виртуального помощника и не смотреть во время занятий на экран.

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Ковид Фактор – здесь Алиса поможет оценить ваш риск заражения коронавирусом в устном тесте. Не факт, что результаты объективны, они выводятся гипотетически и в соответствии с общепринятыми мерами профилактики заболевания.

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Дыхательная гимнастика – в данном навыке собраны дыхательные упражнения. Можно выбрать несколько режимов в зависимости от желаемого результата, например, упражнения для снятия стресса, укрепления иммунитета, поддержания тонуса организма и даже для похудения.

Покупки

Совершать покупки с Алисой гораздо удобнее. Яркие примеры – составить список необходимых продуктов, получить консультацию по поводу некоторых товаров или вообще рассчитать стоимость. Особенно интересны варианты из подборки ниже.

ВкусВилл – с помощью этого умения можно найти и заказать продукты из одноименной сети с доставкой на дом. Перед заказом желательно авторизоваться, чтобы участвовать в акциях.

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

TOP-Risma – тут показываются классные подборки товаров из магазина AliExpress.

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Путешествия

Увы, но после эпидемии коронавируса многие связанные с путешествиями навыки работают не так хорошо, как хотелось бы.

Простые авиабилеты – это умение показывает авиарейсы из сервиса Aviasales, причем на самые ближайшие дни. Нужно лишь ввести в строку, откуда и куда вы собираетесь поехать. В общем, это лишь для справки, купить билет можно будет только после перехода на сайт Aviasales.

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Ozon.Travel – это не совсем навык, скорее чат с представителем сервиса. Ответ приходит довольно быстро, можно получить таким образом информацию по интересующим вопросам.

ŠKODA FAMILY – умение, предоставляющее информацию об интересных местах для путешествий. Также здесь есть квест для детей и викторина, пройдя которую можно получить приз.

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Для детей

Развлечь ребенка? Легко, особенно для Алисы! У нее в запасе куча навыков, с помощью которых можно не только скрасить минуты ожидания, но и получить полезные знания или проверить свою память. Обычными загадками тут дело не обходится…

Угадай мультфильм – Алиса включает отрывок или музыку из мультфильма, а ребенок должен отгадать его название. В этой игре можно зарабатывать опыт и кристаллы, соревноваться с другими игроками за первое место в рейтинге, а также добавлять понравившиеся песни в свою коллекцию в Яндекс.Музыке.

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

LEGO DUPLO – с помощью данного навыка можно играть с одноименным набором или отправиться в приключение. Ребенку необходимо угадывать места и предметы, а также отвечать на вопросы Алисы.

Сказки – об этом умении в свое время очень много говорили. Можно выбрать понравившийся вариант, и Алиса запустит сказку. Их читает не голосовой помощник, а звезды российской эстрады и кино. При желании можно перейти в Яндекс.Музыку к альбому, из которого воспроизводятся сказки.

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Продуктивность

Поднимаем организацию своего рабочего времени на новый уровень с навыками голосового помощника Яндекс. Если захотите, можете создать заметку или задачу, найти занятие по душе или вообще сообщить о нарушениях.

Битрикс24 Ассистент – позволяет управлять своим профилем Битрикс24 через чат с ботом. Для начала понадобится авторизоваться через свой аккаунт. Впоследствии можно создавать задачи, добавлять встречи, а также писать сообщения.

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Поиск телефона – с помощью этого навыка можно найти свой телефон. Алиса попросит указать номер телефона в международном формате. От обычного вызова это отличается тем, что голосовой ассистент запускает громкий звонок, даже если устройство находится в беззвучном режиме.

Определитель информ – позволяет узнать регион определенного номера и обслуживающего его оператора связи. Если он привязан к какой-либо организации, в ответном сообщении обязательно будет указано ее название. А если указанный телефон найдется в базах подозрительных номеров, ниже отобразится дополнительная справка.

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Бизнес и финансы

Если вы хотите рассчитать приблизительную стоимость кредита, узнать стоимость ценных бумаг или оформить страховку, то вам точно сюда.

HeadHunter – позволяет найти интересные вакансии и узнать зарплату. Вводите желаемую должность и город, выбираете понравившуюся вакансию и кликаете по ней. После этого в новом окне откроется страница hh.ru с подробными условиями трудоустройства.

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Помощник Сбербанк – официальный навык крупнейшего банка России, позволяющий узнать практически любую информацию о его деятельности. Например, можно спросить у бота, где находится ближайшее отделение.

Ак Барс Онлайн – тоже банковский сервис. Для работы с ним необходимо авторизоваться через официальное приложение. Там уже можно будет выйти на более подробные настройки и управлять своими средствами через данный чат.

Образование

Для любознательных тоже много чего предусмотрено. К примеру, можно угадывать звучание музыкальных инструментов, животных или птиц, узнавать интересные факты об окружающей среде или космосе.

Физика вокруг – тут представлен образовательный квест. Понадобится решить несколько задач для полного прохождения.

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Умный Пересказ – виртуальный помощник в этом навыке читает популярные произведения литературы. Можно искать книги по авторам, смотреть подборки, а также прослушать произведения из курса школьной программы с 5 по 11 класс.

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Аудио и подкасты

Аудиоконтент набирает все большую популярность, и Алису это тоже стороной не обошло. В отдельной категории есть куча умений, с помощью которых можно прослушивать книги, подкасты или радио, настраивать инструменты, создавать биты, делать зарядку для голоса и так далее. Я приметила для себя навык от ЛитРес, но узнала, что он, к сожалению, работает только на Яндекс.Станциях.

Зарядка для голоса – идеальный инструмент для тренировки голоса. С виртуальным ассистентом этот процесс проходит и веселее, и интереснее. Надо лишь соблюдать все указанные советы.

Настройка гитары – помогает настроить гитару. Просто называете ноту, а Алиса воспроизводит ее звучание.

Общение

Алиса не просто интересно болтает. Эта помощница также произносит тосты, дает предсказания, рассказывает анекдоты или секреты российских блогеров. Впрочем, от секретов тут только само слово.

Диалоги про Диалоги – здесь можно узнать более подробную информацию о платформе Яндекс.Диалоги. Алиса подробно расскажет о всех преимуществах этой технологии, уточнит некоторые детали касательно разработки.

Что ты знаешь о яндексе. Смотреть фото Что ты знаешь о яндексе. Смотреть картинку Что ты знаешь о яндексе. Картинка про Что ты знаешь о яндексе. Фото Что ты знаешь о яндексе

Говорящая почта – позволяет отвечать на голосовые сообщения через Алису. Работает на телефоне и Яндекс.Станции.

Заключение

Алиса уже не просто виртуальный ассистент, с которым можно весело провести время или решить какие-либо простые задачи. Благодаря тем самым умениям голосовой помощник помогает развиваться бизнесу и способствует более тесному контакту с потребителями. Сервис вышел на новый уровень, став более автоматизированным и человечным.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *