Синтезированные голоса, такие же уникальные, как и отпечатки пальцев

41c926d7412d2fedb89a90a55dafa00759ccf259_1600x1200

Многие люди с тяжёлыми нарушениями речи пользуются компьютеризированными устройствами для общения. Но они выбирают всего из нескольких вариантов голоса. Поэтому у Стивена Хокинга был американский акцент, а множество людей обладают одинаковыми голосами, часто с нелепым эффектом. Рупал Патель, исследователь голоса и речи, захотела что-то с этим сделать, и в своём восхитительном выступлении она делится своей работой по проектированию уникальных голосов для немых.

Сегодня мне бы хотелось поговорить о значительном и существенном аспекте того, кем мы являемся: о голосе. Каждый из нас обладает уникальным отпечатком голоса, отражающим возраст, пропорции, даже стиль жизни и личность.

Словами поэта Лонгфелло: «Голос человека есть орган его души». Как учёный-лингвист, я восхищена тем, как возникает голос, и у меня есть идея, как голос может быть спроектирован. Вот, чем бы мне хотелось с вами поделиться. Начну с проигрывания образца голоса, который вы можете узнать. (Запись) Стивен Хокинг: «Я бы подумал, что было довольно очевидно то, что я имел в виду». Рупал Патель: Это был голос профессора Стивена Хокинга. Вы можете не знать, что тот же голос может быть использован вот этой девочкой, которая не может говорить из-за неврологического нарушения.

На деле, все эти люди могут использовать один и тот же голос, потому что есть всего лишь несколько доступных вариантов. Только в США живут 2,5 миллиона американцев, которые не могут говорить, и множество из которых пользуются компьютеризированными устройствами для общения. Это миллионы людей по всему миру, применяющие универсальные голоса, включая профессора Хокинга, который использует голос с американским акцентом. Вот эта нехватка индивидуальности синтезированного голоса по-настоящему задела меня за живое, когда я была на конференции по вспомогательным технологиям пару лет назад.

Я вспоминаю, как зашла в выставочный зал и увидела беседующих маленькую девочку и взрослого мужчину с помощью своих устройств — разных устройств, но с тем же голосом. Я огляделась вокруг и увидела, что все так делают. Буквально сотни людей, использующих горстку голосов — голосов, не подходящих их телам или их личностям. Мы бы и не подумали на маленькую девочку подгонять протез взрослого мужчины. Почему же тогда один и тот же искусственный голос? Меня это поразило, и мне захотелось что-то с этим сделать. Сейчас я проиграю вам образец аудио человека, у которого — вообще-то два человека — у которых есть тяжёлые нарушения речи. Хочу, чтобы вы послушали, как звучат их голоса. Они говорят одно и то же. (Первый голос) (Второй голос)

Вероятно, вы не поняли, что они сказали, но я надеюсь, вы услышали их уникальные вокальные индивидуальности. Следующим шагом мне захотелось найти, как можно приспособить эти остаточные вокальные способности и создать технологию, которую можно будет настроить под них, голоса, которые могут быть настроены под них. Я связалась с моим коллегой — Тимом Баннеллом. Доктор Баннелл — эксперт в синтезе речи. Он занимался созданием персонифицированных голосов для людей, соединяя записанные заранее образцы их голосов и воспроизводя заново их голос. Это для тех людей, кто потерял возможность говорить в какой-то момент своей жизни. У нас не было такой роскоши, как заранее записанные образцы речи для тех, кто родился с нарушениями речи.

Но я думала, что должен быть способ обратной разработки голоса из того малого, что осталось. Мы решили именно это и делать. Мы начали с небольшого гранта от Национального Научного Фонда, чтобы создать специально разработанные под конкретных людей голоса, которые улавливали уникальность их вокальной индивидуальности. Мы называем этот проект VocaliD, или vocal I.D., что означает «вокальная индивидуальность». Прежде чем я окунусь в детали того, как создаётся голос и дам вам его прослушать, позвольте сначала краткую лекцию о речи. Хорошо? Во-первых, мы знаем, что голос радикально меняется в процессе развития. Дети звучат иначе, нежели подростки, голоса которых отличаются от взрослых. У всех у нас есть этот опыт. Факт номер два: речь — это сочетание источника, коим являются вибрации, производимые гортанью, которые далее проходят сквозь остальной речевой тракт. Это те участки в голове и шее, которые вибрируют, и они фильтруют звук от источника, чтобы образовывать гласные и согласные. Сочетание источника и фильтра — это то, как мы генерируем речь. И всё это происходит в каждом отдельном человеке.

Ранее я говорила вам, что провела добрую часть моей карьеры, пытаясь понять и изучить исходные характеристики людей с тяжёлыми нарушениями речи, и я обнаружила, что даже несмотря на то, что их фильтры были повреждены, они могли модулировать свой источник: высоту, громкость, темп своего голоса. Их называют «просодиями». Я документально подтверждала в течение нескольких лет, что просодические способности этих людей сохранены. Когда же я поняла, что те же самые стимулы важны и для индивидуальности говорящего, у меня появилась идея. Почему бы не взять источник от человека, голос которого мы хотим воссоздать, ибо он сохранен, и позаимствовать фильтр у кого-то, кто схож по пропорциям и возрасту, владеющего членораздельной речью, а затем смешать их? Ведь, когда мы их смешиваем, мы можем получить голос, настолько же чистый, как и голос нашего суррогатного носителя голоса — того человека, у которого мы позаимствовали фильтр — и совпадает с индивидуальностью нашего целевого владельца голоса. Вот так просто. Таков научный фон нашей работы.

Как только эта идея появилась, что делать дальше для создания такого голоса? Придётся найти кого-то, кто захочет стать суррогатом. Не такая уж и зловещая вещь. Чтобы быть суррогатным донором, вам только нужно произнести от нескольких сотен до нескольких тысяч шаблонных фраз. Процесс происходит примерно вот так. (Видео) Голос: Всё имеет пару. Я люблю спать. Небо голубое и без облаков. Рупал Патель: Вот так она и будет продолжать в течение порядка 3—4 часов, и идея не в том, чтобы сказать всё, что целевой владелец захочет сказать, а просто охватить все различные сочетания звуков, которые существуют в языке. Чем больше речевой информации у вас есть, тем лучший по звучанию голос получится. Как только такие записи созданы, следующее, что нужно сделать, это разобрать эти записи на маленькие фрагменты речи — сочетания одного—двух звуков, иногда даже целые слова, — которые начнут заполнять набор данных, или базу данных.

Мы будем называть эту базу данных «банк голоса». Сила этого банка голоса в том, что из него теперь мы можем создать любые новые фразы, например, «Я люблю шоколад» — каждому нужно уметь это сказать. Покопайтесь в этой базе данных и найдите все необходимые сегменты, чтобы сказать эту фразу. (Видео) Голос: Я люблю шоколад. Рупал Патель: Это синтез речи. Называется «конкатенативный синтез», и это то, с чем мы работаем. Это не новая часть. А новое в том, как мы делаем так, чтобы голос звучал, как эта молодая женщина. Это Саманта. Я встретила её, когда ей было 9 лет, и с тех пор я и моя команда пытались создать для неё персонифицированный голос. Сначала нам нужно было найти суррогатного донора, а затем — дать Саманте воспроизвести несколько шаблонных фраз. То, что она может произнести, в большинстве своём звучит, как звуки гласных, но нам этого достаточно, чтобы выявить её исходные характеристики. То, что происходит потом, лучше всего описано аналогией моей дочери. Ей 6 лет. Она называет это «смешением цветов, чтобы рисовать голоса». Это красиво. Это именно так.

Голос Саманты — как концентрированный образец красного пищевого красителя, который мы можем «влить» в записи её суррогата, чтобы получился «розовый голос». Вот такой. (Видео) Саманта: Ааааааааа. Рупал Патель: Сейчас Саманта может сказать вот это. (Видео) Саманта: Этот голос — только для меня. Не дождусь попробовать мой новый голос с друзьями. Рупал Патель: Спасибо. (Аплодисменты) Никогда не забуду мягкую улыбку, появившуюся на её лице, когда она впервые услышала этот голос. Миллионы таких людей по всему миру, как и Саманта. Миллионы. И мы только делаем первые шаги. К настоящему моменту у нас есть несколько суррогатных носителей голоса из США, которые дали свои голоса, и мы их использовали, чтобы создать несколько наших первых персонифицированных голосов. Но так ещё много работы предстоит сделать. Суррогат Саманты — со Среднего Запада, незнакомец, который наделил её даром голоса. Как учёный, я так взволнована тем, чтобы вынести эту работу за пределы лаборатории, наконец-то, в реальный мир, чтобы она по-настоящему внесла свой вклад в него.

Далее хочу поделиться с вами тем, как я представляю себе продвижение этой работы на следующий уровень. Я представляю целый мир суррогатных доноров из разных профессий, разных пропорций и возраста, объединяющихся в таком «драйве голоса» с целью дать людям голоса, которые настолько же красочны, как и их личности. Чтобы сделать это, для начала мы создали веб-сайт, VocaliD.org, как способ собрать тех, кто хочет присоединиться к нам в качестве доноров голоса, доноров компетенции, чтобы каким-либо образом сделать это видение реальностью. Говорят, что донорство крови может спасти жизни. Что же, донорство вашего голоса может изменить жизни. Всё, что нужно, — это пара часов речи от суррогатного носителя голоса, и всего-навсего гласная от целевого владельца голоса, чтобы создать уникальную вокальную индивидуальность. Таков научный фон наших действий.

Хочу закончить, обратившись вновь к человеческому, что по-настоящему является вдохновением для этой работы. Около 5 лет назад мы создали наш первый голос для маленького мальчика по имени Вильям. Когда его мама впервые услышала его голос, она сказала: «Так бы звучал голос Вильяма, если бы он мог говорить». А потом я увидела Вильяма, набирающего сообщение на своём устройстве. Я заинтересовалась, о чём он думал? Представьте, таскаться с чьим-то чужим голосом в течение 9 лет и, наконец-то, найти свой собственный. Представьте это. Вот, что сказал Вильям: «Никогда раньше себя не слышал».

Спасибо. (Аплодисменты)

Источник: http://www.ted.com



There are no comments

Add yours

*