История речевого синтеза на Geograffee

Концепция работы

Речь — основной способ коммуникации между людьми. Уже несколько столетий человечество занимается проблемой искусственного воссоздания речи. И хотя сейчас голосовые помощники — это обыденность, синтез речи с помощью нейросетей был разработан и опубликован всего 9 лет назад. До этого момента синтезированная речь звучала совершенно иначе. Цель работы — продемонстрировать эти отличия визуально и аудиально и обзорно проследить историю развития речевого синтеза как явления. Речевые синтезаторы крайне разнообразны. Их особенности и различия вполне естественно обусловлены их эпохами и областями применения, их интересно изучать не только визуально, но и аудиально, ведь помочь понять их внутреннее устройство может не только то, как они выглядят — но и как они звучат. К сожалению, не все приведенные в работе экспонаты сохранили свое звучание в открытом доступе, но мы постарались для большинства из них добавить аудио пример. Каждый подвид речевого синтеза при создании был ограничен технологиями своей временной эпохи, поэтому в данной работе мы будем рассматривать историю развития речевого синтеза в хронологическом порядке: акустико-механический синтез, электронно-механический, электронный и с помощью глубинного обучения. Основными метриками качества речевого синтеза являются разборчивость речи и насколько естественно она звучит, за высокий уровень обеих этих метрик изобретатели боролись при разработке новых методов синтеза. Также мы рассмотрим, как и в каких областях применялся и применяется речевой синтез на практике. В данной работе в меньшей степени будет рассматриваться конкатенативный способ формирования речи (складывания слов в предложения), так как это не совсем синтезирование звука, если выражаться более музыкальными терминами, то это больше сэмплирование, нежели синтез. Пример такого «сэмплирования» — система анонсов в аэропортах и вокзалах, где заранее предзаписываются определенные часто повторяющиеся слова (цифры и названия городов) и затем из этих записей складываются фразы. Результат работы таких систем, как правило, — это разборчивая и высококачественная запись речи. Однако эти системы ориентированы на свою предметную область и крайне негибкие, ведь они не могут воспроизвести произвольный текст.

В дальнейших планах работы — создать интерактивную онлайн выставку, на которой каждый желающий сможет опробовать разные речевые синтезаторы из разных эпох. Такая выставка станет точкой входа для погружающихся в эту тему, а также сохранит историю и сможет ее воспроизводить.

Речь — основная форма коммуникация между людьми

Речевой синтез — искусственное создание человеческой речи. Синтетическую речь можно получить путем складывания кусочков уже записанного голоса, с помощью искусственного интеллекта или моделируя работу голосовых связок и другие физиологические процессы для создания полностью искусственного звука.

Первая попытка искусственной имитации человеческого голоса была произведена немецким ученым Христианом Кратценштайном в Санкт-Петербурге в 1779 году. Он объяснил физиологическую разницу между пятью гласными долгими звуками (в международной нотации [aː], [eː], [iː], [oː] and [uː]) и создал аппарат, имитирующий их звучание. Он сконструировал акустические резонаторы, напоминающие человеческий голосовые связки, и приводил их в действие вибрирующими язычками, как в музыкальных инструментах.

Акустико-механическая речевая машина

Австрийский изобретатель Вольфганг фон Кемпелен представил свою «акустико-механческую речевую машину» в Вене в 1791 году, кроме гласных звуков она могла воспроизводить и согласные. Вольфганг получил известность после создания шахматного автоматона, который впоследствии оказался трюком, иллюзией, за это он подвергся критике в научном сообществе и к его речевой машине незаслуженно отнеслись также несерьезно. Выше изображена версия этой машины, придуманная английским физиком Чарльзом Уитстоуном в середине XIX века.

Первым электро-механическим устройством, которое можно назвать синтезатором речи, стал VODER (Voice Operating Demonstrator), представленный Хомером Дадли на выставке New York World’s Fair в Нью-Йорке в 1939 году. VODER был вдохновлен VOCODER (Voice Coder), разработанным в Bell Laboratories в середине 1930-х. VODER состоял из наручного рычага для выбора источника голоса или шума и ножной педали для управления фундаментальной частотой. Исходный сигнал пропускался через десять полосовых (bandpass) фильтров, выходные уровни которых регулировались пальцами. Для воспроизведения целых предложений на этом устройстве пользователю требовался хорошо наработанный навык — управляться таким аппаратом являлось непростой задачей. Тем не менее данное изобретение является proof-of-concept — доказательством того, что синтез речи вполне реален, и что не менее важно — вполне реален синтез разборчивой речи.

voder

1 мин

Форманты — спектральные пики речевого тракта человека. Синтез формант — это использование резонансных фильтров над первоначальным источником звука для извлечения этих самых формант. Первый синтезатор формант, PAT (Parametric Artificial Talker), был представлен Уолтером Лоуренсом в 1953 году. PAT состоял из трех электронных резонаторов формант, соединенных параллельно. Входным сигналом был либо гул, либо шум. Этот синтезатор позволял управлять частотами трех формант, фундаментальной частотой и громкостью сигнала.

PAT

1 мин

Примерно в то же время Гуннар Фант, шведский инженер, представил первый формантный синтезатор каскадного типа — OVE I (Orator Verbis Electris), который состоял из формантных резонаторов, соединённых последовательно.

OVE III

OVE

1 мин

Ниже приведен пример того, какого реализма можно достичь с помощью подобного синтезатора, в данном примере на синтезаторе OVE второго поколения сгенерированы фразы на английском языке: «I enjoy the simple life» и «He knows just what he wants». В аудиофайле эти фразы озвучены человеком и синтезатором, можно попробовать угадать, что из этого результат работы машины, а что сказал человек.

OVE II

1 мин

В 1968 в Электротехнической Лаборатории в Японии Норико Умеда и его команда разработали первую полностью автоматизированную Text-to-Speech систему, которая из текста, передаваемого в систему в качестве входных данных, воспроизводила аудио с человекоподобоной речью. Система могла распознавать и воспроизводить английский язык. Эта разработка — одна из прорывных работ в сфере компьютерного синтеза речи.

Noriko Umeda's Text-to-Speech system

1 мин

С развитием индустрии персональных компьютеров в 80-х годах технологии синтеза речи пришли в дома пользователей вместе с этими компьютерами, ниже приведены примеры того как это звучало.

ATARI ST

Atari ST says Hello to HSE

1 мин

Одним из самых популярных коммерческих ПО с синтезом речи в 80-е года является программа SAM, Software Automatic Mouth разработанная компанией Don’t Ask Computer Software в 1982 году. Эта программа поддерживалась на самых популярных моделях персональных компьютеров того времени: Apple, Commodore 64 (C64), Atari и пр.

Commodore 64

Исходный размер 640x447

SAM says Hello to HSE

1 мин

Данный синтезатор можно опробовать самостоятельно, перейдя по ссылке ниже.

SAM

Со стремительным развитием глубинного обучения появилось и множество генеративных моделей, способных за счет обучения на большом объеме данных генерировать речь, звучащую естественно и разборчиво. В 2016 году лаборатория DeepMind, принадлежащая Google, разработала свою модель WaveNet, и хотя поначалу ее считали слишком вычислительно затратной и медленной для использования в пользовательских продуктах, уже через год DeepMind представила модифицированную версию — Parallel WaveNet, продакшн модель, работавшую в 1000 раз быстрее оригинала.

Исходный размер 1440x810

WaveNet demo

1 мин

Ниже пример того, как звучат TTS модели от Microsoft AI

Microsoft AI demo 1

1 мин

Microsoft AI demo 2

1 мин

Применение речевого синтеза

Речевой синтез широко распространяется в медиа и индустрии развлечения, одним из ярких примеров являются говорящие шахматы Fidelity Voice Chess Challenger (1979)

Исходный размер 1200x583

Stratovox — аркадная видеоигра, выпущенная в 1980 году, первая в своем роде, содержащая речевой синтез. Суть игры — стрелять по НЛО, чтобы те не могли украсть астронавтов, которые как раз и озвучены с помощью речевого синтеза.

В современных играх также используется речевой синтез, но уже использующий искусственный интеллект. И хотя широкая аудитория скептически относится к сгенерированному ИИ контенту в видеоиграх, некоторые разработчики открыто заявляют, что используют озвучку сгенерированную с помощью ИИ в целях сокращения расходов бюджета, например Embark Studios со своими релизами The FINALS (2023) и Arc Raiders (2025), в которых искусственный интеллект «озвучил» неигровых персонажей (NPC).

Речевой синтез на основе ИИ также широко применяется для озвучивания книг, дубляжа кино и видео, перевод трансляций и прочего.

Синтез речи — технология, помогающая людям с ограниченными возможности в быту. Например, с помощью Text-to-Speech систем в персональных девайсах слабовидящие могут прослушать любой текст: номер телефона входящего звонка, текст сообщения, информация на сайте и другая утилитарная информация, необходимая для использования устройства. Такие возможности стали появляться благодаря распространению технологии и ее внедрению в операционные системы в 90-х и нулевых.

Telesensory Systems Inc. Speech+ — переносной калькулятор для слабовидящих (1976)

Компьютер и речевой синтезатор, использованный Стивеном Хокингом в 1999 году

Клонирование голоса

Новая веха в развитии нейросетей привела и к новому явлению — дипфейк. Дипфейк — это подделывание аудио или видео с помощью глубинного обучения. Хотя очевидно, что этически это явление неоднозначно, так как легко может быть использовано для социальной инженерии злоумышленниками в целях мошенничества, оно может и приносить пользу, например для воссоздания речи исторических личностей, усопших друзей и родственников или в юмористических и развлекательных целях.

Библиография

http://research.spa.aalto.fi/publications/theses/lemmetty_mst/chap2.html

https://www.synthtopia.com/content/2016/04/12/synthetic-sound-labs-recreates-1939-voder-talking-machine/

https://speechandtech.eu/files/articles/Speech_synthesis_and_recognition-Holmes.pdf

Источники изображений

http://research.spa.aalto.fi/publications/theses/lemmetty_mst/chap2.html

https://publicdomainreview.org/essay/early-androids-and-artificial-speech

https://artsandculture.google.com/story/the-%E2%80%9Ckempelen%E2%80%9D-speaking-machine-leibniz-association/2QUB7hLe64FKJA?hl=en

https://www.flickr.com/photos/internetarchivebookimages/14753014191/

https://www.synthtopia.com/content/2016/04/12/synthetic-sound-labs-recreates-1939-voder-talking-machine/

https://www.google.com/url?sa=i&url=https%3A%2F%2Fwww.ebay.com%2Fitm%2F224986854066&psig=AOvVaw2zuqzb96cn25Y784SlFtc3&ust=1764894553954000&source=images&cd=vfe&opi=89978449&ved=0CBgQjhxqFwoTCJDqgNzWopEDFQAAAAAdAAAAABAE

https://upload.wikimedia.org/wikipedia/commons/0/06/Fidelity_Chess_Challenger_Voice.jpg