Содержание
— Концепция — Из живого голоса в цифровой — Первые имитации человеческого голоса — Формантный и конкатенативный синтезы — Нейросети — Заключение
Концепция
Голос человека является одним из наиболее информативно насыщенных акустических сигналов, с которыми работает человеческая слуховая система. Помимо вербального содержания, он несёт в себе и другие аспекты речи — эмоциональное состояние, физиологические характеристики, намерения и идентичность. Способность воспринимать человеческую речь неосознанно формировалась эволюционно, что поспособствовало ей укорениться в нашей нервной системе.
Спектрограмма человеческого голоса в ПО «iZotope RX 11».
Последние десятилетия люди стараются разрабатывают различные методы, каким образом можно этот голос «синтезировать» — создать его эмуляцию исключительно аппаратным способом. Некоторые голоса создаются с полного нуля, для некоторых же используются уж сделанные записи голоса человека.
Подобные технологии сегодня окружают нас практически ежедневно: умные колонки и голосовые ассистенты, озвучка текстов в онлайн-переводчиках, помощь незрячим, и так далее. Мы уже научились с ними жить и можем четко определить, где и какой голос нас окружает. Более того, некоторые инструменты намеренно избегают излишнего реализма, и обращают свою искусственность в пользу. Но как именно человек определяет, настоящий ли перед ним человеческий голос, и голос ли вообще?
Первые шаги в сторону различимости человеческого голоса сделали телефонные компании. Эксперименты под руководством ученого Харви Флетчера показали, что разборчивость речи сосредоточена в узкой полосе частот — от 300 до 3400 Гц. Всё, что выходит за эти границы, вносит вклад в тембр и «живость» голоса, но не в его разборчивость для речи. Значит, именно это можно было безболезненно отрезать. Эта полоса и стала стандартом телефонной передачи.
Подобные решения были сделаны, прежде всего, ради экономии. Данный порог демонстрирует лишь удовлетворительное значение для того, чтобы отчетливо распознавать речь и её характерные черты. Впоследствии, с такой же целью, будет попытка заменить человеческий голос синтезированным во время радио-переговоров. Но всё-таки для того чтобы потреблять информацию на постоянной основе, как это происходит в наше время, нужен более качественные источники аудиальных сигналов, а для этого нужна деконструкция речи и полное понимание того, как она устроена — именно так и произошла эволюция от первых синтезаторов речи до нейросетевых инструментов.
Демонстрация устройства «Voder»
Но где предел, когда мы начинаем чувствовать себя дискомфортно от прослушивания речи? Данная работа посвящена тому, как человек идентифицирует искусственный голос от настоящего, и какие подсознательные мыслительные процессы за этим стоят. Разберу путь от первых попыток машинного и электронного воспроизведения человеческого голоса до современных нейросетевых структур, способных воссоздать его настолько близко, насколько пока позволяет технологический прогресс.
Из живого голоса в цифровой
Первыми, кто всерьёз занялся проблемой передачи звукового сигнала на расстояние, стали телефонные компании. Как и в любом другом бизнесе, их основной «товар», то есть успешно проведённый звонок — неизбежно сталкивался с определённым процентом брака. Именно с проблемой неудачных и неразборчивых переговоров компании и пытались бороться.
Александр Грэм Белл читает лекцию в Сейлеме, штат Массачусетс (сверху), в то время как его друзья в кабинете в Бостоне слушают лекцию по телефону, 12 февраля 1877 года.
Среди них особое место заняла американская Bell Telephone Company, основанная Александром Беллом в 1877 году — спустя год после того, как он запатентовал первый телефон. Компания росла стремительно и к началу XX века превратилась в телекоммуникационную монополию, слившись с дочерней AT&T. Для решения подобных инженерных задач в 1925 году было учреждено отдельное научное подразделение — Bell Laboratories. Именно оно на протяжении следующих десятилетий стало главным местом, где рождались фундаментальные технологии обработки звука.
Исследователи Уиллард Бойл (слева) и Джордж Смит в лаборатории Bell Labs в Мюррей-Хилл, штат Нью-Джерси, 1974 год
Звуковой сигнал по телефонным линиям в те годы передавался аналоговым способом, то есть непрерывными электрическими колебаниями. Главными проблемами данного способа были в ограничении количества одновременных звонков, и том, что на сверхдальних расстояниях качество принимаемого сигнала очень сильно деградировало. Происходило это из-за того, что сигнал на дальние расстояния нужно усиливать, а вместе с тем усиливается и фоновый шум, который мешал диалогу.
Первый трансатлантический телефонный кабель, завершённый в 1956 году, в месте, где он уходил на мелководье у берегов Ньюфаундленда.
Решением этих проблем стал метод PCM — Puls-Code-Modulation, или же импульсно-кодовая модуляция. Британский инженер Алек Ривс сформулировал концепцию в 1937 году, работая во французской телефонной компании. Независимо от него исследователи Bell Labs — Клод Шеннон, Бернард Оливер и Джон Пирс — развили теорию и опубликовали совместную работу «The Philosophy of PCM» в 1948 году. Принцип действует следующим образом — непрерывный сигнал с помощью АЦП (аналого-цифрового преобразователя) дробится на равные промежутки, округляется до ближайшего целого числа, чтобы эти числа добирались до абонентов без потерь.
Принцип работы PCM для записи синусоидальной волны
Однако можно было пустить ещё большее количество одновременных звонков, если сжать сигнал — выбросить из него всё лишнее, оставив лишь то, что делает голос узнаваемым. Как уже писалось выше, подобным исследованием занялся физик Харви Флетчер, который выделил частотный диапазон для разборчивой речи во время телефонного разговора — от 300 до 3400 Гц.
Наглядное представление диапазона частот от 300 до 3000 Гц.
Первые имитации человеческого голоса
Исследуя человеческий голос и его разборчивость, в 1939 году инженеры Bell Labs представили устройство под названием VODER (сокр. Voice Operating Demonstrator) — первый электронный синтезатор речи. В нём не было никаких предзаписанных звуков, вместо этого оператор управлял им вручную с помощью клавиатуры и педалей, словно на обычном синтезаторе. Звук, имитирующий речь, формировался из двух составляющих: шума и тонального сигнала. И если первый служил для того чтобы имитировать дыхание и шипящие, то второй формировал гласные звуки.
Результат звучал механически и жутковато — тембр не менялся в течении одного слога или даже фонемы. Такая речь человеком подсознательно не воспринимается за настоящую. Различить слова, конечно, абсолютно реально, но вместе с тем появляется и ощущение тревоги. В поп-культуре подобному феномену приписывают название Uncanny Valley, или же «Зловещая Долина». Такое понятие ввёл робототехник Масахиро Мори, опубликовав работу 不気味の谷現象 (bukimi no tani genshō). Эффект заключается в том, что при определенном уровне антропоморфности робота, от них в голове появляется жуткий дискомфорт. Если приводить параллели с левым графиком, то в сфере психоакустики подобно промышленному роботу выступает обычный синтезатор, который воспроизводит ноты. VODER же подпадает под категорию «зомби», пытаясь походить на человека, но исключив всякую эмоциональность.
С подобной проблемой будут сталкиваться и многие последующие проекты, но на момент 1939 года это был настоящий прорыв. Инструмент умел воспроизводить не только едва различимые слова, но и интонационные выделения. Параллельно с этим в той же Bell Labs разрабатывался прибор с противоположной задачей — Vocoder (сокр. Voice Coder).
Вокодер HY-2 — военное устройство эпохи Вьетнамской войны.
Вокодер разрабатывался с той же целью, c какой проводились и эксперименты Флетчера — экономия ресурсов. Гомер Дадли предложил подход, который предполагал не передавать сам сигнал, а передавать описание этого сигнала. Вокодер разбивал входящий голос на набор частотных полос и измерял уровень энергии в каждой из них — получался своего рода мгновенный «слепок» спектра, и именно эти данные уходили по линиям, и преобразовывались уже на устройстве адресата.
Терминалы аппарата SIGSALY
Практическое применение вокодер нашел во время Второй Мировой Войны, где система SIGSALY на основе оного помогала выстраивать зашифрованную коммуникацию. Результат был узнаваем, но лишён всяких человеческих черт. Происходило это потому, что информация об основном тоне голоса в процессе намеренно отбрасывалась как несущественная для разборчивости. Эта «дегуманизация» звука впоследствии сделала вокодер популярным музыкальным инструментом — характерный «роботизированный» тембр стал узнаваемым приёмом в электронной музыке.
Формантный и конкатенативный синтезы
Положение формант девяти гласных звуков бенгальского языка для одного диктора.
После войны технология начала развиваться в академической среде. Вокодер научил инженеров описывать голос через параметры — форманты. Формантами, по сути, являются главные резонирующие частоты для каждой гласной фонемы. Именно это позволяет человеческому уху отличать [а] от [и]. Эта идея легла в основу формантного синтеза.
На симпозиуме «Инженерные приложения анализа и синтеза речи», проходившем в MIT 2–3 ноября 1953 года: Уолтер Лоуренс, профессор Мартин У. Эссигманн и доктор Джозеф К. Р. Ликлайдер
В 1953 году британский учёный Уолтер Лоуренс создал PAT (Parametric Artificial Talker) — первый параллельный формантный синтезатор. Управление им было устроено необычно: на стеклянный слайд наносились нарисованные паттерны, которые сканировались лучом катодно-лучевой трубки. Таким образом задавались три формантные частоты, основной тон и признак звонкости. Набор настраиваемых фильтров формировал из генерируемого сигнала форманты — резонансные пики в спектре, которые и определяют, какой именно звук мы слышим. Меняя параметры фильтров, машина могла переходить от одного гласного к другому.
Схема работы PAT
К этому моменту все синтезаторы речи требовали участия человека — оператора, задававшего параметры вручную. Следующий шаг сделали японские исследователи Рёдзи Тэраниси и Норика Умеда: в 1968 году они создали первую полноценную систему синтеза текста в речь на основе артикуляционной модели. Система самостоятельно разбирала входной текст, расставляла паузы и делила длинные предложения на «дыхательные группы» — фрагменты, разделённые естественными остановками. Голос оставался монотонным и далёким от живой речи, однако принципиальный сдвиг состоял в другом: между текстом и звуком впервые не стоял человек. Впоследствии эти правила анализа текста были доработаны и легли в основу TTS-системы Bell Laboratories 1973 года.
Следующий качественный скачок произошёл в 1980-х годах с появлением конкатенативного синтеза. Вместо того чтобы генерировать звуки математически, новый подход строился на противоположной идее: записать реальный человеческий голос и разбить запись на мельчайшие единицы — фонемы и дифоны. Первую систему такого рода представил японский исследователь Ёсинори Сагисака в 1988 году, а в 1996 году Эндрю Хант и Алан Блэк формализовали метод, который лёг в основу всех последующих конкатенативных систем. Это позволило добиться значительно более естественного звучания: слуховая система получала реальные акустические паттерны живой речи, а не их математическое приближение.
Схема работы конкатенативного синтеза речи на примере фразы «Окей Гугл»
Нейросети
К 2016 году нейронные сети уже радикально изменили компьютерное зрение и обработку текста — однако синтез речи по-прежнему опирался на методы, почти не изменившиеся с 1980-х. WaveNet, представленный командой DeepMind в сентябре того же года, закрыл этот разрыв. Вместо того чтобы собирать речь из фрагментов или генерировать её по правилам, нейросеть обучалась непосредственно на форме звуковой волны, предсказывая каждый следующий сэмпл на основе всех предыдущих. Впервые синтезированный голос получил оценку слушателей, вплотную приблизившуюся к живой речи. Ниже представлено сравнение технологии WaveNet в сравнении с конкатенативным синтезом (Первый образец — конкатенативный, затем чередуются).
Это стало большим прорывом в сфере TTS технологий. В сравнении с конкатенативным синтезом, у WaveNet упоминавшийся ранее эффект «Зловещей Долины» заметен куда меньше, но он не пропал полностью. Следующим шагом Google стал Tacotron, представленный в 2017 году: модель принимала текст и генерировала мел-спектрограмму — компактное описание спектра речи во времени, — которую затем озвучивал нейронный вокодер. В версии Tacotron 2 (2018) качество синтеза оценивалось по шкале MOS (Mean Opinion Score) — средний балл слушателей по пятибалльной шкале натуральности звучания. Результат составил 4.53 — при 4.58 у профессиональных студийных записей.
Архитектура Tacotron 2 на примере блок-схем.
В 2021 году исследователи Jaehyeon Kim, Jungil Kong и Juhee Son из Kakao Enterprise представили VITS — модель, устранившую главный недостаток Tacotron. До этого синтез речи был двухэтапным: сначала текст преобразовывался в спектрограмму, затем вокодер превращал её в звук. Каждый этап накапливал свои ошибки. VITS объединил оба процесса в одну сквозную модель, обучаемую целиком — от текста до звуковой волны. Это позволило синтезировать более естественную просодию и разнообразные ритмические паттерны речи. Ниже продемонстрировано обучение VITS на японском языке.
Следующим поколением стали диффузионные модели, применённые к синтезу речи в 2021–2022 годах. Принцип их работы координально отличается от всех предшественников: модель обучается не генерировать сигнал напрямую, а постепенно восстанавливать его из случайного шума — шаг за шагом, итерационно убирая «помехи» до тех пор, пока не получается осмысленный звук. Такая модель, конечно, не в состоянии определить «осмысленность» звука, однако в этом ей помогает человек, указывая число таких итераций. Этот подход, заимствованный из генерации изображений, позволил значительно улучшить естественность разнообразие интонационных паттернов.
На слух это выразилось в первую очередь в улучшении просодии: голос стал звучать менее предсказуемо и ровно — появилась вариативность интонации, приближающая синтез к живой речи. Очень интересная вещь заключается в предоставленном выше куске рекламного ролика от компании ElevenLabs. В нём модель с поразительной точностью разговаривает на японском языке с устойчивым американским акцентом. Исследования показали, что диффузионные модели демонстрируют более высокую устойчивость к артефактам даже при зашумлённых обучающих данных по сравнению с Tacotron 2 и VITS.
Параллельно с диффузионными моделями развивался принципиально иной подход — нейронные аудиокодеки. EnCodec (2022) и DAC (2023) решали задачу сжатия голоса: кодировали звуковой сигнал в компактную последовательность токенов и восстанавливали его обратно. Именно на этой технологии построены современные системы клонирования голоса таких компаний как Microsoft с их проектом VALL-E, и, уже упомянутой выше, ElevenLabs. Кодеки оставляют характерный класс артефактов: при восстановлении сигнала из токенов возникают временны́е несоответствия, неестественные тембральные сдвиги и перцептивные «галлюцинации» — артефакты, принципиально отличающиеся от тех, что порождают классические вокодеры.
Появление этих артефактов связанно с тем, что каждая архитектура оставляет в мел-спектрограмме характерную «подпись» — специфические следы, возникающие в процессе восстановления звуковой волны. Чэнчжэ Сунь и его коллеги из Университета Буффало показали, что эти следы достаточно стабильны, чтобы по ним идентифицировать конкретный вокодер — даже без знания о синтезированном тексте. Однако для человека подобные артефакты заметны только при ошибке модели, и тем самым, люди уже с большим трудом отличали подобную речь от реальной, приблизившись к уровню человека.
Заключение
Развитие синтеза речи показывает, как менялось понимание человеческого голоса и способов его восприятия. От первых экспериментов Bell Labs и механических синтезаторов вроде VODER технологии постепенно перешли к нейросетям, обучающимся непосредственно на человеческой речи. Каждый новый этап — формантный, конкатенативный и нейросетевой синтез — пытался решить одну и ту же задачу: сделать искусственный голос более естественным и уменьшить ощущение его «искусственности» для слушателя.
Bell Labs, Клиффвуд, NJ, 1928–1929 годы. Стоят слева направо: К. Р. Энглунд, Л. Р. Лоури, А. К. Бек, У. Матч, К. Б. Фельдман, Х. Т. Фриис. Сидят слева направо: М. Коллинз, С. Э. Рид, А. Б. Кроуфорд,
Несмотря на огромный прогресс, современные TTS-системы всё ещё не избавились от характерных артефактов и эффекта «зловещей долины» полностью. Человек воспринимает речь не только как набор слов, но и как сложную совокупность тембра, интонации, ритма и микроскопических изменений звука. Именно поэтому даже самые современные модели оставляют ощущение отличия от живого голоса, хотя граница между синтезированной и настоящей речью с каждым годом становится всё менее заметной.
Aaron van den Oord A., Dieleman S., Zen H. et al. WaveNet: A Generative Model for Raw Audio // arXiv. — 2016. — URL: https://arxiv.org/abs/1609.03499 (дата обращения: 21.05.2026).
Shen J., Pang R., Weiss R. J. et al. Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — 2018. — URL: https://research.google/pubs/natural-tts-synthesis-by-conditioning-wavenet-on-mel-spectrogram-predictions (дата обращения: 24.05.2026).
Hunt A. J., Black A. W. Unit Selection in a Concatenative Speech Synthesis System Using a Large Speech Database // Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — 1996. — Vol. 1. — P. 373–376. — DOI: 10.1109/ICASSP.1996.541110.
Klatt D. H. Review of Text-to-Speech Conversion for English // Journal of the Acoustical Society of America. — 1987. — Vol. 82, № 3. — P. 737–793.
Kim J., Kong J., Son J. Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech // Proceedings of the 38th International Conference on Machine Learning (ICML). — 2021. — URL: [PMLR Proceedings](https://proceedings.mlr.press/v139/kim21f.html) (дата обращения: 23.05.2026).
https://upload.wikimedia.org/wikipedia/commons/5/50/Bell_System_hires_1889_logo.PNG nypldigitalcollections5e66b3e8-faf1-d471-e040-e00a180654d7001w.jpg
https://static01.nyt.com/images/2012/02/26/opinion/26belllabs_ss-slide-VU5T/26belllabs_ss-slide-VU5T-jumbo.jpg https://cdn1.byjus.com/wp-content/uploads/2021/05/pulse-code-modulation-image-1.png
https://www.youtube.com/watch?v=xJJ6R_BkWEI https://user-images.githubusercontent.com/92853025/211725213-45c4fbad-b257-414c-ac1b-3f461f869cc9.png https://www.microsoft.com/en-us/research/wp-content/uploads/2023/06/VALLE2.jpg