Модель латентної дифузії для обробки мовного сигналу

  • Андрій Іванюк Національний університет "Києво-Могилянська академія", факультет інформатики, вулиця Григорія Сковороди 2, Київ, Україна, 04655 https://orcid.org/0000-0002-4189-3787
Ключові слова: аудіо моделювання, штучні нейронні мережі, синтез мовлення

Анотація

Актуальність. Розробка генеративних моделей для синтезу аудіо, включаючи текст-у-мовлення (англ. text-to-speech, TTS), текст-у-музику та текст-у-аудіо застосування, значною мірою залежить від їх здатності обробляти складні та різноманітні вхідні дані. В цій роботі ми розглядаємо латентне дифузійне моделювання - універсальний підхід, який використовує стохастичні процеси для генерації високоякісних аудіо сигналів.

Мета. Це дослідження має на меті оцінити ефективність латентного дифузійного моделювання для аудіо синтезу на основі набору даних EmoV-DB, який містить записи з багатьма мовцями, з п'ятьма емоційними станами, та порівняти його з іншим генеративними методом.

Методи дослідження. Ми застосували латентне дифузійне моделювання спеціально для синтезу мовлення та оцінили його ефективність за допомогою метрик, які визначають зрозумілість, подібність голосу та збереження емоцій в згенерованому аудіо сигналі.

Результати. Дослідження показує, що запропонована модель демонструє пристойну ефективність у збереженні характеристик голосу, але поступається дискретній авторегресивній моделі: xTTS v2 за всіма оціненими метриками. Зокрема, досліджувана модель виявляє недоліки в точності класифікації емоцій, що вказує на можливе невідповідність між емоційними намірами, закодованими у векторах, та тими, що виражені у згенерованому сигналі.

Висновки. Результати вказують на те, що подальше вдосконалення здатності нейронної мережі кодувальника обробляти та інтегрувати емоційні дані покращує ефективність латентної дифузійної моделі. В наших подальших дослідженнях ми плануємо зосередитися на оптимізації балансу між характеристиками мовця та емоційними характеристиками в TTS моделях для досягнення більш цілісного та ефективного синтезу людського мовлення.

Завантаження

##plugins.generic.usageStats.noStats##

Біографія автора

Андрій Іванюк, Національний університет "Києво-Могилянська академія", факультет інформатики, вулиця Григорія Сковороди 2, Київ, Україна, 04655

Аспірант докторської школи

Посилання

/

Посилання

Опубліковано
2024-05-27
Як цитувати
Іванюк, А. (2024). Модель латентної дифузії для обробки мовного сигналу. Вісник Харківського національного університету імені В.Н. Каразіна, серія «Математичне моделювання. Інформаційні технології. Автоматизовані системи управління», 61, 44-51. https://doi.org/10.26565/2304-6201-2024-61-05
Розділ
Статті