Модель латентної дифузії для обробки мовного сигналу
Анотація
Актуальність. Розробка генеративних моделей для синтезу аудіо, включаючи текст-у-мовлення (англ. text-to-speech, TTS), текст-у-музику та текст-у-аудіо застосування, значною мірою залежить від їх здатності обробляти складні та різноманітні вхідні дані. В цій роботі ми розглядаємо латентне дифузійне моделювання - універсальний підхід, який використовує стохастичні процеси для генерації високоякісних аудіо сигналів.
Мета. Це дослідження має на меті оцінити ефективність латентного дифузійного моделювання для аудіо синтезу на основі набору даних EmoV-DB, який містить записи з багатьма мовцями, з п'ятьма емоційними станами, та порівняти його з іншим генеративними методом.
Методи дослідження. Ми застосували латентне дифузійне моделювання спеціально для синтезу мовлення та оцінили його ефективність за допомогою метрик, які визначають зрозумілість, подібність голосу та збереження емоцій в згенерованому аудіо сигналі.
Результати. Дослідження показує, що запропонована модель демонструє пристойну ефективність у збереженні характеристик голосу, але поступається дискретній авторегресивній моделі: xTTS v2 за всіма оціненими метриками. Зокрема, досліджувана модель виявляє недоліки в точності класифікації емоцій, що вказує на можливе невідповідність між емоційними намірами, закодованими у векторах, та тими, що виражені у згенерованому сигналі.
Висновки. Результати вказують на те, що подальше вдосконалення здатності нейронної мережі кодувальника обробляти та інтегрувати емоційні дані покращує ефективність латентної дифузійної моделі. В наших подальших дослідженнях ми плануємо зосередитися на оптимізації балансу між характеристиками мовця та емоційними характеристиками в TTS моделях для досягнення більш цілісного та ефективного синтезу людського мовлення.
Завантаження
Посилання
/Посилання
Y. Wang et al. Tacotron: Towards End-to-End Speech Synthesis. Interspeech 2017. ISCA: ISCA, 20-24 August 2017, Stockholm, Sweeden, 2017, p. 4006-4010
J. Shen et al. Natural TTS synthesis by conditioning wavenet on MEL spectrogram predictions. 2018 IEEE international conference on acoustics, speech and signal processing (ICASSP), 15–20 April 2018, Calgary, AB, Canada, 2018, p. 4779-4783
Taigman Y. Voiceloop: Voice fitting and synthesis via a phonological loop, 2018 (Preprint Arxiv:1707.06588)
Lee Y. Emotional end-to-end neural speech synthesizer, 2017 (Preprint Arxiv: 1711.05447)
Y. Wu, K. Chen, T. Zhang, Y. Hui, T. Berg-Kirkpatrick and S. Dubnov. Large-Scale contrastive language-audio pretraining with feature fusion and keyword-to-caption augmentation. ICASSP 2023 - 2023 IEEE international conference on acoustics, speech and signal processing (ICASSP), 4–10 June 2023, Rhodes Island, Greece. 2023
W.-N. Hsu et al. HuBERT: self-supervised speech representation learning by masked prediction of hidden units. IEEE/ACM transactions on audio, speech, and language processing. 2021. vol. 29. p. 3451–3460.
S. Chen et al. WavLM: large-scale self-supervised pre-training for full stack speech processing. IEEE journal of selected topics in signal processing. 2022. Vol. 16, p. 1505–1518.
Chen N. Wavegrad: Estimating gradients for waveform generation. International Conference on Learning Representations (ICLR), 2020.
Kong Z. Diffwave: A versatile diffusion model for audio synthesis. International Conference on Learning Representations (ICLR), 2021.
Chen M. An overview of diffusion models: Applications, guided generation, statistical rates and optimization, 2024 (Preprint Arxiv: 2404.07771)
Wang C. Neural codec language models are zero-shot text to speech synthesizers, 2023 (Preprint Arxiv: 2301.02111)
Ren Y. Fastspeech: Fast, robust and controllable text to speech. Advances in Neural Information Processing Systems 32 (NeurIPS 2019), 8-14 December 2019, Vancouver Convention Centre, Canada, vol 32.
Ren Y. Fastspeech 2: Fast and high-quality end-to-end text to speech. ICLR 2021 The Ninth International Conference on Learning Representations, 2021
Kingma D. P. Auto-encoding variational bayes. International Conference on Learning Representations. 14-16 April 2014, Banff, AB, Canada, 2014
Kong J. et al. Hifi-gan: Generative adversarial networks for efficient and high-fidelity speech synthesis. Advances in Neural Information Processing Systems 33 (NeurIPS 2020), 6-12 December, 2020, vol 33, p. 17022-17033.
Xueyao Zhang, Liumeng Xue, Yicheng Gu ett.al. Amphion: An open-source audio, music and speech generation toolkit, 2024 (Preprint Arxiv: 2312.09911)
Ma Z. et al. Emotion2vec: Self-supervised pre-training for speech emotion representation, 2023 (Preprint Arxiv: 2312.15185)
Radford A. Robust speech recognition via large-scale weak supervision. Proceedings of Machine Learning Research, 23-29 July, 2023, vol 202, p. 28492-28518.
Y. Wang et al. Tacotron: Towards End-to-End Speech Synthesis. Interspeech 2017. ISCA: ISCA, 20-24 August 2017, Stockholm, Sweeden, 2017, p. 4006-4010
J. Shen et al. Natural TTS synthesis by conditioning wavenet on MEL spectrogram predictions. 2018 IEEE international conference on acoustics, speech and signal processing (ICASSP), 15–20 April 2018, Calgary, AB, Canada, 2018, p. 4779-4783
Taigman Y. Voiceloop: Voice fitting and synthesis via a phonological loop, 2018 (Preprint Arxiv:1707.06588)
Lee Y. Emotional end-to-end neural speech synthesizer, 2017 (Preprint Arxiv: 1711.05447)
Y. Wu, K. Chen, T. Zhang, Y. Hui, T. Berg-Kirkpatrick and S. Dubnov. Large-Scale contrastive language-audio pretraining with feature fusion and keyword-to-caption augmentation. ICASSP 2023 - 2023 IEEE international conference on acoustics, speech and signal processing (ICASSP), 4–10 June 2023, Rhodes Island, Greece. 2023
W.-N. Hsu et al. HuBERT: self-supervised speech representation learning by masked prediction of hidden units. IEEE/ACM transactions on audio, speech, and language processing. 2021. vol. 29. p. 3451–3460.
S. Chen et al. WavLM: large-scale self-supervised pre-training for full stack speech processing. IEEE journal of selected topics in signal processing. 2022. Vol. 16, p. 1505–1518.
Chen N. Wavegrad: Estimating gradients for waveform generation. International Conference on Learning Representations (ICLR), 2020.
Kong Z. Diffwave: A versatile diffusion model for audio synthesis. International Conference on Learning Representations (ICLR), 2021.
Chen M. An overview of diffusion models: Applications, guided generation, statistical rates and optimization, 2024 (Preprint Arxiv: 2404.07771)
Wang C. Neural codec language models are zero-shot text to speech synthesizers, 2023 (Preprint Arxiv: 2301.02111)
Ren Y. Fastspeech: Fast, robust and controllable text to speech. Advances in Neural Information Processing Systems 32 (NeurIPS 2019), 8-14 December 2019, Vancouver Convention Centre, Canada, vol 32.
Ren Y. Fastspeech 2: Fast and high-quality end-to-end text to speech. ICLR 2021 The Ninth International Conference on Learning Representations, 2021
Kingma D. P. Auto-encoding variational bayes. International Conference on Learning Representations. 14-16 April 2014, Banff, AB, Canada, 2014
Kong J. et al. Hifi-gan: Generative adversarial networks for efficient and high-fidelity speech synthesis. Advances in Neural Information Processing Systems 33 (NeurIPS 2020), 6-12 December, 2020, vol 33, p. 17022-17033.
Xueyao Zhang, Liumeng Xue, Yicheng Gu ett.al. Amphion: An open-source audio, music and speech generation toolkit, 2024 (Preprint Arxiv: 2312.09911)
Ma Z. et al. Emotion2vec: Self-supervised pre-training for speech emotion representation, 2023 (Preprint Arxiv: 2312.15185)
Radford A. Robust speech recognition via large-scale weak supervision. Proceedings of Machine Learning Research, 23-29 July, 2023, vol 202, p. 28492-28518.