Аналіз ефективності бібліотеки Resemblyzer для короткокомандної голосової автентифікації

doi:10.26565/2304-6201-2025-68-09

Михайло Трусов Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 4, Харків, Україна, 61022 https://orcid.org/0009-0001-4390-5307
Олексій Турута Харківський національний університет радіоелектроніки, просп. Науки 14, Харків, Україна, 61166 https://orcid.org/0000-0002-0970-8617
Дмитро Узлов Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 4, Харків, Україна, 61022 https://orcid.org/0000-0003-3308-424X

DOI: https://doi.org/10.26565/2304-6201-2025-68-09

Ключові слова: голосове керування, автентифікація користувача, Resemblyzer, короткі голосові команди, Інтернет речей (IoT), пристрої з обмеженими ресурсами, голосова верифікація, голосовий відбиток, косинусна подібність

Анотація

Актуальність. Голосова взаємодія широко використовується в системах Інтернету речей та автономних вбудованих пристроях, однак її застосування обмежується вимогами до безпеки, захисту приватності та обмеженими обчислювальними ресурсами периферійних платформ. Це зумовлює потребу у повністю локальних рішеннях голосової автентифікації, здатних працювати без залучення хмарних сервісів.

Метою роботи є оцінка можливостей відкритої Python-бібліотеки Resemblyzer для реалізації автономної голосової автентифікації користувачів за короткими голосовими командами в умовах відсутності доступу до хмарних обчислень та обмеженої апаратної потужності.

Методи дослідження. Дослідження виконано на основі декількох наборів аудіоданих із варіацією тривалості, якості та розміру файлів. Для формування ознак використовувалися голосові ембеддинги, згенеровані бібліотекою Resemblyzer. Кількісна оцінка подібності між записами здійснювалася за допомогою метрики косинусної подібності у сценаріях порівняння голосу одного мовця та різних мовців.

Результати. Показано, що надійна голосова автентифікація досягається для аудіозаписів тривалістю не менше 2.63 секунди та розміром файлу від 495 КБ. Короткі фрагменти тривалістю 1-1.5 секунди виявилися недостатньо інформативними для стабільного розрізнення мовців, особливо при зіставленні з високоякісним еталонним записом. Виявлено чітку залежність якості автентифікації від обсягу акустичної інформації, що міститься у голосовому сигналі.

Висновки. Отримані результати підтверджують доцільність використання Resemblyzer для побудови повністю автономних систем голосової біометричної автентифікації в реальному часі. Сформульовано практичні вимоги до мінімальної тривалості та інформаційної насиченості голосових команд, які можуть бути інтерпретовані як технічні обмеження на ентропію голосових паролів у захищених IoT-застосуваннях.

Завантаження

##plugins.generic.usageStats.noStats##

Біографії авторів

Михайло Трусов, Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 4, Харків, Україна, 61022

аспірант ННІ «Комп’ютерних наук та штучного інтелекту»

Олексій Турута, Харківський національний університет радіоелектроніки, просп. Науки 14, Харків, Україна, 61166

Associate Professor of the Department of Program Engineering

Дмитро Узлов, Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 4, Харків, Україна, 61022

к.т.н., доцент, в.о. декана ННІ «Комп’ютерних наук та штучного інтелекту»

Посилання

/

Посилання

A. Choudhary, Internet of Things: a comprehensive overview, architectures, applications, simulation tools, challenges and future directions. Discov. Internet Things. 2024. Vol. 4. P. 31. https://doi.org/10.1007/s43926-024-00084-3.

M. Lombardi, F. Pascale, D. Santaniello, Internet of Things: A General Overview between Architectures, Protocols and Applications. Information. 2021. Vol. 12. P. 87. https://doi.org/10.3390/info12020087.

L. Atzori, A. Iera, G. Morabito, The Internet of Things: A survey. Computer Networks. 2010. Vol. 54. P. 2787-2805. https://doi.org/10.1016/j.comnet.2010.05.010.

M. Hoy, Alexa, Siri, Cortana, and More: An Introduction to Voice Assistants. Med. Ref. Serv. Q. 2018. Vol. 37. P. 81-88. https://doi.org/10.1080/02763869.2018.1404391.

M. Benzeghiba, R. De Mori, O. Deroo et al., Automatic speech recognition and speech variability. Speech Commun. 2007. Vol. 49. P. 763-786. https://doi.org/10.1016/j.specom.2007.02.006.

A. Javed, K. Malik, H. Malik, A. Irtaza, Voice spoofing detector: a unified anti-spoofing framework. Expert Systems Applic. 2022. Vol. 198. P. 116770. https://doi.org/10.1016/j.eswa.2022.116770.

N. Ahmed, J. Khan, N. Sheta et al., Detecting Replay Attack on Voice-Controlled Systems using Small Neural Networks. 2022 IEEE 7th Forum on Research and Technologies for Society and Industry Innovation (RTSI), Paris, France. 2022. P. 50-54. https://doi.org/10.1109/RTSI55261.2022.9905158.

Z. Wu, N. Evans, T. Kinnunen et al., Spoofing and countermeasures for speaker verification: A survey. Speech Commun. 2015. Vol. 66. P. 130-153. https://doi.org/10.1016/j.specom.2014.10.005.

T. Kinnunen, Z. Wu, K. Lee et al., Vulnerability of speaker verification systems against voice conversion spoofing attacks: The case of telephone speech. 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Kyoto, Japan. 2012. P. 4401-4404. https://doi.org/10.1109/ICASSP.2012.6288895.

A. Poddar, M. Sahidullah, G. Saha, Speaker verification with short utterances: a review of challenges, trends and opportunities. IET Biometrics. 2018. Vol. 7. P. 403-411. https://doi.org/10.1049/iet-bmt.2017.0065.

N. Dehak, P. Kenny, R. Dehak et al., Front-End Factor Analysis for Speaker Verification. IEEE Transactions on Audio, Speech, and Language Processing. 2011. Vol. 19. P. 788-798. https://doi.org/10.1109/TASL.2010.2064307.

D. Snyder, D. Garcia-Romero, G. Sell et al., X-Vectors: Robust DNN Embeddings for Speaker Recognition. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary, AB, Canada. 2018. P. 5329-5333. https://doi.org/10.1109/ICASSP.2018.8461375.

A. Baevski, Y. Zhou, A. Mohamed, M. Auli, wav2vec 2.0: A framework for self-supervised learning of speech representations. Adv. Neural Inform. Proces. Syst. 2020. Vol. 33. P. 12449-12460. https://doi.org/10.48550/arXiv.2006.11477.

L. Wan, Q. Wang, A. Papir, I. Moreno, Generalized end-to-end loss for speaker verification. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2018. P. 4879-4883. https://doi.org/10.48550/arXiv.1710.10467.

M. Ravanelli, T. Parcollet, P. Plantinga et al., SpeechBrain: A general-purpose speech toolkit. arXiv preprint arXiv:2106.04624. 2021. https://doi.org/10.48550/arXiv.2106.04624.

H. Bredin, R. Yin, J. Coria, Pyannote. audio: neural building blocks for speaker diarization. ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2020. P. 7124-7128). https://doi.org/10.48550/arXiv.1911.01255.

Y. Jia, Y. Zhang, R. Weiss et al., Transfer learning from speaker verification to multispeaker text-to-speech synthesis. Adv. Neur. Inform. Proces. Systems. 2018. arXiv:1806.04558. https://doi.org/10.48550/arXiv.1806.04558.

Q. Wang, C. Downey, L. Wan et al., Speaker diarization with LSTM. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2018. P. 5239-5243. https://doi.org/10.48550/arXiv.1710.10468.