Аналіз ефективності бібліотеки Resemblyzer для короткокомандної голосової автентифікації

  • Михайло Трусов Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 4, Харків, Україна, 61022 https://orcid.org/0009-0001-4390-5307
  • Олексій Турута Харківський національний університет радіоелектроніки, просп. Науки 14, Харків, Україна, 61166 https://orcid.org/0000-0002-0970-8617
  • Дмитро Узлов Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 4, Харків, Україна, 61022 https://orcid.org/0000-0003-3308-424X
Ключові слова: голосове керування, автентифікація користувача, Resemblyzer, короткі голосові команди, Інтернет речей (IoT), пристрої з обмеженими ресурсами, голосова верифікація, голосовий відбиток, косинусна подібність

Анотація

Актуальність. Голосова взаємодія широко використовується в системах Інтернету речей та автономних вбудованих пристроях, однак її застосування обмежується вимогами до безпеки, захисту приватності та обмеженими обчислювальними ресурсами периферійних платформ. Це зумовлює потребу у повністю локальних рішеннях голосової автентифікації, здатних працювати без залучення хмарних сервісів.

Метою роботи є оцінка можливостей відкритої Python-бібліотеки Resemblyzer для реалізації автономної голосової автентифікації користувачів за короткими голосовими командами в умовах відсутності доступу до хмарних обчислень та обмеженої апаратної потужності.

Методи дослідження. Дослідження виконано на основі декількох наборів аудіоданих із варіацією тривалості, якості та розміру файлів. Для формування ознак використовувалися голосові ембеддинги, згенеровані бібліотекою Resemblyzer. Кількісна оцінка подібності між записами здійснювалася за допомогою метрики косинусної подібності у сценаріях порівняння голосу одного мовця та різних мовців.

Результати. Показано, що надійна голосова автентифікація досягається для аудіозаписів тривалістю не менше 2.63 секунди та розміром файлу від 495 КБ. Короткі фрагменти тривалістю 1-1.5 секунди виявилися недостатньо інформативними для стабільного розрізнення мовців, особливо при зіставленні з високоякісним еталонним записом. Виявлено чітку залежність якості автентифікації від обсягу акустичної інформації, що міститься у голосовому сигналі.

Висновки. Отримані результати підтверджують доцільність використання Resemblyzer для побудови повністю автономних систем голосової біометричної автентифікації в реальному часі. Сформульовано практичні вимоги до мінімальної тривалості та інформаційної насиченості голосових команд, які можуть бути інтерпретовані як технічні обмеження на ентропію голосових паролів у захищених IoT-застосуваннях.

Завантаження

##plugins.generic.usageStats.noStats##

Біографії авторів

Михайло Трусов, Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 4, Харків, Україна, 61022

аспірант ННІ «Комп’ютерних наук та штучного інтелекту»

Олексій Турута, Харківський національний університет радіоелектроніки, просп. Науки 14, Харків, Україна, 61166

Associate Professor of the Department of Program Engineering

Дмитро Узлов, Харківський національний університет імені В.Н. Каразіна, майдан Свободи, 4, Харків, Україна, 61022

к.т.н., доцент, в.о. декана ННІ «Комп’ютерних наук та штучного інтелекту»

Посилання

/

Посилання

Опубліковано
2025-12-22
Як цитувати
Трусов, М., Турута, О., & Узлов, Д. (2025). Аналіз ефективності бібліотеки Resemblyzer для короткокомандної голосової автентифікації. Вісник Харківського національного університету імені В.Н. Каразіна, серія «Математичне моделювання. Інформаційні технології. Автоматизовані системи управління», 68, 84-97. https://doi.org/10.26565/2304-6201-2025-68-09
Розділ
Статті