ВЕСТНИК ВОРОНЕЖСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА. СЕРИЯ: СИСТЕМНЫЙ АНАЛИЗ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

Архив статей журнала

ОЦЕНКА ТОЧНОСТИ СУБЪЕКТОЗАВИСИМОГО ПОДХОДА К ОБНАРУЖЕНИЮ СИНТЕЗИРОВАННОГО ГОЛОСА (2024)
Выпуск: № 1 (2024)
Авторы: Черкасов Александр Николаевич, Путято Михаил Михайлович, Евсюков Михаил Витальевич, Макарян Александр Самвелович

Современные методы распознавания личности по голосу демонстрируют высокую точность при обработке подлинного человеческого голоса, однако их главным недостатком является уязвимость к спуфингу. Основной тенденцией, присущей современным исследованиям методов обнаружения спуфинга систем распознавания личности по голосу, является доминирование субъектонезависимых систем. Несмотря на это, существуют исследования, свидетельствующие о перспективности применения субъектозависимого подхода к обнаружению спуфинга. Тем не менее, эффективность его использования ранее не была изучена применительно к обнаружению синтезированного голоса. Цель данного исследования - сравнить точность, которую демонстрируют субъектозависимая и субъектонезависимая системы обнаружения синтезированного голоса, использующие одинаковые алгоритмы извлечения голосовых признаков и модели машинного обучения. Кроме того, мы оцениваем влияние способа обучения субъектозависимых моделей, а также доступного количества обучающих данных диктора, на точность обнаружения синтезированного голоса. В качестве набора данных использовался LA-раздел датасета ASVspoof 2019. В качестве объекта экспериментов использовалась система обнаружения спуфинга LFCC-GMM. Для оценки точности обнаружения синтезированного голоса мы использовали такой критерий как процент равных ошибок (EER). В результате исследования мы выяснили, что использование субъектозависимых моделей подлинных данных позволяет существенно повысить точность обнаружения синтезированного голоса без изменения используемых алгоритмов извлечения голосовых признаков и моделей машинного обучения. Кроме того, увеличение объёма данных, используемых для адаптации или обучения субъектозависимой модели подлинных данных, проявило себя как эффективный способ повышения точности обнаружения синтезированного голоса. Применение субъектозависимой модели подлинных данных, обученной на 90 записях диктора, позволило уменьшить процент равных ошибок с 16.86 % до 9.71 %, по сравнению с субъектонезависимой системой.

Сохранить в закладках