Архив статей

ViSL One-shot: генерация набора данных вьетнамского языка жестов (2024)

Выпуск: №2, Том 24 (2024)

Авторы: Данг Хань, Бессмертный Игорь Александрович

Разработка методов автоматического распознавания объектов в видеопотоке, в частности
распознавания жестового языка, требует больших объемов видеоданных для обучения.
Устоявшимся методом обогащения данных для машинного обучения является искажение и зашумление.

Отличие языковых жестов от других жестов состоит в том, что небольшие изменения позы могут радикально менять смысл жеста.

Это накладывает специфические требования к вариативности данных.

Метод:

Новизна метода состоит в том, что вместо искажений кадров с помощью афинных преобразований изображений используется векторизация позы сурдодиктора с последующим зашумлением в виде случайных отклонений элементов скелета.

Для реализации управляемой вариативности жестов с помощью библиотеки MediaPipe жест преобразуется в векторный формат, где каждый вектор соответствует элементу скелета.

Далее выполняется восстановление изображения фигуры из векторного формата. Достоинством предложенного метода является возможность управляемого искажения
жестов, соответствующего реальным отклонениям поз сурдодиктора.

Основные результаты. Разработанный метод обогащения видеоданных протестирован на наборе из 60 слов индийского языка жестов (общего для всех языков и диалектов, распространенных на территории Индии), представленных 782 видеофрагментами.

Для каждого слова выбран наиболее репрезентативный жест и сгенерировано 100 вариаций.

Остальные, менее репрезентативные жесты, использованы в качестве тестовых данных. В результате получена модель классификации и распознавания на уровне слов с использованием нейронной сети GRU-LSTM с точностью выше 95 %.

Метод апробирован на наборе данных из 4364 видео на вьетнамском языке жестов для трех регионов Северного, Центрального и Южного Вьетнама.

Сгенерировано 436 400 образцов данных, из которых 100 образцов представляют значения слов, которые могут использоваться для разработки и совершенствования методов распознавания языка жестов на вьетнамском языке за счет генерации множества вариаций жестов с разной с

Сохранить в закладках

Все права на тексты и товарные знаки принадлежат их законным владельцам. Подробнее...

Сайт https://scinetwork.ru (далее – сайт) работает по принципу агрегатора – собирает и структурирует информацию из публичных источников в сети Интернет, то есть передает полнотекстовую информацию о товарных знаках в том виде, в котором она содержится в открытом доступе.

Сайт и администрация сайта не используют отображаемые на сайте товарные знаки в коммерческих и рекламных целях, не декларируют своего участия в процессе их государственной регистрации, не заявляют о своих исключительных правах на товарные знаки, а также не гарантируют точность, полноту и достоверность информации.

Все права на товарные знаки принадлежат их законным владельцам!

Сайт носит исключительно информационный характер, и предоставляемые им сведения являются открытыми публичными данными.

Администрация сайта не несет ответственность за какие бы то ни было убытки, возникающие в результате доступа и использования сайта.

Спасибо, понятно.

Наведите камеру на QR-код, чтобы открыть моб. версию журнала.

Главный редактор

Никифоров Владимир Олегович