Точность систем автоматического распознавания спонтанной речи далека от тех, которые демонстрируют системы распознавания подготовленной речи. Обусловлено это тем, что спонтанная речь не характеризуется той плавностью и отсутствием сбоев, что подготовленная. Спонтанная речь варьируется от диктора к диктору: отличное произношение фонем, наличие пауз, речевых сбоев и экстралингвистических компонентов (смех, кашель, чихание, и цыканье при выражении эмоции раздражения и др.) прерывают плавность вербальной речи. Экстралингвистические компоненты очень часто несут важную паралингвистическую информацию, поэтому для систем автоматического распознавания спонтанной речи важно распознавать подобные явления в потоке речи. В данном обзоре проанализированы научные работы, посвященные проблеме автоматического анализа экстралингвистических компонентов спонтанной речи. Рассмотрены и описаны как отдельные методы и подходы по распознаванию экстралингвистических компонентов в потоке речи, так и работы, связанные с многоклассовой классификацией изолированно записанных экстралингвистических компонентов. Наиболее распространенными методами анализа экстралингвистических компонентов являются нейронные сети, такие как глубокие нейронные сети и сети на основе моделей-трансформеров. Приведены основные понятия, относящиеся к термину экстралингвистические компоненты, предложена оригинальная систематизация экстралингвистических компонентов в русском языке, описаны корпуса и базы данных звучащей разговорной речи как на русском, так и на других языках, также приведены наборы данных экстралингвистических компонентов, записанных изолированно. Точность распознавания экстралингвистических компонентов повышается при соблюдении следующих условия работы с речевым сигналом: предобработка аудиосигналов вокализаций показала повышение точности классификации отдельно записанных экстралингвистических компонентов; учет контекста (анализ нескольких фреймов речевого сигнала) и использовании фильтров для сглаживания временных рядов после извлечения векторов признаков показали повышение точности при пофреймовом анализе речевого сигнала со спонтанной речью.
Идентификаторы и классификаторы
- eLIBRARY ID
- 58907385
Поток вербальной речи характеризуется наличием паралингвистических и экстралингвистических средств, которые, формируя речевой портрет человека, способствуют распознаванию его психоэмоционального и физического состояний. Паралингвистические фонационные явления, такие как интонация, мелодика, длина пауз, темп, тембр, громкость речи, часто используются при решении задач классификации эмоций. В то время как, экстралингвистические средства включают в себя паузы, и различные психоэмоциональные проявления невербального характера (плач, смех, кашель, вздохи/выдохи и др.). Несмотря на достигнутый существенный прогресс в области автоматического распознавания речи (АРР), до сих пор уделяется недостаточно внимания анализу экстралингвистических средств речи. Анализ экстралингвистических средств позволит решить сложные научно-технические вопросы в области АРР, распознавания психоэмоциональных и физических состояний человека, поскольку, подобные невербальные явления могут содержать больше информации, чем вербальное выражения эмоций.
Экстралингвистические средства часто расцениваются, как «зашумление» исходного речевого сигнала или «артефакты», которые, присутствуя в потоке речи, нарушают работу систем АРР или запросно-ответных диалоговых систем [1]. Также, определенную сложность создают явления, воспроизводимые совместно с речью, например, когда человек смеется и пытается одновременно что-то сказать (речевой смех). С другой стороны, на данный момент нет единого мнения и определенного термина, который бы характеризовал экстралингвистические средства, присутствующие в речи человека.
Список литературы
- Верходанова В.О., Шапранов В.В., Кипяткова И.С., Карпов А.А. Автоматическое определение вокализованных хезитаций в русской речи // Вопросы языкознания. 2018. № 6. С. 104-118. EDN: VMIUSX
- Ataollahi F., Suarez M.T. Laughter Classification Using 3D Convolutional Neural Networks // Proceedings of the 3rd International Conference on Advances in Artificial Intelligence (ICAAI ’19). 2019. pp. 47-51.
- Судьенкова А.В. Обзор методов извлечения акустических признаков речи в задаче распознавания диктора // Сборник научных трудов НГТУ. 2019. № 3-4. С. 139-164. EDN: GMGPYX
- Hsu J.-H., Su M.-H., Wu C.-H., Chen Y.-H. Speech Emotion Recognition Considering Nonverbal Vocalization in Affective Conversations // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2021. vol. 29. pp. 1675-1686.
- Dumpala S.H., Alluri K.N.R.K.R. An Algorithm for Detection of Breath Sounds in Spontaneous Speech with Application to Speaker Recognition. Speech and Computer: 19th International Conference (SPECOM). 2017. pp. 98-108.
- Huang K.-Y., Wu C.-H., Hong Q.-B., Su M.-H., Chen Y.-H. Speech Emotion Recognition Using Deep Neural Network Considering Verbal and Nonverbal Speech Sounds // International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2019. pp. 5866-5870.
- Kuluozturk M., Kobat M.A., Barua P.D., Dogan S., Tuncer T., Tan R.S., Ciaccio E.J., Acharya U.R. DKPNet41: Directed knight pattern network-based cough sound classification model for automatic disease diagnosis // Medical engineering and physics. 2022. vol. 110. no. 103870. EDN: PJPGAU
- Lahmiri S., Tadj C., Gargour C., Bekiros S. Deep learning systems for automatic diagnosis of infant cry signals // Chaos, Solitons & Fractals. 2022. vol. 154. no. 111700. EDN: XYEYOO
- Matikolaie F.S., Tadj C. Machine Learning-Based Cry Diagnostic System for Identifying Septic Newborns // Journal of Voice. 2022. DOI: 10.1016/j.jvoice.2021.12.021 EDN: RSQDOK
-
Matsuda T., Arimoto Y. Detection of laughter and screaming using the attention and ctc models // Proceedings of INTERSPEECH 2023. pp. 1025-1029. DOI: 10.21437/Interspeech.2023-1412
-
Ortega D., Meyer S., Schweitzer A., Vu N.T. Modeling Speaker-Listener Interaction for Backchannel Prediction // 13th International Workshop on Spoken Dialogue Systems Technology. 2023. pp. 1-16.
-
Lea C., Huang Z., Jain D., Tooley L., Liaghat Z., Thelapurath S., Findlater L., Bigham J.P. Nonverbal Sound Detection for Disordered Speech // International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2022. pp. 7397-7401.
-
Crystal D. Prosodic Systems and Intonation in English // Cambridge University Press, 1969. 390 p.
-
Simon-Thomas E., Sauter D., Sinicropi-Yao L., Abramson A., Keltner D. Vocal Bursts Communicate Discrete Emotions: Evidence for New Displays. Nature Proceedings. 2007. DOI: 10.1038/npre.2007.1356.1
-
Trouvain J., Truong K.P. Comparing non-verbal vocalisations in conversational speech corpora. Proceedings of the 4th International Workshop on Corpora for Research on Emotion Sentiment and Social Signals (ES3'2012). 2012. pp. 36-39.
-
Савельева Н.А., Пальчик А.Б., Калашникова Т.П. Особенности довербальной вокализации у плодов и младенцев // Специальное образование. 2022. № 2(66). С. 246-259. EDN: KPZEHK
-
Богданова-Бегларян Н.В., Блинова О.В., Зайдес К.Д., Шерстинова Т.Ю. Корпус "Сбалансированная аннотированная текстотека" (САТ): изучение специфики русской монологической речи // Труды института русского языка им. В.В. Виноградова. 2019. № 21. С. 110-126. EDN: PBPLFD
-
Богданова-Бегларян Н.В., Шерстинова Т.Ю., Блинова О.В., Мартыненко Г.Я. Корпус "Один речевой день" в исследованиях социолингвистической вариативности русской разговорной речи // Анализ разговорной русской речи (АР3 - 2017): труды седьмого междисциплинарного семинара Санкт-Петербург. 2017. С. 14-20. EDN: XWXEVL
-
Кибрик А.А., Подлесская В.И. Коррекция в устной русской монологической речи по данным корпусного исследования // Русский язык в научном освещении. 2006. № 2. С. 7-55. EDN: HYZSBJ
-
Kachkovskaia T., Kocharov D., Skrelin P., Volskaya N. CoRuSS - a New Prosodically Annotated Corpus of Russian Spontaneous Speech // Proceedings of the tenth international conference on language resources and evaluation. Portoroz, Slovenia. 2016. pp. 1949-1954. EDN: RXVXFF
-
Кибрик А.А. Русский мультиканальный дискурс. Часть II. Разработка корпуса и направления исследований // Психологический журнал. 2018. № 39(2). С. 79-90.
-
Pitt M.A., Johnson K., Hume E., Kiesling S., Raymond W. The Buckeye corpus of conversational speech: labeling conventions and a test of transcriber reliability // Speech Communication. 2005. vol. 45(1). no. 1. pp. 89-95.
-
Baker R., Hazan V. LUCID: a corpus of spontaneous and read clear speech in British English // Proceedings of DiSS-LPSS Joint Workshop. 2010. pp. 3-6.
-
Polychroniou A., Salamin H., Vinciarelli A. The SSPNet-Mobile Corpus: Social Signal Processing Over Mobile Phones // Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14). 2014. pp. 1492-1498.
-
Van Engen K.J., Baese-Berk M., Baker R.E., Choi A., Kim M., Bradlow A.R. The Wildcat Corpus of native- and foreign-accented English: communicative efficiency across conversational dyads with varying language alignment profiles // Language and speech. 2010. vol. 53(4). pp. 510-540.
-
Johnson K.A., Babel M., Fong I., Yiu N. SpiCE: A New Open-Access Corpus of Conversational Bilingual Speech in Cantonese and English // Proceedings of the Twelfth Language Resources and Evaluation Conference. European Language Resources Association (ELRA). 2020. pp. 4089-4095.
-
Baese-Berk M.M., Morrill T.H. Speaking rate consistency in native and non-native speakers of English // The Journal of the Acoustical Society of America. 2015. vol. 138(3). pp. 223-228.
-
Janin A., Baron D., Edwards J., Ellis D., Gelbart D., Morgan N., Wooters C. The ICSI Meeting Corpus // IEEE International Conference on Acoustics, Speech, and Signal Processing. 2003. vol. 1. DOI: 10.1109/icassp.2003.1198793
-
Chou H.C., Lin W.C., Chang L.C., Li C.C., Ma H.P., Lee C.C. NNIME: The NTHU-NTUA Chinese interactive multimodal emotion corpus // Proceedings of the Seventh International Conference on Affective Computing and Intelligent Interaction (ACII'2017). 2017. pp. 292-298.
-
Gosy M. BEA - a multifunctional Hungarian spoken language data base // The Phonetician. 2012. vol. 105. pp. 50-61.
-
Landry Dejoli T.T., He Q., Yan H., Li Y. ASVP-ESD: A dataset and its benchmark for emotion recognition using both speech and non-speech utterances // Global Scientific Journals. 2020. vol. 8(5). pp. 1793-1798.
-
Baird A., Tzirakis P., Brooks J.A., Gregory C.B., Schuller B., Batliner A., Keltner D., Cowen A. The ACII 2022 Affective Vocal Bursts Workshop & Competition: Understanding a critically understudied modality of emotional expression // 10th International Conference on Affective Computing and Intelligent Interaction Workshops and Demos. 2022.
-
Petridis S., Martinez B., Pantic M. The MAHNOB Laughter database // Image and Vision Computing. 2013. vol. 31(2). pp. 186-202.
-
Fonseca E., Favory X., Pons J., Font F., Serra X. FSD50K: An Open Dataset of Human-Labeled Sound Events // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2022. vol. 30. pp. 829-852. EDN: YIGOSI
-
Gong Y., Yu J., Glass J. Vocalsound: A Dataset for Improving Human Vocal Sounds Recognition // International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2022. pp. 151-155.
-
Kantharaju R.B., Ringeval F., Besacier L. Automatic recognition of affective laughter in spontaneous dyadic interactions from audiovisual signals // Proceedings of the ACM 20th International Conference on Multimodal Interaction (ICMI'18). 2018. pp. 220-228.
-
Hallmen T., Mertes S., Schiller D., André E. An efficient multitask learning architecture for affective vocal burst analysis // arXiv preprint arXiv: abs/2209.13914. 2022.
-
Karas V., Triantafyllopoulos A., Song M., Schuller B.W. Self-Supervised Attention Networks and Uncertainty Loss Weighting for Multi-Task Emotion Recognition on Vocal Bursts // The 2022 ACII Affective Vocal Burst Workshop & Challenge (A-VB). 2022. vol. 45(1). pp. 89-95.
-
Liu S., Johns E., Davison A.J. End-to-end multi-task learning with attention // IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. pp. 1871-1880.
-
Nguyen D.-K., Pant S., Ho N.-H., Lee G.-S., Kim S.-H., Yang H.-J. Fine-tuning Wav2vec for Vocal-burst Emotion Recognition // The 2022 ACII Affective Vocal Burst Workshop & Challenge (A-VB). 2022. vol. 45(1). pp. 89-95.
-
Pratap V., Xu Q., Sriram A., Synnaeve G., Collobert R. MLS: a large-scale multilingual dataset for speech research // Proceedings of INTERSPEECH. 2020. pp. 2757-2761.
-
Ardila R., Branson M., Davis K., Henretty M., Kohler M., Meyer J., Morais R., Saunders L., Tyers F.M., Weber G. Common voice: a massively-multilingual speech corpus // Proceedings of the 12th Conference on Language Resources and Evaluation (LREC'2020). 2020. pp. 4218-4222.
-
Gales M.J.F., Knill K., Ragni A., Rath S.P. Speech recognition and keyword spotting for low-resource languages: babel project research at cued // Proceedings 4th Workshop on Spoken Language Technologies for Under-Resourced Languages (SLTU'2014). 2012. pp. 16-23.
-
Vaessen N., Van Leeuwen D.A. Fine-tuning wav2vec2 for speaker recognition // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2022. pp. 7967-7971.
-
Kahn J., Riviere M, Zheng W., Kharitonov E., Xu Q., Mazare P-E., Karaday J., Liptchinsky V., Collobert R., Fuegen C., et al. Libri-light: A benchmark for asr with limited or no supervision // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2020. pp. 7669-7673.
-
Lotfian R., Busso C. Building naturalistic emotionally balanced speech corpus by retrieving emotional speech from existing podcast recordings // IEEE Transactions on Affective Computing. 2019. vol. 10. no. 4. pp. 471-483.
-
Panayotov V., Chen G., Povey D., Khudanpur S. LibriSpeech: an ASR corpus based on public domain audio books // IEEE international conference on acoustics, speech and signal processing (ICASSP). 2015. pp. 5206-5210.
-
Schuller B., Steidl S., Batliner A., Vinciarelli A., Scherer K., Ringeval F., Chetouani M., Weninger F., Eyben F., Marchi E., Mortillaro M., Salamin H., Polychroniou A., Valente F., Kim S. The INTERSPEECH 2013 computational paralinguistics challenge: social signals, conflict, emotion, autism // Proceedings of the 14th Annual Conference of the International Speech Communication Association. 2013. pp. 148-152.
-
Hall M., Frank E., Holmes G., Pfahringer B., Reutemann P., Witten I.H. The WEKA data mining software: An update // ACM SIGKDD Explorations Newsletter. 2009. vol. 11. no. 1. pp. 10-18.
-
Brueckner R., Schuller B. Social signal classification using deep BLSTM recurrent neural networks // International conference on acoustics, speech and signal processing (ICASSP). 2014. pp. 4823-4827.
-
Eyben F., Wollmer M., Schuller B. Opensmile: The munich versatile and fast open-source audio feature extractor // Proceedings 18th ACM International Conference Multimedia. 2010. pp. 1459-1462.
-
Gupta R., Audhkhasi K., Lee S., Narayanan S. Detecting paralinguistic events in audio stream using context in features and probabilistic decisions // Computer Speech & Language. 2016. vol. 36. pp. 72-92.
-
Gosztolya G. Optimized Time Series Filters for Detecting Laughter and Filler Events // INTERSPEECH. 2017. pp. 2376-2380.
-
Hansenand N., Ostermeier A. Completely derandomized selfadaptation in evolution strategies // Evolutionary Computation. 2001. vol. 9. no. 2. pp. 159-195.
Выпуск
Другие статьи выпуска
Огромный объем данных, создаваемых процедурами Интернета вещей, требует вычислительной мощности и места для хранения, предоставляемого облачными, периферийными и туманными вычислительными системами. Каждый из этих способов вычислений имеет как преимущества, так и недостатки. Облачные вычисления улучшают хранение информации и вычислительные возможности, одновременно увеличивая задержку соединения. Периферийные и туманные вычисления предлагают аналогичные преимущества с уменьшенной задержкой, но имеют ограниченное хранилище, емкость и покрытие. Первоначально оптимизация применялась для решения проблемы сброса трафика. И наоборот, традиционная оптимизация не может удовлетворить жесткие требования к задержке принятия решений в сложных системах, варьирующейся от миллисекунд до долей секунды. В результате алгоритмы машинного обучения, особенно обучение с подкреплением, набирают популярность, поскольку они могут быстро решать проблемы разгрузки в динамических ситуациях, включающих определенные неопознанные данные. Мы проводим анализ литературы, чтобы изучить различные методы, используемые для решения этой интеллектуальной задачи по разгрузке задач с учетом задержек для облачных, периферийных и туманных вычислений. Уроки, полученные в результате этих исследований, затем представлены в настоящем отчете. Наконец, мы определяем некоторые дополнительные возможности для изучения и проблемы, которые необходимо преодолеть, чтобы достичь минимальной задержки в системе разгрузки задач.
С быстрым развитием технологии сотовых сетей и распространением мобильных устройств эффективная политика распределения сетевых ресурсов становится все более важной для улучшения пользовательских услуг и производительности сети. Наша цель - максимизировать суммарную мощность всех пользователей сети путем нахождения оптимальной схемы распределения мощности. В последние годы методы глубокого обучения на основе графов продемонстрировали большой потенциал для решения проблемы распределения сетевых ресурсов. Из-за топологической природы мобильных сетей графовые нейронные сети (GNN) могут лучше работать с данными, структурированными в виде графов. Однако большинство из этих методов фокусируются только на узловых функциях в процессе обучения и часто игнорируют или упрощают граничные функции, которые играют не менее важную роль, чем узлы. Чтобы решить эту проблему, мы предлагаем дизайн сети с расширенным графическим вниманием (HEGAT), который напрямую связывает изменяющуюся топологию сети и наилучший способ распределения мощности во время обучения. Обширные результаты моделирования подтверждают превосходную производительность и надежные возможности обобщения, демонстрируемые предлагаемой методологией HEGAT.
Введение: Современные сложные технические системы часто бывают критически важными. Критичность обусловлена последствиями нарушения функционирования таких систем, не выполнением ими требуемого перечня функций и задач. Процесс контроля и управления такими системами осуществляется с использованием систем и сетей связи, которые становятся для них критичными. Возникает потребность в обеспечении устойчивого функционирования, как самих сложных технических систем, так и их систем управления, контроля, систем и сетей связи. В работе предложена методика обеспечения функциональной устойчивости системы связи, основой которой является процесс выявления и устранения в ней конфликтов, обусловленных отличием профиля функционирования и профиля процесса функционирования системы. Предложенная модель процесса функционирования системы связи позволяет на основе анализа интенсивностей воздействия дестабилизирующих факторов на систему, выявления конфликтов и их устранения, определить вероятность обеспечения функциональной устойчивости системы. Цель исследования: разработка методики обеспечения функциональной устойчивости системы связи в условиях воздействия дестабилизирующих факторов и возникновения конфликтов, а также модели процесса функционирования системы связи, позволяющей определять вероятность нахождения системы в функционально устойчивом состоянии. Методы теории графов и теории матриц, теории Марковских процессов.
Результаты: предложена модель процесса функционирования системы связи в условиях воздействия дестабилизирующих факторов, позволяющая определять вероятность нарушения функционирования системы, разработана методика обеспечения функциональной устойчивости системы связи. Практическая значимость: результаты исследования могут быть использованы при проектировании и построении сложных технических систем, а также в системах поддержки принятия решений, контроля, связи и управления.
В статье исследуется влияние непреднамеренных импульсных помех на прием информации в условиях эпизодической синхронизации кадров физического уровня канала спутниковой связи с потоками импульсов помех. Предложена аналитическая модель влияния непреднамеренных импульсных помех на прием информации в спутниковом канале связи в условиях эпизодической синхронизации кадров физического уровня с потоками импульсных помех. На примере стандарта DVB-S2 показано совместное влияние шума и непреднамеренных импульсных помех на условные вероятности ошибок при приеме синхрогруппы, служебной части заголовка и информационной части кадра. Приведены оценки среднего числа кадров физического уровня на длительности интервала эпизодической синхронизации, числа интервалов эпизодической синхронизации и доли элементарных посылок в кадре, подвергшихся воздействию помехи, в зависимости от скважности импульсной помехи. Показано, что существуют такие соотношения между длительностью импульса помехи и скважностью ее следования, при которых явление эпизодической синхронизации кадров физического уровня с потоком импульсных помех оказывает существенное влияние на функционирование канала спутниковой связи. Получены зависимости вероятности ошибочного приема кадра физического уровня канала спутниковой связи от отношения сигнал/помеха при фиксированном отношении сигнал/шум и от длительности импульса помехи. Установлено, что при высоких отношениях сигнал/помеха и длительности помехи, соотносимой с длительностью служебной части кадра, но значительно меньше длительности кадра, вероятность ошибочного приема кадра может быть выше, чем при более низких отношениях сигнал/помеха за счет ошибок при приеме служебной части кадров.
В работе рассматривается проблема получения наилучшей альтернативы с помощью методов принятия решений, основанных на опыте специалиста и математических расчетов. Для решения данной проблемы подходит групповое принятие решений, однако оно может привести к выбору нескольких наилучших альтернатив (мультивариантности результата). Учет компетентности позволит отдать приоритет решению более компетентных участников и устранить возникновение нескольких наилучших альтернатив в процессе группового принятия решений. Сформулирована задача определения коэффициентов компетентности для участников группового принятия решений, которые обеспечивают выбор наилучшей альтернативы при мультивариантности результата. Разработан метод решения поставленной задачи, который включает в себя дискретизацию диапазона изменения входных переменных и уточнение в нем значений коэффициентов компетентности участников группового принятия решений. Уточнение выполняется с использованием либо мажоритарного принципа, либо с помощью лица, принимающего решение. Последующее вычисление коэффициентов компетентности для участников группового принятия решений осуществляется при помощи локальной линейной интерполяции уточненного коэффициента компетентности в окружающих точках из дискретизированного диапазона. Использование предложенного метода решения поставленной задачи рассмотрено на примере группового принятия решений по основным разновидностям мажоритарного принципа для выбора варианта технологического процесса нанесения гальванического покрытия. В результатах показано, что предложенный метод расчета коэффициентов компетентности участников группового принятия решений через локальную линейную интерполяцию является наиболее эффективным для выбора наилучшей альтернативы при мультивариантности результата по мажоритарному принципу относительного большинства.
Представлен метод итеративной настройки параметров моделей на основе ансамблей деревьев с использованием настройки байесовских гиперпараметров для прогнозирования состояний на примере рака молочной железы. Предлагаемый метод использует три различных набора данных, в том числе набор данных по диагностическому раку молочной железы Висконсина (WDBC), набор данных по надзору, эпидемиологии и конечным результатам (SEER) по раку молочной железы и набор данных по раку молочной железы в Коимбре (BCCD), а также реализует набор данных на основе древовидных ансамблей. Модели, в частности AdaBoost, Gentle-Boost, LogitBoost, Bag и RUSBoost, для прогнозирования рака молочной железы. Байесовская оптимизация использовалась для итеративной настройки гиперпараметров моделей, а производительность моделей оценивалась с использованием нескольких показателей, включая точность, прецизионность, полноту и оценку f1. Наши результаты показывают, что предложенный метод значительно повышает производительность моделей на основе ансамблей деревьев, что приводит к более высокой точности, прецизионности, полноте и оценке f1. По сравнению с другими современными моделями предлагаемый метод более эффективен. Он достиг 100% идеальных результатов по точности, прецизионности, полноте и оценке F1 в наборе данных WDBC. В наборе данных SEER BC точность метода составила 95,9%, прецизионность 97,6%, полнота 94,2% и оценка F1 95,9%. Для набора данных BCCD метод достиг точности 94,7%, прецизионности 90%, полноты 100% и оценки F1 94,7%. Результаты этого исследования имеют важное значение для медицинских работников, поскольку раннее выявление рака молочной железы может значительно повысить шансы на выживание. В целом, это исследование вносит ценный вклад в область прогнозирования рака молочной железы с использованием машинного обучения.
Распознавание движений при прыжках с помощью видео является значительным вкладом, поскольку оно значительно влияет на интеллектуальные приложения и будет широко применяться в жизни. Этот метод может быть использован для обучения будущих танцоров с использованием инновационных технологий. Сложные позы будут повторяться и совершенствоваться с течением времени, что снизит нагрузку на инструктора при многократном выполнении. Танцоров также можно воссоздать, удалив элементы из их изображений. Распознавать движения танцоров, проверять и корректировать их позы, и еще одним важным аспектом является то, что наша модель может извлекать когнитивные функции для эффективной оценки и классификации, а глубокое обучение в настоящее время является одним из лучших способов сделать это для возможностей коротких видеороликов. Кроме того, при оценке качества видеозаписи выступления точность выполнения каждого танцевального шага является сложной проблемой, когда глаза судей не могут на 100% сфокусироваться на танце на сцене. Более того, танцы на видео сегодня представляют большой интерес для ученых, поскольку технологии все больше развиваются и становятся полезными для замены людей. Основываясь на реальных условиях и потребностях Вьетнама. В этой статье мы предлагаем метод, заменяющий ручную оценку, и наш подход используется для оценки танца с помощью коротких видеороликов. Кроме того, мы проводим танцевальный анализ с помощью коротких видеороликов, применяя таким образом такие методы, как глубокое обучение, для оценки и сбора данных, на основе которых можно делать точные выводы. Эксперименты показывают, что наша оценка является относительно точной, когда рассчитываются значения точности и F1-балла. Точность составляет более 92,38% и 91,18% F1-балла соответственно. Это демонстрирует, что наш метод хорошо и точно работает при анализе оценки танца.
Продлённая аутентификация позволяет избавиться от недостатков, присущих статической аутентификации, например, идентификаторы могут быть потеряны или забыты, пользователь совершает только первоначальный вход в систему, что может быть опасно не только для областей, требующих обеспечения высокого уровня безопасности, но и для обычного офиса. Динамическая проверка пользователя во время всего сеанса работы может повысить безопасность системы, поскольку во время работы пользователь может подвергнуться воздействию со стороны злоумышленника (например, быть атакованным) или намеренно передать ему права. В таком случае оперировать машиной будет не пользователь, который выполнил первоначальный вход. Классификация пользователей во время работы системы позволит ограничить доступ к важным данным, которые могут быть получены злоумышленником. Во время исследования были изучены методы и наборы данных, использующихся для продлённой аутентификации. Затем был сделан выбор наборов данных, которые использовались в дальнейшем исследовании: данные о движении смартфона и смарт-часов (WISDM) и динамике активности мыши (Chao Shen’s, DFL, Balabit). Помочь улучшить результаты работы моделей при классификации может предварительный отбор признаков, например, через оценивание их информативности. Уменьшение размерности признаков позволяет снизить требования к устройствам, которые будут использоваться при их обработке, повысить объём перебора значений параметров классификаторов при одинаковых временных затратах, тем самым потенциально повысить долю правильных ответов при классификации за счёт более полного перебора параметров значений. Для оценивания информативности использовались метод Шеннона, а также алгоритмы, встроенные в программы для анализа данных и машинного обучения (WEKA: Machine Learning Software и RapidMiner). В ходе исследования были выполнены расчёты информативности каждого признака в выбранных для исследования наборах данных, затем с помощью RapidMiner были проведены эксперименты по классификации пользователей с последовательным уменьшением количества используемых при классификации признаков с шагом в 20%. В результате была сформирована таблица с рекомендуемыми наборами признаков для каждого набора данных, а также построены графики зависимостей точности и времени работы различных моделей от количества используемых при классификации признаков.
Обработка естественного языка (NLP) - это разновидность искусственного интеллекта, демонстрирующая, как алгоритмы могут взаимодействовать с людьми на их уникальных языках. Кроме того, анализ настроений в NLP лучше проводится во многих программах, включая оценку настроений на телугу. Для обнаружения текста на телугу используются несколько неконтролируемых алгоритмов машинного обучения, таких как кластеризация k-средних с поиском с кукушкой. Однако эти методы с трудом справляются с кластеризацией данных с переменными размерами и плотностью кластеров, низкой скоростью поиска и плохой точностью сходимости. В ходе этого исследования была разработана уникальная система анализа настроений на основе машинного обучения для текста на телугу, позволяющая устранить указанные недостатки. Первоначально, на этапе предварительной обработки, предлагаемый алгоритм линейного преследования (LPA) удаляет слова в пробелах, знаках препинания и остановках. Затем для маркировки POS в этом исследовании было предложено условное случайное поле с лексическим взвешиванием; После этого предлагается надуманный пассивно-агрессивный классификатор с нечетким взвешиванием (CPSC-FWC) для классификации настроений в тексте на телугу. Следовательно, предлагаемый нами метод дает эффективные результаты с точки зрения точности, воспроизводимости и показателя f1.
Издательство
- Издательство
- СПБНЦ
- Регион
- Россия, Санкт-Петербург
- Почтовый адрес
- 199034, Санкт-Петербург, Университетская наб., 5
- Юр. адрес
- 199034, Санкт-Петербург, Университетская наб., 5
- ФИО
- Орлова Марина Ивановна (ИСПОЛНЯЮЩАЯ ОБЯЗАННОСТИ ДИРЕКТОРА)
- E-mail адрес
- office@spbrc.nw.ru
- Контактный телефон
- +8 (812) 3283787
- Сайт
- https://spbrc.ru/