В статье приведены краткие сведения об алгоритмах, использующихся или потенциально применимых для низкоскоростного сжатия речевого сигнала. Оцениваются достоинства и недостатки алгоритмов, приводятся сведения об эффективности сжатия, дается краткая информация о структуре и системных требованиях.
Идентификаторы и классификаторы
Одной из основополагающих работ по данной теме является работа Бишну Атал и Сьюзанн Ханауэр [4], написанная еще в 70х годах. В настоящее время в большинстве современных вокодеров используется анализ посредством LPC (Linear predictive coding), или подобные техники. В дальнейших работах, касающихся сжатия и синтеза речевого сигнала, рассматривались новые типы вокодеров [5‒7], которые отличаются друг от друга соотношением степени сжатия голосового сообщения к его качеству [7, 8], а также системными требованиями [7, 8]. В связи с тем, что данные технологии находят применение во многих областях, в том числе, например, для стриминговых сервисов, то периодически появляются новые требования к вокодерам [9
Список литературы
-
Turner С. W., Hurtig R. R. Proportional frequency compression of speech for listeners with sensorineural healing loss // The Journal of the Acoustical Society of America. 1999. Vol. 106. no. 2. P. 877-886. DOI: 10.1121/1.427103
-
Левин M. Многоязычный синтез речи с клонированием И Orion-int.ni: сайт. URL: http://orion-int.ru/iz-pesochnicy-mnogoyazychnyj-sintez-rechi-s-klonirovaniem/ (дата обращения: 23.07.2023).
-
Al-Radhi М. S., Csapo Т. G., Nemeth G. Advances in speech vocoding for text-to-speech with continuous parameters I I Artificial Intelligence and Speech Technology. 2021. P. 203-209.
-
Atal B. S., Hanaver S. L. Speech analysis and synthesis by linear prediction of the speech wave // The Journal of the acoustical society of America. 1971. Vol. 50. no. 2. P. 637-655. DOI: 10.1121/1.1912679
-
Markel J., Gray A. A linear prediction vocoder simulation based upon the autocorrelation method П IEEE Transactions on Acoustics, Speech, and Signal Processing. 1974. Vol. 22, no. 2. P. 124-134. 10.1109/TASSP. 1974.1162554. DOI: 10.1109/TASSP.1974.1162554
-
Маркел Дж. Д., Грэй А. X. Линейное предсказание речи. М.: Связь, 1980. 154 с.
-
McCree А. V., Bamweell Т. Р. A mixed excitation LPC vocoder model for low bit rate speech coding П IEEE Transactions on Speech and Audio Processing. 1995. Vol. 3, no. 4. P. 242-250. DOI: 10.1109/89.397089
-
Valin J.-M., Skoglund J. A real-time wideband neural vocoder at 1.6 kb/s using LPCNet. URL: https://www.semanticscholar.org/reader/75bl934626e05bc295e57517a915e40b9908flее (дата обращения: 13.07.2023).
-
OTA: QO-100 FreeDV transmissions. Lime-Powered 5G Testbeds. O-RAN Code, and More // MYRIAD. RF: сайт. URL: https://myiiadif.org/news/ota-qo-100-freedv-transinissions-lime-powered-5g-testbeds-o-ran-code-and-more/(дата обращения: 08.11.2022).
-
Chu W. C. Speech coding algorithms: foundation and evolution of standardized coders. Hoboken: John Wiley & Sons. 2003. 558 p. ISBN: 0-471-37312-5
-
Mustafa A., Blithe J., Korse S. [et al.]. A Streamwise GAN Vocoder for Wideband Speech Coding at Very Low Bit Rate // IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (New York, 17-20 October 2021). IEEE. 2021. P. 66-70. DOI: 10.1109/WASPAA52581.2021.9632750
-
Невдяев Л. M. Телекоммуникационные технологии: анг.-рус. толковый слов.-справ. М.: Мобильные коммуникации. 2002. 569 с. 5-93184-001-Х. ISBN: 5-93184-001-X
-
Supplee L. М., Cohn R. Р. Collura J. S. [et al.]. MELP: the new Federal Standard at 2400 bps II International Conference on Acoustics. Speech, and Signal (Munich. 21-24 April 1997). IEEE. 1997. P. 1591-1594. 10.1109/ICASSP. 1997.596257. DOI: 10.1109/ICASSP.1997.596257
-
MELP (Mixed-Excitation Linear Predictive) Codec П Vocal: сайт. URL: https://vocal.com/speech-coders/melp/(дата обращения: 23.09.2023).
-
Codec 2 И Rowetel: сайт. URL: http://www.rowetel.com/?page_id=452 (дата обращения: 23.09.2023).
-
Drowe67 / OpenSource Codec2 // GitHub: сайт. URL: https://github.com/drowe67/codec2 (дата обращения: 13.07.2023).
-
Valin J.-M., Skoglund J. LPCNet: Improving Neural Speech Synthesis Through Linear Prediction // International Conference on Acoustics, Speech and Signal Processing (Brighton, 12-17 May 2019). IEEE, 2019. P. 5891- 5895. DOI: 10.1109/ICASSP.2019.8682804
-
Gupta A, Shillingford В. Assael Y. [et al.]. Speech Bandwidth Extension with Wavenet // IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (New York, 20-23 October 2019). IEEE, 2019. P. 205-208. DOI: 10.1109/WASPAA.2019.8937169
-
Kleijn W. B., Lim F. S. C., Luebs A. [et al.]. Wavenet based low rate speech coding П International Conference on Acoustics, Speech and Signal Processing (Calgary. 15-20 April 2018). IEEE, 2018. P. 676-680. DOI: 10.11О9ДСА55Р.2О18.8462529.
-
A Real-Time Wideband neural vocoder at 1.6 kb/s Using LPCNet I I Mozilla: сайт. URL: https://jmvalin.ca/demo/lpcnet_codec/(дата обращения: 11.12.2022).
-
Lyra 1.3.0 // GitHub. URL: https://gjthub.eom/google/lyra/releases/tag/vl.3.0 (дата обращения: 15.11.2022).
-
Минеева M. И. Алгоритмы анализа качества аудиосигнала и речи И Нанотехнологии. Информация, радиотехника (НИР-23): материалы Всерос. молодеж. науч.-практ. конф. (Омск, 18 аир. 2023 г.) / Ом. гос. техн. ун-т. Омск: Изд-во ОмГТУ, 2023. С. 416-420.
-
Lyra V2 - a better, faster, and more versatile speech codec H Google Open Source: сайт. URL: https://opensource.googleblog.eom/2022/09/lyra-v2-a-better-faster-and-more-versatile-speech-codec.html (дата обращения: 15.07.2023).
-
Zeghidour N., Luebs A., Omran A. [et al.]. Soundstream: An end-to-end neural audio codec. URL: https://www.researchgate.net/publication/353066582_SoundStream_An_End-to-End_Neural_Audio_Codec (дата обращения: 15.07.2023).
-
Garbacea C., Oord A., Li Y. [et al.]. Low bit-rate speech coding with vq-vae and a wavenet decoder // International Conference on Acoustics, Speech and Signal Processing (Brighton. 12-17 May 2019). IEEE, 2019. P. 735-739. DOI: 10.1109flCASSP.2019.8683277.
-
Jassim W. A., Skoglund J., Chinen M. [et al.]. Speech quality factors for traditional and neural-based low bit rate vocoders // International Conference on Acoustics, Speech and Signal Processing (Athlone, 26-28 May 2020). IEEE. 2020. P. 1-6. DOI: 10.1109/QoMEX48832.2020.9123109
Выпуск
Другие статьи выпуска
Социальная инженерия - это одна из главных угроз информационной безопасности, поскольку она направлена на сознание человека. С целью зашиты от атак социальной инженерии типа претекстинга в данной статье рассматривается система обнаружения речевых паттернов посредством контекстного анализа. Областью применения разработанной программы могул быть государственные организации, а также предприятия малого и среднего бизнеса.
Математическое моделирование эпидемий компьютерных вирусов является важнейшим направлением теоретических исследований в области информационной безопасности. Основная цель статьи - анализ применимости модифицированной модели Рида-Фроста для анализа эпидемии на реальных графах. В работе авторы сравнивают результаты, вычисленные с помощью модели, с результатами, полученными в ходе имитационного эксперимента, при различных параметрах эпидемии. В итоге были выявлены параметры эпидемии, при которых оба метода хорошо согласуются между собой.
В работе предложен алгоритм проверки подлинности исполнительных устройств АСУ ТП, основанный на стандарте HART, который может выступать как основная либо дополнительная мера зашиты от угроз нарушения целостности системы. Рассмотрен принцип работы стандарта HART, приведен теоретический алгоритм, рассмотрены дополнительные технические решения, повышающие его надежность, а также сценарии возможных атак.
В статье рассматривается технический канал утечки информации за счет побочных электромагнитных излучений широкополосных сигналов на примере интерфейса DisplayPort. Кратко изложены особенности обнаружения и измерения побочных электромагнитных излуче ний широкополосных сигналов современного цифрового интерфейса - DisplayPort. Рассмотрена архитектура интерфейса DisplayPort и выявлены его особенности. Детально описан лабораторный стенд, с помощью которого выполнены практические исследования по обнаружению и измерению побочных электромагнитных излучений широкополосных сигналов на примере интерфейса DisplayPort. По результатам измерений сделан вывод о правильности предположений исследования интерфейса DisplayPort.
В данной статье рассмотрены перспективы использования новых модификаций классического критерия Пирсона при проверке гипотезы независимости, что позволяет при использовании трех искусственных нейронов, полученных модификацией критерия Пирсона, снижать вероятность ошибок. Использование пяти модифицированных критериев Пирсона позволяет снизить вероятности ошибок до 0.053. Построена линейная экстраполяция снижения вероятностей ошибок с ростом числа, используемых совместно статистических критериев.
В статье предлагается проект автоматизированной системы оценки формирования компетенций специалистов в области информационной безопасности. Целью исследования является улучшение традиционного подхода к оцениванию результатов обучения. Представлено обоснование выбора методов оценки сформированности компетенций.
Рассматриваются преимущества обнаружения ботов на основании динамических характеристик движения курсора компьютерной мыши. Проведен анализ существующих способов определения ботов. Рассмотрены общедоступные наборы данных, которые могут быть использованы для нахождения ботов, используя особенности перемещения курсора компьютерной мыши.
В данной статье обосновывается необходимость применения в профессиональном образовании современных средств виртуализации при моделировании облачной инфраструктуры корпоративной сети с целью развития у студентов профессиональных компетенций сетевого и системного администрирования. Использование специально организованной с этой целью виртуальной облачной лаборатории позволяет эффективно развивать не только теоретическую, но и практическую составляющую процесса обучения будущих конкурентоспособных ГГ-специалистов, а также апробировать технологии обеспечения надежной работы распределенного высоконагруженного веб-приложения в частном облачном сервисе корпоративной компьютерной сети.
В статье рассматривается методика расчета оптимальных запасов двухуровневой системы запасного имущества и принадлежностей (системы ЗИП), состоящей из группового комплекта ЗИП (ЗИП-Г), который обслуживает несколько одинаковых одиночных комплектов ЗИП (ЗИП-О). Обосновывается, что в имеющейся методике существует методическая погрешность, и предлагается изменение для избавления от выявленной погрешности. По исходной и предложенной методикам проведены расчеты системы ЗИП на основании одинаковых исходных данных, показана разница в полученных результатах.
В докладе рассмотрены основные аспекты распределенного зондирования волоконно-оптических линий связи с использованием рассеяния Бриллюэна. Представлены результаты исследования основных функциональных возможностей метода когерентной рефлектометрии и метода встречных распространяющихся волн. Особое внимание уделено принципам построения рефлектомет-рических систем и анализу требований к источникам оптического излучения. В заключении сформулированы основные проблемы и перспективы практического внедрения исследуемого метода в прак тику мониторинга волоконно-оптических линий связи.
Рассматривается методика принятия решения о ранжировании сенсорных узлов в беспроводной сенсорной сети случайно распределенной на некоторой плоскости, которая функционирует в условиях постоянно меняющейся сетевой обстановке. В качестве априорной информации о сетевой обстановке используется экспертиза, оформленной в виде матрицы отношений полезности. Даная матрица заполняется целочисленными бальными оценками. Решением ранжирования базовых станций является рассчитанное апостериорное нечеткое множество. Рассматривается числовой пример решения задачи.
В этой работе представлены результаты исследований по автоматизации обработки данных измерений бриллюэновских рефлектограмм, содержащих различные виды одномодовых оптических волокон. Анализируя параметры рассеяния Мандельштама - Бриллюэна возможно различать разновидности оптических волокон в исследуемых оптических кабелях, а также оценивать изменение бриллюэновского частотного сдвига и определять степень продольного натяжения. Начальные значения бриллюэновского частотного сдвига и спектр рассеяния Мандельштама - Бриллюэна для каждой разновидности оптических волокон отличаются. Представлены разработанные программы для обработки блиллюэновских рефлектограмм. Сделаны выводы о точности оценок, полученных по различным алгоритмам, на основании накопленного опыта по работе с представленными программами.
Составлена математическая модель процессов, протекающих в аэродисперсных средах с твёрдыми частицами, при взаимодействии с лазерным излучением. В модели учитываются термоэмиссия электронов с поверхности микрочастиц и лазерный пробой. Расчетами показана возможность возникновения слабой сплошной ионизации воздушной среды на расстоянии нескольких сантиметров от очага пробоя за счёт ионизации молекул NO и протекания термохимических реакций в длинной лазерной искре.
Разработан бесконтактный электромагнитный датчик вращения печей обжига обладающий, повышенной чувствительностью. Работа датчика основана на эффекте намагничивания сердечника трансформатора до насыщения при воздействии внешнего магнитного поля объекта контроля. Рассмотрена работа датчика, его конструкция, приведена его функциональная схема. Представлены результаты эксплуатации опытных образцов датчиков для контроля за вращением сушильных барабанов в технологическом процессе производства технического углерода.
Описан алгоритм работы модема с повышенной энергетической эффективностью с квадратурной внутриимпульсной фазовой модуляцией (КВИФМ) в радиолиниях, использующих крайне низкие частоты для подводной связи. При этом повышение энергетической эффективности модема с КВИФМ достигается за счет снижения его частотной эффективности и внесения дополнительной кодовой избыточности. Это позволяет увеличить в 2 раза глубину при подводной связи. При этом снижается до минимума вероятность ошибочного приема кодовых комбинаций.
Работа посвящена исследованию возможности использования датчика APDS-9960 в качестве приемника излучения для высокотемпературного пирометра спектрального отношения. Приведены результаты расчетов коэффициентов эффективности использования датчиков APDS-9960 и TCS34725. Рассчитаны зависимости отношения сигналов различных каналов датчика APDS-9960 от температуры, погрешности квантования. Установлено, что при использовании дополнительного ИК фильтра, датчик APDS-9960 имеет больший коэффициент эффективности использования и погрешность квантования в 1.5 раза меньшую, чем TCS34725. Рассмотрены результаты натурных испытаний опытного пирометра спектрального отношения с датчиком APDS-9960.
В работе получены и исследованы перспективные электродные материалы для асимметричных суперконденсаторов на основе многостенных углеродных нанотрубок и оксида марганца, легированного оксидом серебра. Для формирования композитов применялся метод экспозиции углеродного материала в водном растворе перманганата калия с добавлением нитрата серебра в различных количествах. Установлено, что увеличение количества нитрата серебра в процессе формирования композита приводит к увеличению массовой загрузки композита, как оксидом серебра, так и оксидом марганца, что обеспечивает более высокие электрохимические характеристики материала. Максимальная удельная емкость композита с повышенным содержанием марганца и серебра составила около 146 и 65 Ф/г при плотностях тока разряда 0.1 и 1.0 А/г соответственно. Высокие емкостные характеристики композита обеспечиваются сочетанием электрохимической активности оксида марганца и низкого электросопротивления оксида серебра.
В статье описывается проектирование широкополосного интегрального усилителя-ограничителя. Приводятся результаты моделирования разработанной топологии усилителя в технологическом процессе GaAs 150 нм с коэффициентом усиления свыше 80 дБ. Отличительной особенностью усилителя является реализация по многокаскадной структуре, которая за счет высокоэффективного однокаскадного усилителя позволяет наращивать коэффициент усиления и получать усилитель с усилением десятки децибел. Усилитель обладает большим перекрытием по частоте в диапазоне от 1 до 8 ГГц. В отличие от реализации подобных решений на выводных компонентах предложенное схемнотопологическое решение для микросхемы позволяет заметно сократить массогабаритные параметры.
В статье рассмотрены влияния геометрических параметров (расстояния между кабелями, радиусы сгиба кабелей) участков межблочных соединений более сложных конфигураций: изгибов кабельной трассы, ответвлений от общей трассы, на динамику образования наведенных помех. Приведены зависимости значений взаимной индуктивности и наведенной емкости от величины радиусов сгиба и расстояния между проводниками для рассматриваемых конфигураций участков трасс для магнитных и электрических полей.
В статье представлены новые аналитические формулы расчета индуктивности планарных симметричных катушек индуктивности квадратной формы. Формулы получены путем использования модифицированного метода декомпозиции топологии катушки, заключающегося в предварительном разбиении топологии индуктивности на части (неполный виток, полные витки, выводы) и расчете индуктивности каждой части и взаимных индуктивностей между частями. Сравнение с ре зультатами 3D моделирования методом конечных элементов в САПР ADS в идеализированном технологическом процессе показало, что предложенные формулы имеют погрешность не более 2% для номиналов индуктивности от 100 пГн до 10 нГн.
Издательство
- Издательство
- ОмГТУ
- Регион
- Россия, Омск
- Почтовый адрес
- 644050, Российская Федерация, г. Омск, пр-т Мира, д. 11
- Юр. адрес
- 644050, Российская Федерация, г. Омск, пр-т Мира, д. 11
- ФИО
- Корчагин Павел Александрович (Ректор )
- E-mail адрес
- info@omgtu.ru
- Контактный телефон
- +7 (381) 2653407
- Сайт
- https://omgtu.ru/