Современные средства компьютерной обработки текста позволили автоматизировать многие рутинные задачи лексикографов и терминологов. Помимо привычных программных средств, применяемых для вспомогательных задач прикладной лексикографии специалистами по составлению терминологических и других словарей, в решении таких задач может помочь язык программирования Python и его библиотеки, такие как NLTK (Natural Language Toolkit), pymorphy2, mystem и др. Python - один из самых распространенных и доступных в изучении языков программирования, который все шире применяется в прикладной лингвистике. Статья продолжает цикл публикаций, знакомящих практикующих лингвистов и лексикографов с Python и его возможностями для обработки текстов на естественном языке (natural language processing). Описываются техники, которые можно использовать для предварительной обработки текстов с целью последующего извлечения из них терминологии и составления терминологических словарей, в том числе для нужд письменного перевода. В настоящее время эта задача пересекается с использованием систем машинного перевода, в ряде которых реализована функция приоритетного использования пользовательского терминологического двуязычного словаря. Кроме того, некоторые из описанных приемов помогут извлечь информацию из больших корпусов текстов и проанализировать их содержание. В статье описывается порядок выполнения токенизации и лемматизации текста или корпуса текстов, приемы для выделения наиболее частотных лемм, рассматриваются разные подходы к поиску в тексте частотных словосочетаний методом нахождения n-грамм. Техники для автоматического нахождения потенциальных узкоспециальных терминов проиллюстрированы примерами из научно-технического текста. На материале художественного текста показаны методы анализа содержания, например, подсчет частотности определенных лемм в корпусе. Все приведенные примеры кода можно скопировать и запустить в облачной среде Google Colab без установки каких-либо программ на компьютер. Надеемся, что эти приемы облегчат повседневную работу лексикографов, а может быть, и побудят лингвистов к изучению языка Python.
В статье рассматривается особенности реализации многопоточных промышленных систем, реализующих научные вычисления с помощью средств, доступных в языке программирования Python. Статья содержит описание теоретических аспектов, таких как работа механизма глобальной блокировки интерпретатора (GIL), архитектура управления зависимостями, библиотека параллелизма, основанного на процессах. В практическая часть статьи посвящена реализации многопоточного сервиса распознавания речи, который использует взаимодействие процессов через разделяемую память, на базе библиотеки «boost.interprocess». В результате внедрения описанной в статье архитектуры в конкретном случае удалось существенно снизить нагрузку на процессор.
Для прогнозирования выхода светлых фракций установкой ЭЛОУ-АВТ-6 проведен сравнительный анализ модели рекуррентной нейронной сети и модели авторегрессии ARIMA. Приведено математическое описание этих моделей. Приведена реализация моделей с использованием библиотек Keras и Pmdarima на языке Python. Проведена серия экспериментов, в качестве данных использовались значения температуры куба колонны К-2, расход сырой нефти и расход фракции бензина. Сделан вывод, о превосходстве качества прогноза нейронных сетей над ARIMA
Исследуется задача оптимального управления линейно нагруженной системой обыкновенных дифференциальных уравнений с линейными граничными условиями. Получены необходимые условия оптимальности первого порядка, которые позволяют использовать эффективные методы первого порядка для численного решения исследуемой задачи. Приведены результаты решения тестовой задачи и их анализ.
Разработка эффективных алгоритмов анализа сетевых мотивов является актуальным и имеет достаточно большое значение при исследовании социальных, биологических и некоторых других сетей. В статье представлено веб-приложение для подсчёта частот встречаемости подграфов на трех и четырех вершинах в больших сетях, а также для выявления так называемых сетевых мотивов. Веб-приложение реализует функционал системы MFSView и основывается на методе случайного выбора остовных деревьев. Разработанная система построена по типу клиент-серверной архитектуры и использует ряд таких эффективных технологий и фреймворков, как на клиенте - JavaScript и bootstrap, так и на сервере - Django.
В статье рассмотрены вопросы разработки модели нейронной сети для колоризации черно-белых изображений. Описаны основные вопросы, возникающие при проектировании модели нейронной сети для решения данной задачи. Обоснован выбор перехода на работу с цветовым пространством LAB из RGB. Описана архитектура GAN. Описана архитектура U-Net. Построены модели генератора и дискриминатора. Описан использованный при разработке нейронной сети инструментарий.
Цель исследования - построить модель машинного обучения для декомпозиции текстовой формулировки компетенции. В данной статье рассматриваются методы представления компетенции как множества ключевых слов и терминов. Основное содержание исследования составляет анализ применения двух моделей: BERTopic и ARTM. Описываются основные этапы исследования: сбор и предобработка данных, обучение моделей, анализ и интерпретация результата. В заключении раскрываются преимущества и недостатки применения таких моделей, а также последующие направления исследования.
В статье описан алгоритм Кавош (Kavosh) для поиска сетевых мотивов (или статистически важных подграфов). Приведены зависимости скорости работы, полученные в результате апробации данного алгоритма на языке программирования Python. Разработанный прототип веб-приложения Motif App применим как для анализа ориентированных, так и неориентированных графов.
В статье рассмотрены результаты работы по реализации приложения для автоматизированной генерации титульных листов отчетной документации. Для создания шаблона титульного листа используется система компьютерной вёрстки LaTeX. На основе реализованного шаблона скрипт, разработанный на высокоуровневом языке программирования Python, выполняет подстановку индивидуальных данных студента в шаблон титульного листа, а также выполняет генерацию PDF файла. Подобная генерация титульных листов позволяет упростить работу преподавателей и помочь студентам избежать ошибок при заполнении титульного листа.
В работе рассматриваются общие методы пространственной регистрации изображений. Для улучшения качества добавляются границы на изображение. С помощью алгоритма масштабно-инвариантного преобразования объектов выделяются ключевые точки на изображениях. Путем гомографических преобразований получается совмещенное изображение. Приведены примеры работы алгоритма на медицинских данных. Производится сравнение базового алгоритма и алгоритма с добавлением границ на изображение.
Рассмотрены методические аспекты преподавания математической статистики в техническом вузе с использованием лабораторных работ. Приведены примеры задач, допускающих решения с использованием библиотек SciPy и NumPy языка Python. Обоснованы преимущества данного языка программирования перед другими компьютерными математическими системами. Рассмотрены задачи генерации данных из заданного распределения, построения доверительных интервалов, проверки гипотез, корреляционного анализа и некоторые другие.
В статье изложены основные аспекты разработки веб-системы автоматизированного анализа тональности отзывов, представлена целевая функция, описано математическое обеспечение веб-системы. Произведен сравнительный анализ фреймворков парсинга: Selenium, Playwright, BeautifulSoup, Grab, API. Выполнено сравнение модели векторного представления: Bag of Words, TF-IDF, BERT. А также сравнили методы классификации: Логистическая регрессия, Градиентный бустинг, Случайный лес. Описана логика работы программного продукта, определена архитектура системы. Определен набор данных для обучения моделей машинного обучения. В результате разработан веб-сервис СААТО, позволяющий по одной ссылке проанализировать эмоциональность комментариев и откликов.