В работе рассматривается задача заполнения областей изображений. В последние годы эта область стремительно развивалась, новые нейросетевые методы показывают впечатляющие результаты, однако большинство нейросетевых подходов сильно зависят от разрешения, на котором их обучали. Незначительное увеличение разрешения приводит к серьезным артефактам и неудовлетворительному результату заполнения, из-за чего подобные методы не применимы в средствах интерактивной обработки изображений. В этой статье мы представляем метод, позволяющий решить проблему заполнения областей изображений разного разрешения. Мы также описываем способ более качественного восстановления текстурных фрагментов в заполняемой области. Для этого мы предлагаем использовать информацию из соседних пикселей путем сдвига исходного изображения в четырех направлениях. Предлагаемый подход применим к уже существующим методам без необходимости их переобучения.
Идентификаторы и классификаторы
- eLIBRARY ID
- 45067270
Задача заполнения областей изображения нацелена на восстановление некоторой поврежденной или неизвестной области. На входе алгоритм получает поврежденное изображение, а также маску области, где требуется восстановление. На выходе алгоритм выдает восстановленное изображение, заполняя неизвестную область наиболее реалистичным способом.
В последние годы развитие нейросетевых подходов существенно способствовало появлению различных методов решения этой задачи. Однако нейросетевые подходы сильно привязаны к разрешению, на котором их обучали, из-за недостатка рецептивного поля. Большинство моделей имеет размер входа не превышающий 512 пикселей. В результате они не могут обрабатывать изображения произвольной формы, например, в интерактивных инструментах обработки изображений. Когда разрешение входного изображения повышается, у большинства подходов начинают проявляться значительные артефакты. Пример приведен на рис. 1.
В этой статье предлагается метод заполнения областей, не зависящий от разрешения. Он использует coarse-to-fine подход, восстанавливая структуру изображения на низком разрешении и текстуру на высоком. Также, для улучшения качества текстурного заполнения, мы предлагаем использовать сдвиги исходного изображения, тем самым искусственно увеличивая рецептивное поле на величину сдвига. Наш подход теоретически применим к любому существующему методу без необходимости переобучения.
Список литературы
- Drori I., Cohen-Or D., Yeshurun H. Fragment-based image completion // ACM Transactions on Graphics. 2003. V. 22. № 3. P. 303-312.
- Criminisi A., Perez P., Toyama K. Region filling and object removal by exemplar-based image inpainting // IEEE Transactions on Image Processing. 2004. V. 13. № 9. P. 1200-1212.
- Barnes C., Shechtman E., Finkelstein A., Goldman D. PatchMatch: A Randomized Correspondence Algorithm for Structural Image Editing // ACM Transactions on Graphics (Proc. SIGGRAPH). 2009. V. 28. № 3.
- Yakubenko A.A., Kononov V.A., Mizin I.S., Konushin V.S., Konushin A.S. Reconstruction of Structure and Texture of City Building Facades // Programming and Computer Software. 2011. V. 37. № 5. P. 260-269. EDN: PEFDCZ
- Liu G., Reda F.A., Shih K.J., Wang T.C., Tao A., Catanzaro B. Image Inpainting for Irregular Holes Using Partial Convolutions // The European Conference on Computer Vision (ECCV). 2018. P. 85-100.
- Yu J., Lin Z., Yang J., Shen X., Lu X., Huang T.S. Generative Image Inpainting with Contextual Attention // IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2018. P. 5005-5514.
- Hong X., Xiong P., Ji R., Fan H. Deep Fusion Network for Image Completion // Proceedings of the 27th ACM International Conference on Multimedia. 2019. P. 2033-2042. EDN: XUOLCA
- Zeng Y., Lin Z., Yang J., Zhang J., Shechtman E., Lu H. High-Resolution Image Inpainting with Iterative Confidence Feedback and Guided Upsampling // arXiv preprint arXiv:2005.11742, 2020.
- Molodetskikh I., Erofeev M., Vatolin D. Perceptually Motivated Method for Image Inpainting Comparison // CEUR Workshop Proceedings. 2019. V. 2485. P. 131-135.
-
Goodfellow I., Pouget-Abadie J., Mirza M., Xu B., Warde-Farley D., Ozair S., Courville A., Bengio Y. Generative adversarial nets // Advances in neural information processing systems. 2014. V. 27. P. 2672-2680. EDN: SESCXD
-
Yu J., Lin Z., Yang J., Shen X., Lu X., Huang T. Free-Form Image Inpainting With Gated Convolution // Proceedings of the IEEE International Conference on Computer Vision. 2019. P. 4471-4480.
-
Yi Z., Tang Q., Azizi S., Jang D., Xu Z. Contextual Residual Aggregation for Ultra High-Resolution Image Inpainting // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020. P. 7508-7517.
-
Ronneberger O., Fischer P., Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation // International Conference on Medical image computing and computer-assisted intervention. 2015. P. 234-241.
-
Simonyan K., Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition // arXiv preprint arXiv:1409.1556, 2014. EDN: YDMNBC
-
Timofte R., Gu S., Wu J., Van Gool L., Zhang L., Yang M.H. NTIRE 2018 Challenge on Single Image Super-Resolution: Methods and Results // The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops. 2018. P. 965.
-
Ioffe S., Szegedy C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift // arXiv preprint arXiv:1502.03167, 2016.
-
Johnson J., Alahi A., Fei-Fei L. Perceptual Losses for Real-Time Style Transfer and Super-Resolution // European conference on computer vision. 2016. P. 694-711. EDN: YWVKWP
-
Kingma D.P., Ba J. Adam: A Method for Stochastic Optimization // arXiv preprint arXiv:1412.6980, 2014.
-
Bradley R.A., Terry M.E. Rank Analysis of Incomplete Block Designs: I. The Method of Paired Comparisons // Biometrika. 1952. V. 39. № 3/4. P. 324-345.
-
Wang Z., Bovik A., Sheikh H., Simoncelli E. Image Quality Assessment: From Error Visibility to Structural Similarity // IEEE transactions on image processing. 2004. V. 13. № 4. P. 600-612.
-
Soman K. GIMP-ML: Python Plugins for using Computer Vision Models in GIMP // arXiv preprint arXiv:2004.13060, 2020.
Выпуск
Другие статьи выпуска
Подавление артефактов ложного оконтуривания на изображениях (эффектов ложного оконтуривания, англ. ringing) – это распространенная задача области восстановления изображений. Осцилляции Гиббса возникают из-за методики визуализации изображений магнитно-резонансной томографии, при которой исходные данные, поступающие в частотной области, отображаются в пространственную область с помощью дискретного преобразования Фурье. Появление осцилляций Гиббса обусловлено неполнотой получаемой информации, связанной в том числе с обрезкой высоких частот Фурье-спектра. В данной статье предлагается гибридный метод подавления артефактов ложного оконтуривания на изображениях магнитно-резонансной томографии, заключающийся в объединении моделей глубокого машинного обучения и классического необучаемого алгоритма подавления осцилляций Гиббса, основанного на поиске оптимальных субпиксельных сдвигов.
Классическая трассировка лучей методом Монте-Карло – это мощный метод, позволяющий моделировать практически все эффекты в лучевой оптике, но он может быть недопустимо медленным для многих случаев, таких как, например, вычисление изображений, видимых объективом или камерой с точечным отверстием. Поэтому часто используются его различные модификации, в частности, двунаправленная стохастическая трассировка лучей с фотонными картами. Недостатком всех стохастических методов является нежелательный шум. Уровень шума, то есть дисперсия яркости пикселей, рассчитанной за одну итерацию метода, зависит от различных параметров, таких как количество лучей от источника света и от камеры, способ слияния их траекторий, радиус интегрирующей сферы и т.д. Выбор оптимальных параметров позволит получить минимальный уровень шума при данном времени расчета. Данной проблеме и посвящена эта статья. Показано, что дисперсия яркости пикселя представляет собой сумму трех функций, масштабируемых обратным числом лучей из источника и из камеры, причем сами эти функции не зависят от количества лучей. Поэтому, зная их, можно предсказать шум для любого количества лучей и, таким образом, найти оптимальный вариант. Вычисление этих функций на основе полученных в трассировке лучей данных является нетривиальной задачей. В статье приведен практический метод их расчета и продемонстрировано, что по результатам всего одного пробного расчета можно предсказать дисперсию для произвольного числа лучей. Таким образом, становится возможным минимизация шума благодаря выбору оптимального числа лучей.
Данная работа посвящена исследованию методов фотонных карт для решения проблемы реалистичного рендеринга. В отличие от традиционных методов рендеринга основой для расчета яркости вторичного и каустического освещений являются обратные фотонные карты или карты наблюдения. Представлены основные преимущества метода обратных фотонных карт, которые заключаются, во-первых, в естественном распределении фотонов в областях, формирующих яркость изображения, а во-вторых, в уменьшении числа фотонов, формируемых на трассе одного луча. Рассмотрена основная алгоритмическая сложность метода обратных фотонных карт, заключающаяся в необходимости синхронизации данных при расчете и накоплении яркости вторичного и каустического освещений. Для решения данной проблемы авторы предлагают использовать промежуточные прямые фотонные карты вторичного и каустического освещения, распределенные по вычислительным потокам, выполняющими рендеринг соответствующих участков изображения. На основе проведенных исследований вводится метод прогрессивных обратных фотонных карт и описывается алгоритм реалистичного рендеринга, основанный на методе прогрессивных обратных фотонных карт. Разработанный алгоритм не требует дополнительной синхронизации при накоплении яркости в точках изображения, что позволяет эффективно реализовать его не только с использованием ресурсов центрального процессора, но и на графическом процессоре. Представлены результаты качественного и количественного сравнения результатов рендеринга методами прогрессивных прямых и обратных фотонных карт.
Данная работа рассматривает построение обобщенного вычислительного эксперимента для решения задач верификации. Проблема сравнительной оценки точности численных методов в настоящее время приобретает особую актуальность ввиду введения федеральных стандартов и распространению программных пакетов, включающих большое количество разнообразных солверов. Обобщенный вычислительный эксперимент позволяет получить численное решение для класса задач, определяемых диапазонами изменения определяющих параметров. Анализ результатов, представленных в виде многомерных массивов, где количество измерений определяется размерностью пространства определяющих параметров, требует применения инструментов научной визуализации и визуальной аналитики. Обсуждаются подходы к применению обобщенного вычислительного эксперимента при наличии эталонного решения и в его отсутствие. Приведен пример построения поверхностей ошибок при сравнении решателей программного пакета OpenFOAM. В качестве основной используется классическая задача невязкой косой ударной волны. Рассмотрены вариации основных параметров задачи – числа Маха и угла атаки. Также рассматривается пример задачи обтекания конуса под углом атаки с изменяющимся числом Маха, углом конуса и углом атаки. Вводится понятие индекса ошибки как интегральная характеристика отклонений от точного решения для каждого решателя в рассматриваемом классе задач.
В статье предлагаются новые технология и методы реализации панорамного видео с обзором 360 градусов, основанные на проекции виртуального окружения на правильный додекаэдр. Идея состоит в построении виртуальной панорамы, наблюдаемой зрителем, из прямоугольных снимков виртуального пространства, имитирующих внутреннюю поверхность додекаэдра. Разработан метод вычисления параметров проекции и ориентации 12 камер додекаэдра, основанный на геометрии “золотых прямоугольников”, метод и алгоритмы синтеза кадра 360-видео, основанные на оригинальной схеме упаковки пентагонов, а также метод и алгоритм визуализации прямоугольных снимков, обеспечивающий синтез непрерывной виртуальной панорамы. Предложенные решения реализованы в программном комплексе и апробированы на примере задачи визуализации полета по орбите МКС над земной поверхностью. Результаты исследования могут быть применены в системах виртуального окружения, видеосимуляторах, научной визуализации, виртуальных лабораториях, образовательных приложениях, видеоинструкциях и др.
Статья посвящена вопросам автоматизации процесса создания автономных модулей научной визуализации на базе систем на кристалле с настраиваемым осязаемым пользовательским интерфейсом. Такие модули могут быть использованы в роли интерактивных экспонатов в рамках концепции так называемых умных музеев. Ключевой идеей автоматизации является генерация итогового программного обеспечения средствами онтологически управляемой платформы SciVi. В рамках этой платформы путем расширения управляющих онтологий организована поддержка генерации кода для систем на кристалле Raspberry Pi и Orange Pi. Алгоритм работы генерируемого программного обеспечения описывается в платформе SciVi высокоуровневым образом при помощи диаграмм потоков данных. При этом научная визуализация имеет аппаратную поддержку через графический API OpenGL ES, а поддержка осязаемого пользовательского интерфейса обеспечивается подключением специализированных библиотек и средств операционной системы для взаимодействия с внешними периферийными устройствами. Эффективность предложенных методов и средств подтверждена на практике при разработке нескольких кибер-физических экспонатов для выставки “Превращения” в Детском музейном центре, филиале Пермского краеведческого музея (г. Пермь).
В статье освещается подход на основе технологии машинного обучения, который представляет особый интерес для локализации и определения характеристик как одноочаговых стенозов, так и многососудистых, многоочаговых поражений. В связи со сложностью анализа большого количества данных клиницистом/кардиохирургом, в исследовании большое внимание уделено анализу, обучению и сравнению популярных детекторов для классификации и локализации очагов стеноза на данных коронарной ангиографии. Полный набор данных был собран в НИИ Комплексных проблем сердечно-сосудистых заболеваний на основе исследования коронарографии, среди которых ретроспективно выбраны данные 100 пациентов. Для автоматизированного анализа медицинских данных, в статье подробно рассмотрены 3 модели (SSD MobileNet V1, Faster-RCNN ResNet-50 V1, Faster-RCNN NASNet), которые варьировались по архитектуре, сложности и количеству весов. Приведено сравнение моделей по основным характеристикам эффективности: точность, время обучения и время предсказания. Результаты тестирования показали, что время обучения/предсказания прямо пропорционально сложности модели. Так, наименьшее время предсказания показала модель Faster-RCNN NASNet (среднее время обработки одного изображения составило 880 мс). Что касается точности, то наибольшая точность предсказания была получена моделью Faster-RCNN ResNet-50 V1. Данная модель достигла уровня 0.92 метрики mAP на валидационном наборе данных. С другой стороны, наиболее быстрой оказалась модель SSD MobileNet V1, которая способна выполнять предсказания с частотой предсказания 23 кадра в секунду.
Издательство
- Издательство
- ИЗДАТЕЛЬСТВО НАУКА
- Регион
- Россия, Москва
- Почтовый адрес
- 121099 г. Москва, Шубинский пер., 6, стр. 1
- Юр. адрес
- 121099 г. Москва, Шубинский пер., 6, стр. 1
- ФИО
- Николай Николаевич Федосеенков (Директор)
- E-mail адрес
- info@naukapublishers.ru
- Контактный телефон
- +7 (495) 2767735