Skip to content

CTLab-ITMO/SWIRAIC

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

91 Commits
 
 
 
 
 
 

Repository files navigation

AI High-res SWIR Multispectral SPC

Описание проекта

Проект посвящён разработке мультиспектральной однопиксельной камеры в SWIR-диапазоне и полного AI-пайплайна для повышения разрешения и сегментации дефектов на инфракрасных изображениях. Основные целевые приложения — контроль качества пищевых продуктов на конвейерных линиях и исследовательские лабораторные сценарии, где требуется точная локализация мелких и разреженных дефектов. Ключевая особенность проекта — сочетание аппаратной реализации мультиспектральной SWIR-однопиксельной визуализации с моделями суперразрешения и семантической сегментации, адаптированными под ограничения реального edge-устройства (Orange Pi 5B).

Основные компоненты

  • Мультиспектральная SWIR SPC-камера

    • Спектрально-временное мультиплексирование на основе импульсных волоконных лазеров на нескольких длинах волн (SWIR-диапазон), а именно 940, 1065, 1550 нм.
    • Цифровое микрозеркальное устройство (DMD) для проецирования ортогональных паттернов Адамара на объект.
    • Обработка данных детектора** с методом наложения паттернов освещения.
  • Моделирование и синтетические данные

    • Метод генерации синтетического набора данных Synthetic_SWIR_Dataset на основе численного моделирования SPI с оптимизацией параметров шума, контраста и паттернов освещения.
    • Максимизация корреляции между реальными и синтезированными однопиксельными изображениями для приближения распределения реальных SWIR-данных.
  • Блок суперразрешения

    • Архитектуры IRSMFANet и IRSMFAGAN для повышения разрешения с 128×128 до 512×512 с одновременным подавлением артефактов реконструкции.
    • Достижение PSNR 28.31 дБ (IRSMFANet) и 27.5 дБ (IRSMFAGAN) на Synthetic_SWIR_Dataset по сравнению с 21.05 дБ для бикубической интерполяции
  • Блок сегментации дефектов

    • Двухэтапная стратегия обучения:
      1. полное обучение на имитационном наборе Imitation_SWIR_Dataset (proxy-данные в оттенках серого);
      2. fine-tuning с selective unfreezing на Synthetic_SWIR_Dataset и тестирование на реальном Food_Defect_SWIR_Dataset.
    • Архитектуры SWIR U-Net (encoder - ResNet50 backbone) и DeepLabV3 (ResNet50).
  • Функция ошибки InfraFusionLoss

    • Комбинация взвешенного BCE, Focal Loss и Tversky Loss для учёта сильного дисбаланса классов и разреженности дефектов.
    • Прирост метрик на Synthetic_SWIR_Dataset: +7–23% (IoU/Dice/MAP в зависимости от модели); на реальном Food_Defect_SWIR_Dataset (22 кадра): до +33.2% IoU, +22.3% Dice и +34.6% MAP для DeepLabV3.
  • Edge-инференс (Orange Pi 5B, ONNX)

    • Конвертация сегментационных моделей в ONNX и запуск на Orange Pi 5B без NPU.
    • Время инференса на одном изображении: 0.97 с (SWIR U-Net) и 1.27 с (DeepLabV3), что соответствует 1.03 и 0.79 FPS.
    • SWIR U-Net примерно на 24% быстрее DeepLabV3 и лучше подходит для систем с ограниченными ресурсами.

Датасеты

  • Imitation_SWIR_Dataset

    • 4060 изображений продуктов из 14 открытых RGB-датасетов, конвертированных в градации серого для имитации SWIR-структуры.
    • Бинарная разметка: единый класс «дефект», все типы неоднородностей объединены.
  • Synthetic_SWIR_Dataset

    • 5688 синтетических мультиспектральных триплетов (3 длины волн) с разрешением 128×128 и соответствующие триплеты 512×512 для super-resolution.
    • Используется и для обучения суперразрешения, и для второго этапа обучения сегментации.
  • Food_Defect_SWIR_Dataset

    • 167 SWIR-изображений пищевых продуктов, из которых 22 кадра размечены пиксельно для оценки сегментации дефектов.
    • Реальные данные для финального тестирования моделей суперразрешения и сегментации.

Ключевые результаты

  • Реализован полный стек: мультиспектральная SWIR SPC-камера → синтетический SWIR-датасет → суперразрешение (IRSMFANet/IRSMFAGAN) → сегментация дефектов (SWIR U-Net/DeepLabV3) → инференс на Orange Pi 5B.
  • IRSMFANet и IRSMFAGAN существенно повышают качество реконструкции по сравнению с бикубической интерполяцией, обеспечивая как рост PSNR, так и улучшение визуального восприятия.
  • Предложенная двухэтапная стратегия обучения сегментации (proxy → synthetic → real) позволяет успешно переносить знания на реальные SWIR-данные при ограниченном объёме разметки.
  • SWIR U-Net достигает качества, сопоставимого с DeepLabV3, при меньшей вычислительной сложности и ~24% выигрыше по скорости инференса на Orange Pi 5B, что критично для edge-сценариев.
  • Новая функция ошибки InfraFusionLoss даёт значительный прирост метрик на синтетических и реальных датасетах, особенно для DeepLabV3 на Food_Defect_SWIR_Dataset.

Используемые технологии

  • Глубокое обучение: PyTorch, DeepLabV3, U-Net (ResNet50 backbone), SWIR U-Net, IRSMFANet, IRSMFAGAN, transfer learning, selective unfreezing.
  • Обработка и моделирование: SPI-моделирование, генерация синтетических SWIR-данных, Hadamard-паттерны, Python/Matlab-скрипты.
  • Edge-инференс: экспорт моделей в ONNX, запуск на Orange Pi 5B.

Ограничения и планы развития

  • Текущая скорость инференса ориентирована на медленные конвейерные линии и лабораторный режим, а не на высокоскоростную сортировку.

Планируемые направления развития:

  • Увеличение объёма и разнообразия реальных SWIR-датасетов (разные продукты, дефекты, режимы съёмки).
  • Переход от бинарной сегментации к мультиклассовой (типизация дефектов).
  • Оптимизация и сжатие моделей (pruning, quantization), использование ускорителей (NPU/FPGA) для реального времени на конвейере.
  • Интеграция результатов в промышленный программно-аппаратный комплекс контроля качества и подготовка публикаций в ведущих журналах по компьютерному зрению и фотонике.

Проект выполняется в рамках НИРСИИ (Университета ИТМО).

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •  

Languages