Проект посвящён разработке мультиспектральной однопиксельной камеры в SWIR-диапазоне и полного AI-пайплайна для повышения разрешения и сегментации дефектов на инфракрасных изображениях. Основные целевые приложения — контроль качества пищевых продуктов на конвейерных линиях и исследовательские лабораторные сценарии, где требуется точная локализация мелких и разреженных дефектов. Ключевая особенность проекта — сочетание аппаратной реализации мультиспектральной SWIR-однопиксельной визуализации с моделями суперразрешения и семантической сегментации, адаптированными под ограничения реального edge-устройства (Orange Pi 5B).
-
Мультиспектральная SWIR SPC-камера
- Спектрально-временное мультиплексирование на основе импульсных волоконных лазеров на нескольких длинах волн (SWIR-диапазон), а именно 940, 1065, 1550 нм.
- Цифровое микрозеркальное устройство (DMD) для проецирования ортогональных паттернов Адамара на объект.
- Обработка данных детектора** с методом наложения паттернов освещения.
-
Моделирование и синтетические данные
- Метод генерации синтетического набора данных Synthetic_SWIR_Dataset на основе численного моделирования SPI с оптимизацией параметров шума, контраста и паттернов освещения.
- Максимизация корреляции между реальными и синтезированными однопиксельными изображениями для приближения распределения реальных SWIR-данных.
-
Блок суперразрешения
- Архитектуры IRSMFANet и IRSMFAGAN для повышения разрешения с 128×128 до 512×512 с одновременным подавлением артефактов реконструкции.
- Достижение PSNR 28.31 дБ (IRSMFANet) и 27.5 дБ (IRSMFAGAN) на Synthetic_SWIR_Dataset по сравнению с 21.05 дБ для бикубической интерполяции
-
Блок сегментации дефектов
- Двухэтапная стратегия обучения:
- полное обучение на имитационном наборе Imitation_SWIR_Dataset (proxy-данные в оттенках серого);
- fine-tuning с selective unfreezing на Synthetic_SWIR_Dataset и тестирование на реальном Food_Defect_SWIR_Dataset.
- Архитектуры SWIR U-Net (encoder - ResNet50 backbone) и DeepLabV3 (ResNet50).
- Двухэтапная стратегия обучения:
-
Функция ошибки InfraFusionLoss
- Комбинация взвешенного BCE, Focal Loss и Tversky Loss для учёта сильного дисбаланса классов и разреженности дефектов.
- Прирост метрик на Synthetic_SWIR_Dataset: +7–23% (IoU/Dice/MAP в зависимости от модели); на реальном Food_Defect_SWIR_Dataset (22 кадра): до +33.2% IoU, +22.3% Dice и +34.6% MAP для DeepLabV3.
-
Edge-инференс (Orange Pi 5B, ONNX)
- Конвертация сегментационных моделей в ONNX и запуск на Orange Pi 5B без NPU.
- Время инференса на одном изображении: 0.97 с (SWIR U-Net) и 1.27 с (DeepLabV3), что соответствует 1.03 и 0.79 FPS.
- SWIR U-Net примерно на 24% быстрее DeepLabV3 и лучше подходит для систем с ограниченными ресурсами.
-
Imitation_SWIR_Dataset
- 4060 изображений продуктов из 14 открытых RGB-датасетов, конвертированных в градации серого для имитации SWIR-структуры.
- Бинарная разметка: единый класс «дефект», все типы неоднородностей объединены.
-
Synthetic_SWIR_Dataset
- 5688 синтетических мультиспектральных триплетов (3 длины волн) с разрешением 128×128 и соответствующие триплеты 512×512 для super-resolution.
- Используется и для обучения суперразрешения, и для второго этапа обучения сегментации.
-
Food_Defect_SWIR_Dataset
- 167 SWIR-изображений пищевых продуктов, из которых 22 кадра размечены пиксельно для оценки сегментации дефектов.
- Реальные данные для финального тестирования моделей суперразрешения и сегментации.
- Реализован полный стек: мультиспектральная SWIR SPC-камера → синтетический SWIR-датасет → суперразрешение (IRSMFANet/IRSMFAGAN) → сегментация дефектов (SWIR U-Net/DeepLabV3) → инференс на Orange Pi 5B.
- IRSMFANet и IRSMFAGAN существенно повышают качество реконструкции по сравнению с бикубической интерполяцией, обеспечивая как рост PSNR, так и улучшение визуального восприятия.
- Предложенная двухэтапная стратегия обучения сегментации (proxy → synthetic → real) позволяет успешно переносить знания на реальные SWIR-данные при ограниченном объёме разметки.
- SWIR U-Net достигает качества, сопоставимого с DeepLabV3, при меньшей вычислительной сложности и ~24% выигрыше по скорости инференса на Orange Pi 5B, что критично для edge-сценариев.
- Новая функция ошибки InfraFusionLoss даёт значительный прирост метрик на синтетических и реальных датасетах, особенно для DeepLabV3 на Food_Defect_SWIR_Dataset.
- Глубокое обучение: PyTorch, DeepLabV3, U-Net (ResNet50 backbone), SWIR U-Net, IRSMFANet, IRSMFAGAN, transfer learning, selective unfreezing.
- Обработка и моделирование: SPI-моделирование, генерация синтетических SWIR-данных, Hadamard-паттерны, Python/Matlab-скрипты.
- Edge-инференс: экспорт моделей в ONNX, запуск на Orange Pi 5B.
- Текущая скорость инференса ориентирована на медленные конвейерные линии и лабораторный режим, а не на высокоскоростную сортировку.
Планируемые направления развития:
- Увеличение объёма и разнообразия реальных SWIR-датасетов (разные продукты, дефекты, режимы съёмки).
- Переход от бинарной сегментации к мультиклассовой (типизация дефектов).
- Оптимизация и сжатие моделей (pruning, quantization), использование ускорителей (NPU/FPGA) для реального времени на конвейере.
- Интеграция результатов в промышленный программно-аппаратный комплекс контроля качества и подготовка публикаций в ведущих журналах по компьютерному зрению и фотонике.
Проект выполняется в рамках НИРСИИ (Университета ИТМО).