Vision-AI-Tutorials

💡 Computer Vision과 AI를 쉽게 배우고 실습할 수 있는 튜토리얼, 실험 및 분석 자료 모음입니다. 최신 모델과 기술을 활용한 단계별 학습 가이드부터 직접 설계한 모델의 실험 결과까지 제공합니다 🙌

📋 목차

Perception
Multi-modal AI
Video Understanding
Image Generation
Inference Acceleration
Etc
공부 자료

📌 Perception

Image Classification

Mini-ViT Vision Transformer 학습
- 경량화된 Vision Transformer(ViT)인 Mini-ViT 설계
- 패치 임베딩, 위치 인코딩, Multi-Head Self-Attention, Transformer 블록 단계별 학습
- CIFAR-10 데이터셋으로 Mini-ViT 학습 및 성능 평가
SwinT 이미지 분류 모델 학습
- Huggingface 기반 SwinT 모델 학습 및 평가
- 계층적 특징 추출과 이동 윈도우 메커니즘 활용하여 ViT 대비 높은 정확도와 효율적인 계산 비용으로 대규모 이미지 분류에 적합
SwinT PyTorch 기반 학습
- PyTorch 프레임워크를 활용한 SwinT 모델 학습
- Huggingface 없이 순수 PyTorch로 구현하여 모델 구조와 학습 과정을 더 깊이 이해
CLIP Zero-shot 분류
- 사전 학습된 CLIP 모델을 활용한 Zero-shot 이미지 분류
- 텍스트-이미지 쌍 학습을 통해 새로운 클래스에 대한 분류 가능
- 별도의 학습 없이 텍스트 프롬프트만으로 이미지 분류 수행

Object Detection

YOLOv5 커스텀 데이터셋 학습
- YOLOv5 기반 커스텀 데이터셋 학습 및 추론
- 실시간 객체 검출이 가능한 경량화된 모델
OWLv2 Zero-Shot 객체 검출
- Google의 OWLv2 모델을 활용한 텍스트 기반 Zero-shot 객체 검출
- 텍스트 쿼리만으로 새로운 객체 검출 가능

Segmentation

SAM 자동 마스크 생성
- Meta의 Segment Anything Model(SAM) 기반 자동 객체 분할
- 대규모 데이터셋으로 학습된 범용 세그멘테이션 모델
- 다양한 도메인의 이미지에서 객체 분할 가능
FastSAM 인터랙티브 세그멘테이션
- FastSAM 기반 실시간 인터랙티브 세그멘테이션 도구
- SAM 대비 50배 빠른 처리 속도와 10배 작은 모델 크기
- 전체 이미지 자동 세그멘테이션과 클릭 기반 포인트 세그멘테이션 지원
- 객체별 차별화된 색상 시각화

📌 Multi-modal AI

Image Captioning 이미지 캡셔닝
- Qwen3-VL-4B-Instruct: Alibaba의 Qwen3-VL 모델로 영어 캡셔닝
- Gemma-3-4B-IT: Google DeepMind의 Gemma-3 모델로 한국어 캡셔닝
BLIP Vision-Language 모델
- Vision-Language 모델인 BLIP을 활용한 Image Captioning과 Visual Question Answering (VQA)
- PyQt5 GUI 인터페이스 제공
- 실시간 이미지 로드 및 분석, 다양한 사전 정의된 질문 템플릿 지원
- CPU 환경에서 사용 가능
Mini-CLIP 경량화된 CLIP 모델 학습
- 커스텀 경량화된 CLIP (Contrastive Language-Image Pre-training) 모델 설계 및 학습
- Flickr8K 데이터셋으로 이미지-텍스트 쌍 학습 및 제로샷 분류 성능 평가
- 상세한 실험 결과와 사용법은 Mini-CLIP README 참고

📌 Image Generation

Stable Diffusion 텍스트 기반 이미지 생성
- Stable Diffusion v1.4 기반 텍스트-이미지 생성
- 고품질 이미지 생성과 빠른 추론 속도
- 다양한 스타일과 콘셉트의 이미지 생성 가능
LDM MNIST - Latent Diffusion 모델 학습
- 커스텀 LDM(Latent Diffusion Model) 설계
- MNIST 데이터셋으로 LDM 학습 및 실험
- VAE + U-Net 기반 latent space에서의 효율적인 diffusion 구현
- 클래스 조건부 생성으로 원하는 숫자(0~9) 생성 가능
- 상세한 학습 과정과 시각화 결과는 LDM_MNIST README 참고
DiT FashionMNIST - Diffusion Transformer 모델 학습
- 커스텀 DiT(Diffusion Transformer) 설계
- FashionMNIST 데이터셋으로 DiT 학습
- VAE + Transformer 기반으로 U-Net 대신 Transformer 아키텍처 사용
- AdaLN-Zero 조건부 방법으로 10가지 패션 아이템 클래스별 생성 가능
- 상세한 구현과 실험 결과는 DiT_FashionMNIST README 참고

📌 Inference Acceleration

vLLM VLM 가속화
- vLLM을 활용한 Vision-Language Model 추론 속도 가속화
- Qwen2-VL-7B 모델로 Transformers 대비 7.34배 속도 향상 달성
- BF16, CUDA Graph, Chunked Prefill 등 다양한 최적화 기법 비교 실험
- 간단한 예제 코드와 종합 벤치마크 제공
- 상세한 실험 결과와 분석은 Inference_Acceleration README 참고

📌 Etc

Ray tutorial
- Ray를 활용한 간단한 데이터 분산처리 및 분산 학습 실험 예제

📚 공부 자료

OpenCV 학습 자료

OpenCV 4로 배우는 컴퓨터 비전과 머신 러닝
- 『OpenCV 4로 배우는 컴퓨터 비전과 머신 러닝』(길벗, 2019) 책의 공식 소스 코드
- C/C++과 Python 예제 코드 모두 제공
- 한글 설명
OpenCV-Python 완전 정복
- Python 기반 OpenCV 완전 학습 가이드
- 실무에 바로 적용 가능한 다양한 예제들
- 한글 설명

Computer Vision & Deep Learning 종합 자료

Awesome Deep Learning
- 딥러닝 학습을 위한 종합 큐레이션 리스트
- 책, 강의, 논문, 튜토리얼, 프레임워크 등 모든 리소스 제공
- 연구자와 개발자를 위한 최신 딥러닝 동향 및 도구 소개
Awesome Computer Vision
- 컴퓨터 비전 분야의 가장 포괄적인 리소스 모음
- 논문, 데이터셋, 소프트웨어, 튜토리얼 등 체계적으로 정리
- Object Detection, Face Recognition, 3D Vision 등 세부 분야별 자료 제공
LearnOpenCV
- 컴퓨터 비전 & 딥러닝 실습 예제 모음
- 블로그 글과 연동된 실제 구현 코드 제공
Microsoft Computer Vision Recipes
- 마이크로소프트에서 제공하는 컴퓨터 비전 실습 자료
- 실무에서 바로 활용 가능한 코드 샘플과 문서 제공
- 분류, 객체 검출, 세그멘테이션 등 다양한 태스크 커버
Roboflow Notebooks
- 최신 컴퓨터 비전 모델 실습 튜토리얼 모음
- Google Colab, Kaggle Notebook으로 바로 실행 가능
- YOLO, SAM, Grounding DINO 등 최신 모델들의 실습 예제 제공

Name		Name	Last commit message	Last commit date
Latest commit History 49 Commits
Etc/ray_tutorial		Etc/ray_tutorial
Image_Generation		Image_Generation
Multi_Modal		Multi_Modal
Perception		Perception
inference_acceleration		inference_acceleration
sample_images		sample_images
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Vision-AI-Tutorials

📋 목차

📌 Perception

Image Classification

Object Detection

Segmentation

📌 Multi-modal AI

📌 Image Generation

📌 Inference Acceleration

📌 Etc

📚 공부 자료

OpenCV 학습 자료

Computer Vision & Deep Learning 종합 자료

About

Uh oh!

Releases

Packages

Languages

ldj7672/Vision-AI-Tutorials

Folders and files

Latest commit

History

Repository files navigation

Vision-AI-Tutorials

📋 목차

📌 Perception

Image Classification

Object Detection

Segmentation

📌 Multi-modal AI

📌 Image Generation

📌 Inference Acceleration

📌 Etc

📚 공부 자료

OpenCV 학습 자료

Computer Vision & Deep Learning 종합 자료

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages