Skip to content

abjin/rag-optimization-experiment

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

50 Commits
 
 
 
 
 
 
 
 

Repository files navigation

rag-optimization-experiment

RAG 파라미터(TopK, Chunk Size, Overlap) 최적화 실험

Contents

Setup

cd experiments
pip install -r requirements.txt

Download Dataset

git clone https://github.com/kubernetes/website
cp -r  ./website/content/ko ./ko

Pinecone Setup

Pinecone에 rag-notes 인덱스와 아래 9개의 네임스페이스 생성이 필요합니다.

Namespace Chunk Size Overlap
cs256-ov0 256 0%
cs256-ov15 256 15%
cs256-ov30 256 30%
cs512-ov0 512 0%
cs512-ov15 512 15%
cs512-ov30 512 30%
cs1024-ov0 1024 0%
cs1024-ov15 1024 15%
cs1024-ov30 1024 30%

Usage

모든 스크립트는 experiments/ 디렉토리에서 실행합니다.

1. 문서 전처리 및 임베딩

python preprocessing_pipeline.py

./ko 폴더의 마크다운 문서를 청킹하여 Pinecone에 업로드합니다. 위 9개 네임스페이스에 각각 다른 파라미터로 임베딩된 데이터가 저장됩니다.

2. RAG 실험 실행

python experiment.py

questions.json의 질문들에 대해 다양한 파라미터 조합으로 RAG 실험을 수행하고, 결과를 experiment_results.json에 저장합니다.

3. RAGAS 평가

python evaluate.py

experiment_results.json의 실험 결과를 RAGAS 메트릭으로 평가하고, 결과를 evaluation_results.json에 저장합니다.

About

RAG 파라미터(TopK, Chunk Size, Overlap) 최적화 실험

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published