db

Jump to bottom

siggu edited this page Nov 27, 2025 · 1 revision

📦 정책 데이터베이스 구축 프로세스

업로드 → 그루핑 → 보강 순으로 수행

① DB 업로드 단계

🔍 크롤링 + LLM 요약 결과 저장

필드명	설명	생성 방식
id	고유 정책 번호	순차적 부여
title	정책 제목	LLM 요약
requirements	자격 요건	LLM 요약
benefits	지원 혜택	LLM 요약
raw_text	문서 원문 전체	크롤링
url	원본 문서 링크	크롤링
policy_id	동일 정책 ID	초기값 = 자신의 `id`
region	지역	URL 기반 추출
sitename	사이트명	URL 기반 추출
weight	우선도	region 기반 계산 (높을수록 하위 기관)
eval_target	자격요건 요약 품질 점수	LLM 평가
eval_content	혜택 요약 품질 점수	LLM 평가
llm_reinforced	LLM 보강 문서	Reinforcer 결과
llm_sources	보강에 활용된 문서 목록	동일 정책 top-3

② DB 그루핑 (동일 정책 통합)

🎯 목적

서로 다른 사이트에 중복 존재하는 동일 정책을 통합
중복 추천 방지
보강 작업의 근거 확보

🔍 동일 정책 탐지 방법

정책 제목 유사도 기반 비교 → similarity threshold > 0.85
기관 계층 구조로 트리 구성 후 대표 정책 결정
- 트리의 루트 문서 ID로 policy_id 통일
- 예시:
```
초기: [1, 1], [3, 3], [10, 10]
병합: [1, 1], [3, 1], [10, 3]
최종: [1, 1], [3, 1], [10, 1]
```

📌 저장 구조

필드명	설명	생성 방식
policy_id	동일 정책 ID	동일 정책 중 최상위 기관 문서의 id
weight	우선도	낮을수록 상위 기관

③ DB 보강 (Reinforcement)

🧪 보강 대상 기준

요약 점수가 낮거나 원본 품질이 부족한 문서
- 크롤링 실패
- PDF OCR 품질 저조
- 정보 부족 등

🛠 보강 방식

동일한 정책 그룹 내 문서들을 활용
품질 기준이 낮은 문서를 그룹 내 top-3 문서 기반으로 LLM 보강

필드명	설명	기준 / 생성 방식
weight	우선도	region 기반 계산
eval_target	자격요건 요약 평가 점수	2점 이하 → 보강 대상
eval_content	혜택 요약 평가 점수	4점 이하 → 보강 대상
llm_reinforced	보강된 문서	동일 정책 top-3 요약 문서 기반 생성
llm_sources	보강 근거 문서 목록	top-3 문서의 `policy_id`

✨ 전체 구조 요약

단계	설명	목표
업로드	문서 저장 & 요약	초기 DB 확보
그루핑	동일 정책 통합	중복 제거 및 대표 문서 확정
보강	품질 낮은 문서 개선	사용자 추천 정확도 상승