Skip to content
siggu edited this page Nov 27, 2025 · 1 revision

📦 정책 데이터베이스 구축 프로세스

업로드 → 그루핑 → 보강 순으로 수행

DB 업로드 단계

🔍 크롤링 + LLM 요약 결과 저장

필드명 설명 생성 방식
id 고유 정책 번호 순차적 부여
title 정책 제목 LLM 요약
requirements 자격 요건 LLM 요약
benefits 지원 혜택 LLM 요약
raw_text 문서 원문 전체 크롤링
url 원본 문서 링크 크롤링
policy_id 동일 정책 ID 초기값 = 자신의 id
region 지역 URL 기반 추출
sitename 사이트명 URL 기반 추출
weight 우선도 region 기반 계산 (높을수록 하위 기관)
eval_target 자격요건 요약 품질 점수 LLM 평가
eval_content 혜택 요약 품질 점수 LLM 평가
llm_reinforced LLM 보강 문서 Reinforcer 결과
llm_sources 보강에 활용된 문서 목록 동일 정책 top-3

DB 그루핑 (동일 정책 통합)

🎯 목적

  • 서로 다른 사이트에 중복 존재하는 동일 정책을 통합
  • 중복 추천 방지
  • 보강 작업의 근거 확보

🔍 동일 정책 탐지 방법

  • 정책 제목 유사도 기반 비교 → similarity threshold > 0.85
  • 기관 계층 구조로 트리 구성 후 대표 정책 결정
    • 트리의 루트 문서 ID로 policy_id 통일
    • 예시:
      초기: [1, 1], [3, 3], [10, 10]
      병합: [1, 1], [3, 1], [10, 3]
      최종: [1, 1], [3, 1], [10, 1]
      
      

📌 저장 구조

필드명 설명 생성 방식
policy_id 동일 정책 ID 동일 정책 중 최상위 기관 문서의 id
weight 우선도 낮을수록 상위 기관

DB 보강 (Reinforcement)

🧪 보강 대상 기준

  • 요약 점수가 낮거나 원본 품질이 부족한 문서
    • 크롤링 실패
    • PDF OCR 품질 저조
    • 정보 부족 등

🛠 보강 방식

  • 동일한 정책 그룹 내 문서들을 활용
  • 품질 기준이 낮은 문서를 그룹 내 top-3 문서 기반으로 LLM 보강
필드명 설명 기준 / 생성 방식
weight 우선도 region 기반 계산
eval_target 자격요건 요약 평가 점수 2점 이하 → 보강 대상
eval_content 혜택 요약 평가 점수 4점 이하 → 보강 대상
llm_reinforced 보강된 문서 동일 정책 top-3 요약 문서 기반 생성
llm_sources 보강 근거 문서 목록 top-3 문서의 policy_id

✨ 전체 구조 요약

단계 설명 목표
업로드 문서 저장 & 요약 초기 DB 확보
그루핑 동일 정책 통합 중복 제거 및 대표 문서 확정
보강 품질 낮은 문서 개선 사용자 추천 정확도 상승

Clone this wiki locally