-
Notifications
You must be signed in to change notification settings - Fork 0
siggu edited this page Nov 27, 2025
·
1 revision
업로드 → 그루핑 → 보강 순으로 수행
| 필드명 | 설명 | 생성 방식 |
|---|---|---|
| id | 고유 정책 번호 | 순차적 부여 |
| title | 정책 제목 | LLM 요약 |
| requirements | 자격 요건 | LLM 요약 |
| benefits | 지원 혜택 | LLM 요약 |
| raw_text | 문서 원문 전체 | 크롤링 |
| url | 원본 문서 링크 | 크롤링 |
| policy_id | 동일 정책 ID | 초기값 = 자신의 id
|
| region | 지역 | URL 기반 추출 |
| sitename | 사이트명 | URL 기반 추출 |
| weight | 우선도 | region 기반 계산 (높을수록 하위 기관) |
| eval_target | 자격요건 요약 품질 점수 | LLM 평가 |
| eval_content | 혜택 요약 품질 점수 | LLM 평가 |
| llm_reinforced | LLM 보강 문서 | Reinforcer 결과 |
| llm_sources | 보강에 활용된 문서 목록 | 동일 정책 top-3 |
- 서로 다른 사이트에 중복 존재하는 동일 정책을 통합
- 중복 추천 방지
- 보강 작업의 근거 확보
- 정책 제목 유사도 기반 비교 → similarity threshold > 0.85
- 기관 계층 구조로 트리 구성 후 대표 정책 결정
- 트리의 루트 문서 ID로
policy_id통일 - 예시:
초기: [1, 1], [3, 3], [10, 10] 병합: [1, 1], [3, 1], [10, 3] 최종: [1, 1], [3, 1], [10, 1]
- 트리의 루트 문서 ID로
| 필드명 | 설명 | 생성 방식 |
|---|---|---|
| policy_id | 동일 정책 ID | 동일 정책 중 최상위 기관 문서의 id |
| weight | 우선도 | 낮을수록 상위 기관 |
-
요약 점수가 낮거나 원본 품질이 부족한 문서
- 크롤링 실패
- PDF OCR 품질 저조
- 정보 부족 등
- 동일한 정책 그룹 내 문서들을 활용
- 품질 기준이 낮은 문서를 그룹 내 top-3 문서 기반으로 LLM 보강
| 필드명 | 설명 | 기준 / 생성 방식 |
|---|---|---|
| weight | 우선도 | region 기반 계산 |
| eval_target | 자격요건 요약 평가 점수 | 2점 이하 → 보강 대상 |
| eval_content | 혜택 요약 평가 점수 | 4점 이하 → 보강 대상 |
| llm_reinforced | 보강된 문서 | 동일 정책 top-3 요약 문서 기반 생성 |
| llm_sources | 보강 근거 문서 목록 | top-3 문서의 policy_id
|
| 단계 | 설명 | 목표 |
|---|---|---|
| 업로드 | 문서 저장 & 요약 | 초기 DB 확보 |
| 그루핑 | 동일 정책 통합 | 중복 제거 및 대표 문서 확정 |
| 보강 | 품질 낮은 문서 개선 | 사용자 추천 정확도 상승 |