CARE: Confounder-Aware Aggregation for Reliable LLM Evaluation

Jitian Zhao*, Changho Shin*, Tzu-Heng Huang, Satya Sai Srinath Namburi GNVV, Frederic Sala

Paper Link: TBD

Install

pip install -r requirements.txt

Run pipeline

1) Generate LLM judge outputs

python scripts/save_judge_outputs.py \
  --datasets asset_ratings civilcomments_binary allenai_preference_test_sets/pku_better_binary \
  --mode gaussian_mixture

Output path example: judge_outputs/fully_gaussian/asset/Qwen3-8B.csv

2) Run aggregations

Fully Gaussian (table 1 experiment):

python scripts/fully_gaussian_main.py --seed 2024

Gaussian mixture (table 2 experiment):

python scripts/gaussian_mixture_main.py --seed 42 --datasets civilcomments pku_better

Citation

TBD

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
data		data
judge_outputs		judge_outputs
scripts		scripts
src		src
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CARE: Confounder-Aware Aggregation for Reliable LLM Evaluation

Install

Run pipeline

1) Generate LLM judge outputs

2) Run aggregations

Citation

About

Uh oh!

Releases

Packages

Languages

SprocketLab/CARE

Folders and files

Latest commit

History

Repository files navigation

CARE: Confounder-Aware Aggregation for Reliable LLM Evaluation

Install

Run pipeline

1) Generate LLM judge outputs

2) Run aggregations

Citation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages