aerosta

Follow

aerosta

Follow

Boston, MA

Pinned Loading

rewardhackwatch rewardhackwatch Public

Runtime detector for reward hacking and misalignment in LLM agents (89.7% F1 on 5,391 trajectories).

Python 2