Scientific Judge

Introduced Reinforcement Learning from Community Feedback (RLCF) for aligning AI with scientific reasoning, accompanied by a dataset of 700,000 scientific preference signals.

Paper (arXiv)GitHub Project Page

Outputs 2

paper

Introduced Reinforcement Learning from Community Feedback (RLCF) for aligning AI with scientific reasoning.

Paper (arXiv)GitHub Project Page

Scientific Judge Dataset

dataset

Dataset of 700,000 scientific preference signals for alignment research.

Paper (arXiv)GitHub

trainingreasoningresearch