Direct Preference Optimization (DPO)

[dɪˈrɛkt ˈprɛfərəns ˌɒptɪmaɪˈzeɪʃən di pi oʊ]

Machine Learning

Last updated: April 4, 2025

Definition

A technique aligning LLMs with human preferences directly using preference data, often simpler than RLHF.

Detailed Explanation

A technique for aligning language models with human preferences directly using preference data, often simpler to implement than traditional reinforcement learning-based methods like RLHF.

Use Cases

Fine-tuning language models based on human feedback datasets, simplifying the alignment process compared to RLHF, improving model helpfulness and safety.

Definition

Detailed Explanation

Use Cases

Related Terms

ROC Curve

Collaborative Filtering

DBSCAN

Help

People also viewed

Create AI Tools

Mini Tool

Vibe code an AI Tool