На этой странице
TRL: SFT, DPO, PPO, GRPO, модели вознаграждения для RLHF LLM.
Метаданные навыка¶
| Источник | Встроенный (установлен по умолчанию) |
| Путь | skills/mlops/training/trl-fine-tuning |
| Версия | 1.0.0 |
| Автор | Orchestra Research |
| Лицензия | MIT |
| Зависимости | trl, transformers, datasets, peft, accelerate, torch |
| Теги | Post-Training, TRL, Reinforcement Learning, Fine-Tuning, SFT, DPO, PPO, GRPO, RLHF, Preference Alignment, HuggingFace |
Справочник: полный SKILL.md¶
info Ниже приведено полное определение навыка, которое загружает Hermes при его активации. Это то, что агент видит в качестве инструкций, когда навык активен.
TRL - Transformer Reinforcement Learning¶
Быстрый старт¶
TRL предоставляет методы пост-обучения для согласования языковых моделей с человеческими предпочтениями.
Установка:
[code] pip install trl transformers datasets peft accelerate
[/code]
Supervised Fine-Tuning (настройка на инструкции):
[code] from trl import SFTTrainer
trainer = SFTTrainer(
model="Qwen/Qwen2.5-0.5B",
train_dataset=dataset, # Пары промпт-ответ
)
trainer.train()
[/code]
DPO (согласование с предпочтениями):
[code] from trl import DPOTrainer, DPOConfig
config = DPOConfig(output_dir="model-dpo", beta=0.1)
trainer = DPOTrainer(
model=model,
args=config,
train_dataset=preference_dataset, # Пары chosen/rejected
processing_class=tokenizer
)
trainer.train()
[/code]
Типовые рабочие процессы¶
Рабочий процесс 1: Полный конвейер RLHF (SFT → Модель вознаграждения → PPO)¶
Полный конвейер от базовой модели до согласованной с человеком модели. Скопируйте этот чек-лист:
[code] RLHF Training: - [ ] Шаг 1: Supervised fine-tuning (SFT) - [ ] Шаг 2: Обучение модели вознаграждения - [ ] Шаг 3: PPO — обучение с подкреплением - [ ] Шаг 4: Оценка согласованной модели
[/code]
Шаг 1: Supervised fine-tuning Обучение базовой модели на данных следования инструкциям:
[code] from transformers import AutoModelForCausalLM, AutoTokenizer from trl import SFTTrainer, SFTConfig from datasets import load_dataset
# Загрузка модели
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B")
# Загрузка набора данных инструкций
dataset = load_dataset("trl-lib/Capybara", split="train")
# Настройка обучения
training_args = SFTConfig(
output_dir="Qwen2.5-0.5B-SFT",
per_device_train_batch_size=4,
num_train_epochs=1,
learning_rate=2e-5,
logging_steps=10,
save_strategy="epoch"
)
# Обучение
trainer = SFTTrainer(
model=model,
args=training_args,
train_dataset=dataset,
tokenizer=tokenizer
)
trainer.train()
trainer.save_model()
[/code]
Шаг 2: Обучение модели вознаграждения Обучение модели предсказывать человеческие предпочтения:
[code] from transformers import AutoModelForSequenceClassification from trl import RewardTrainer, RewardConfig
# Загрузка SFT-модели как базы
model = AutoModelForSequenceClassification.from_pretrained(
"Qwen2.5-0.5B-SFT",
num_labels=1 # Один показатель вознаграждения
)
tokenizer = AutoTokenizer.from_pretrained("Qwen2.5-0.5B-SFT")
# Загрузка данных предпочтений (пары chosen/rejected)
dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")
# Настройка обучения
training_args = RewardConfig(
output_dir="Qwen2.5-0.5B-Reward",
per_device_train_batch_size=2,
num_train_epochs=1,
learning_rate=1e-5
)
# Обучение модели вознаграждения
trainer = RewardTrainer(
model=model,
args=training_args,
processing_class=tokenizer,
train_dataset=dataset
)
trainer.train()
trainer.save_model()
[/code]
Шаг 3: PPO — обучение с подкреплением Оптимизация политики с использованием модели вознаграждения:
[code] python -m trl.scripts.ppo \ --model_name_or_path Qwen2.5-0.5B-SFT \ --reward_model_path Qwen2.5-0.5B-Reward \ --dataset_name trl-internal-testing/descriptiveness-sentiment-trl-style \ --output_dir Qwen2.5-0.5B-PPO \ --learning_rate 3e-6 \ --per_device_train_batch_size 64 \ --total_episodes 10000
[/code]
Шаг 4: Оценка
[code] from transformers import pipeline
# Загрузка согласованной модели
generator = pipeline("text-generation", model="Qwen2.5-0.5B-PPO")
# Тест
prompt = "Объясни квантовые вычисления 10-летнему ребёнку"
output = generator(prompt, max_length=200)[0]["generated_text"]
print(output)
[/code]
Рабочий процесс 2: Простое согласование предпочтений с DPO¶
Согласование модели с предпочтениями без модели вознаграждения. Скопируйте этот чек-лист:
[code] DPO Training: - [ ] Шаг 1: Подготовка набора данных предпочтений - [ ] Шаг 2: Настройка DPO - [ ] Шаг 3: Обучение с DPOTrainer - [ ] Шаг 4: Оценка согласования
[/code]
Шаг 1: Подготовка набора данных предпочтений Формат набора данных:
[code] { "prompt": "Какая столица Франции?", "chosen": "Столица Франции — Париж.", "rejected": "Я не знаю." }
[/code]
Загрузка набора данных:
[code] from datasets import load_dataset
dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")
# Или загрузите свой
# dataset = load_dataset("json", data_files="preferences.json")
[/code]
Шаг 2: Настройка DPO
[code] from trl import DPOConfig
config = DPOConfig(
output_dir="Qwen2.5-0.5B-DPO",
per_device_train_batch_size=4,
num_train_epochs=1,
learning_rate=5e-7,
beta=0.1, # Сила KL-штрафа
max_prompt_length=512,
max_length=1024,
logging_steps=10
)
[/code]
Шаг 3: Обучение с DPOTrainer
[code] from transformers import AutoModelForCausalLM, AutoTokenizer from trl import DPOTrainer
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
trainer = DPOTrainer(
model=model,
args=config,
train_dataset=dataset,
processing_class=tokenizer
)
trainer.train()
trainer.save_model()
[/code]
Альтернатива через CLI:
[code] trl dpo \ --model_name_or_path Qwen/Qwen2.5-0.5B-Instruct \ --dataset_name argilla/Capybara-Preferences \ --output_dir Qwen2.5-0.5B-DPO \ --per_device_train_batch_size 4 \ --learning_rate 5e-7 \ --beta 0.1
[/code]
Рабочий процесс 3: Энергоэффективное онлайн-обучение с GRPO¶
Обучение с подкреплением с минимальным потреблением памяти.
За подробным руководством по GRPO — проектированию функций вознаграждения, критическим аспектам обучения (поведению функции потерь, коллапсу мод, настройке) и продвинутым многоэтапным паттернам — обращайтесь к references/grpo-training.md. Готовый к использованию обучающий скрипт находится в templates/basic_grpo_training.py.
Скопируйте этот чек-лист:
[code] GRPO Training: - [ ] Шаг 1: Определение функции вознаграждения - [ ] Шаг 2: Настройка GRPO - [ ] Шаг 3: Обучение с GRPOTrainer
[/code]
Шаг 1: Определение функции вознаграждения
[code] def reward_function(completions, **kwargs): """ Вычисление вознаграждения для сгенерированных текстов.
Args:
completions: Список сгенерированных текстов
Returns:
Список оценок вознаграждения (float)
"""
rewards = []
for completion in completions:
# Пример: вознаграждение на основе длины и уникальных слов
score = len(completion.split()) # Поощрение длинных ответов
score += len(set(completion.lower().split())) # Поощрение уникальных слов
rewards.append(score)
return rewards
[/code]
Или используйте модель вознаграждения:
[code] from transformers import pipeline
reward_model = pipeline("text-classification", model="reward-model-path")
def reward_from_model(completions, prompts, **kwargs):
# Объединение промпта и ответа
full_texts = [p + c for p, c in zip(prompts, completions)]
# Получение оценок вознаграждения
results = reward_model(full_texts)
return [r["score"] for r in results]
[/code]
Шаг 2: Настройка GRPO
[code] from trl import GRPOConfig
config = GRPOConfig(
output_dir="Qwen2-GRPO",
per_device_train_batch_size=4,
num_train_epochs=1,
learning_rate=1e-5,
num_generations=4, # Генерация 4 ответов на каждый промпт
max_new_tokens=128
)
[/code]
Шаг 3: Обучение с GRPOTrainer
[code] from datasets import load_dataset from trl import GRPOTrainer
# Загрузка набора данных только с промптами
dataset = load_dataset("trl-lib/tldr", split="train")
trainer = GRPOTrainer(
model="Qwen/Qwen2-0.5B-Instruct",
reward_funcs=reward_function, # Ваша функция вознаграждения
args=config,
train_dataset=dataset
)
trainer.train()
[/code]
CLI:
[code] trl grpo \ --model_name_or_path Qwen/Qwen2-0.5B-Instruct \ --dataset_name trl-lib/tldr \ --output_dir Qwen2-GRPO \ --num_generations 4
[/code]
Когда использовать vs альтернативы¶
Используйте TRL когда:
- Нужно согласовать модель с человеческими предпочтениями
- Есть данные предпочтений (пары chosen/rejected)
- Требуется обучение с подкреплением (PPO, GRPO)
- Нужно обучение модели вознаграждения
- Выполняется RLHF (полный конвейер)
Выбор метода:
- SFT: Есть пары промпт-ответ, требуется базовое следование инструкциям
- DPO: Есть предпочтения, нужно простое согласование (модель вознаграждения не требуется)
- PPO: Есть модель вознаграждения, нужен максимальный контроль над RL
- GRPO: Ограниченная память, требуется онлайн-обучение с подкреплением
- Модель вознаграждения: Создание конвейера RLHF, требуется оценка генераций
Используйте альтернативы вместо:
- HuggingFace Trainer: Базовая донастройка без RL
- Axolotl: YAML-конфигурация обучения
- LitGPT: Образовательная, минимальная донастройка
- Unsloth: Быстрое LoRA-обучение
Частые проблемы¶
Проблема: OOM во время DPO-обучения Уменьшите размер батча и длину последовательности:
[code] config = DPOConfig( per_device_train_batch_size=1, # Уменьшить с 4 max_length=512, # Уменьшить с 1024 gradient_accumulation_steps=8 # Сохранение эффективного размера батча )
[/code]
Или используйте градиентную контрольную точку:
[code] model.gradient_checkpointing_enable()
[/code]
Проблема: Низкое качество согласования Настройте параметр beta:
[code] # Выше beta = более консервативно (ближе к эталону) config = DPOConfig(beta=0.5) # По умолчанию 0.1
# Ниже beta = более агрессивное согласование
config = DPOConfig(beta=0.01)
[/code]
Проблема: Модель вознаграждения не обучается Проверьте тип функции потерь и скорость обучения:
[code] config = RewardConfig( learning_rate=1e-5, # Попробуйте другую скорость обучения num_train_epochs=3 # Увеличьте длительность обучения )
[/code]
Убедитесь, что набор данных предпочтений имеет явных победителей:
[code] # Проверка набора данных print(dataset[0]) # Должен быть явно chosen > rejected
[/code]
Проблема: Нестабильное PPO-обучение Настройте коэффициент KL:
[code] config = PPOConfig( kl_coef=0.1, # Увеличить с 0.05 cliprange=0.1 # Уменьшить с 0.2 )
[/code]
Продвинутые темы¶
Руководство по SFT-обучению: См. references/sft-training.md о форматах наборов данных, чат-шаблонах, стратегиях упаковки и многогпу-обучении.
Варианты DPO: См. references/dpo-variants.md об IPO, cDPO, RPO и других функциях потерь DPO с рекомендуемыми гиперпараметрами.
Модели вознаграждения: См. references/reward-modeling.md о вознаграждении по результату и процессу, функции потерь Брэдли-Терри и оценке моделей вознаграждения.
Методы онлайн-RL: См. references/online-rl.md о PPO, GRPO, RLOO и OnlineDPO с подробными конфигурациями.
Углублённое изучение GRPO: См. references/grpo-training.md для экспертных паттернов GRPO — философия проектирования функций вознаграждения, идеи обучения (почему loss растёт, обнаружение коллапса мод), настройка гиперпараметров, многоэтапное обучение и устранение неполадок. Готовый шаблон в templates/basic_grpo_training.py.
Требования к оборудованию¶
- GPU: NVIDIA (CUDA обязательна)
- VRAM: Зависит от модели и метода
- SFT 7B: 16 ГБ (с LoRA)
- DPO 7B: 24 ГБ (хранит эталонную модель)
- PPO 7B: 40 ГБ (политика + модель вознаграждения)
- GRPO 7B: 24 ГБ (более эффективно по памяти)
- Multi-GPU: Поддерживается через
accelerate - Mixed precision: Рекомендуется BF16 (A100/H100)
Оптимизация памяти:
- Используйте LoRA/QLoRA для всех методов
- Включите градиентную контрольную точку
- Используйте меньшие размеры батча с накоплением градиента
Ресурсы¶
- Документация: https://huggingface.co/docs/trl/
- GitHub: https://github.com/huggingface/trl
- Статьи:
- "Training language models to follow instructions with human feedback" (InstructGPT, 2022)
- "Direct Preference Optimization: Your Language Model is Secretly a Reward Model" (DPO, 2023)
- "Group Relative Policy Optimization" (GRPO, 2024)
-
Примеры: https://github.com/huggingface/trl/tree/main/examples/scripts
- Справочник: полный SKILL.md
- Быстрый старт
- Типовые рабочие процессы
- Рабочий процесс 1: Полный конвейер RLHF (SFT → Модель вознаграждения → PPO)
- Рабочий процесс 2: Простое согласование предпочтений с DPO
- Рабочий процесс 3: Энергоэффективное онлайн-обучение с GRPO
- Когда использовать vs альтернативы
- Частые проблемы
- Продвинутые темы
- Требования к оборудованию
- Ресурсы