Перейти к содержанию

На этой странице

TRL: SFT, DPO, PPO, GRPO, модели вознаграждения для RLHF LLM.

Метаданные навыка

Источник Встроенный (установлен по умолчанию)
Путь skills/mlops/training/trl-fine-tuning
Версия 1.0.0
Автор Orchestra Research
Лицензия MIT
Зависимости trl, transformers, datasets, peft, accelerate, torch
Теги Post-Training, TRL, Reinforcement Learning, Fine-Tuning, SFT, DPO, PPO, GRPO, RLHF, Preference Alignment, HuggingFace

Справочник: полный SKILL.md

info Ниже приведено полное определение навыка, которое загружает Hermes при его активации. Это то, что агент видит в качестве инструкций, когда навык активен.

TRL - Transformer Reinforcement Learning

Быстрый старт

TRL предоставляет методы пост-обучения для согласования языковых моделей с человеческими предпочтениями.

Установка:

[code] pip install trl transformers datasets peft accelerate

[/code]

Supervised Fine-Tuning (настройка на инструкции):

[code] from trl import SFTTrainer

trainer = SFTTrainer(
    model="Qwen/Qwen2.5-0.5B",
    train_dataset=dataset,  # Пары промпт-ответ
)
trainer.train()

[/code]

DPO (согласование с предпочтениями):

[code] from trl import DPOTrainer, DPOConfig

config = DPOConfig(output_dir="model-dpo", beta=0.1)
trainer = DPOTrainer(
    model=model,
    args=config,
    train_dataset=preference_dataset,  # Пары chosen/rejected
    processing_class=tokenizer
)
trainer.train()

[/code]

Типовые рабочие процессы

Рабочий процесс 1: Полный конвейер RLHF (SFT → Модель вознаграждения → PPO)

Полный конвейер от базовой модели до согласованной с человеком модели. Скопируйте этот чек-лист:

[code] RLHF Training: - [ ] Шаг 1: Supervised fine-tuning (SFT) - [ ] Шаг 2: Обучение модели вознаграждения - [ ] Шаг 3: PPO — обучение с подкреплением - [ ] Шаг 4: Оценка согласованной модели

[/code]

Шаг 1: Supervised fine-tuning Обучение базовой модели на данных следования инструкциям:

[code] from transformers import AutoModelForCausalLM, AutoTokenizer from trl import SFTTrainer, SFTConfig from datasets import load_dataset

# Загрузка модели
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B")

# Загрузка набора данных инструкций
dataset = load_dataset("trl-lib/Capybara", split="train")

# Настройка обучения
training_args = SFTConfig(
    output_dir="Qwen2.5-0.5B-SFT",
    per_device_train_batch_size=4,
    num_train_epochs=1,
    learning_rate=2e-5,
    logging_steps=10,
    save_strategy="epoch"
)

# Обучение
trainer = SFTTrainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    tokenizer=tokenizer
)
trainer.train()
trainer.save_model()

[/code]

Шаг 2: Обучение модели вознаграждения Обучение модели предсказывать человеческие предпочтения:

[code] from transformers import AutoModelForSequenceClassification from trl import RewardTrainer, RewardConfig

# Загрузка SFT-модели как базы
model = AutoModelForSequenceClassification.from_pretrained(
    "Qwen2.5-0.5B-SFT",
    num_labels=1  # Один показатель вознаграждения
)
tokenizer = AutoTokenizer.from_pretrained("Qwen2.5-0.5B-SFT")

# Загрузка данных предпочтений (пары chosen/rejected)
dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")

# Настройка обучения
training_args = RewardConfig(
    output_dir="Qwen2.5-0.5B-Reward",
    per_device_train_batch_size=2,
    num_train_epochs=1,
    learning_rate=1e-5
)

# Обучение модели вознаграждения
trainer = RewardTrainer(
    model=model,
    args=training_args,
    processing_class=tokenizer,
    train_dataset=dataset
)
trainer.train()
trainer.save_model()

[/code]

Шаг 3: PPO — обучение с подкреплением Оптимизация политики с использованием модели вознаграждения:

[code] python -m trl.scripts.ppo \ --model_name_or_path Qwen2.5-0.5B-SFT \ --reward_model_path Qwen2.5-0.5B-Reward \ --dataset_name trl-internal-testing/descriptiveness-sentiment-trl-style \ --output_dir Qwen2.5-0.5B-PPO \ --learning_rate 3e-6 \ --per_device_train_batch_size 64 \ --total_episodes 10000

[/code]

Шаг 4: Оценка

[code] from transformers import pipeline

# Загрузка согласованной модели
generator = pipeline("text-generation", model="Qwen2.5-0.5B-PPO")

# Тест
prompt = "Объясни квантовые вычисления 10-летнему ребёнку"
output = generator(prompt, max_length=200)[0]["generated_text"]
print(output)

[/code]

Рабочий процесс 2: Простое согласование предпочтений с DPO

Согласование модели с предпочтениями без модели вознаграждения. Скопируйте этот чек-лист:

[code] DPO Training: - [ ] Шаг 1: Подготовка набора данных предпочтений - [ ] Шаг 2: Настройка DPO - [ ] Шаг 3: Обучение с DPOTrainer - [ ] Шаг 4: Оценка согласования

[/code]

Шаг 1: Подготовка набора данных предпочтений Формат набора данных:

[code] { "prompt": "Какая столица Франции?", "chosen": "Столица Франции — Париж.", "rejected": "Я не знаю." }

[/code]

Загрузка набора данных:

[code] from datasets import load_dataset

dataset = load_dataset("trl-lib/ultrafeedback_binarized", split="train")
# Или загрузите свой
# dataset = load_dataset("json", data_files="preferences.json")

[/code]

Шаг 2: Настройка DPO

[code] from trl import DPOConfig

config = DPOConfig(
    output_dir="Qwen2.5-0.5B-DPO",
    per_device_train_batch_size=4,
    num_train_epochs=1,
    learning_rate=5e-7,
    beta=0.1,  # Сила KL-штрафа
    max_prompt_length=512,
    max_length=1024,
    logging_steps=10
)

[/code]

Шаг 3: Обучение с DPOTrainer

[code] from transformers import AutoModelForCausalLM, AutoTokenizer from trl import DPOTrainer

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")

trainer = DPOTrainer(
    model=model,
    args=config,
    train_dataset=dataset,
    processing_class=tokenizer
)

trainer.train()
trainer.save_model()

[/code]

Альтернатива через CLI:

[code] trl dpo \ --model_name_or_path Qwen/Qwen2.5-0.5B-Instruct \ --dataset_name argilla/Capybara-Preferences \ --output_dir Qwen2.5-0.5B-DPO \ --per_device_train_batch_size 4 \ --learning_rate 5e-7 \ --beta 0.1

[/code]

Рабочий процесс 3: Энергоэффективное онлайн-обучение с GRPO

Обучение с подкреплением с минимальным потреблением памяти.

За подробным руководством по GRPO — проектированию функций вознаграждения, критическим аспектам обучения (поведению функции потерь, коллапсу мод, настройке) и продвинутым многоэтапным паттернам — обращайтесь к references/grpo-training.md. Готовый к использованию обучающий скрипт находится в templates/basic_grpo_training.py.

Скопируйте этот чек-лист:

[code] GRPO Training: - [ ] Шаг 1: Определение функции вознаграждения - [ ] Шаг 2: Настройка GRPO - [ ] Шаг 3: Обучение с GRPOTrainer

[/code]

Шаг 1: Определение функции вознаграждения

[code] def reward_function(completions, **kwargs): """ Вычисление вознаграждения для сгенерированных текстов.

    Args:
        completions: Список сгенерированных текстов

    Returns:
        Список оценок вознаграждения (float)
    """
    rewards = []
    for completion in completions:
        # Пример: вознаграждение на основе длины и уникальных слов
        score = len(completion.split())  # Поощрение длинных ответов
        score += len(set(completion.lower().split()))  # Поощрение уникальных слов
        rewards.append(score)
    return rewards

[/code]

Или используйте модель вознаграждения:

[code] from transformers import pipeline

reward_model = pipeline("text-classification", model="reward-model-path")

def reward_from_model(completions, prompts, **kwargs):
    # Объединение промпта и ответа
    full_texts = [p + c for p, c in zip(prompts, completions)]
    # Получение оценок вознаграждения
    results = reward_model(full_texts)
    return [r["score"] for r in results]

[/code]

Шаг 2: Настройка GRPO

[code] from trl import GRPOConfig

config = GRPOConfig(
    output_dir="Qwen2-GRPO",
    per_device_train_batch_size=4,
    num_train_epochs=1,
    learning_rate=1e-5,
    num_generations=4,  # Генерация 4 ответов на каждый промпт
    max_new_tokens=128
)

[/code]

Шаг 3: Обучение с GRPOTrainer

[code] from datasets import load_dataset from trl import GRPOTrainer

# Загрузка набора данных только с промптами
dataset = load_dataset("trl-lib/tldr", split="train")

trainer = GRPOTrainer(
    model="Qwen/Qwen2-0.5B-Instruct",
    reward_funcs=reward_function,  # Ваша функция вознаграждения
    args=config,
    train_dataset=dataset
)

trainer.train()

[/code]

CLI:

[code] trl grpo \ --model_name_or_path Qwen/Qwen2-0.5B-Instruct \ --dataset_name trl-lib/tldr \ --output_dir Qwen2-GRPO \ --num_generations 4

[/code]

Когда использовать vs альтернативы

Используйте TRL когда:

  • Нужно согласовать модель с человеческими предпочтениями
  • Есть данные предпочтений (пары chosen/rejected)
  • Требуется обучение с подкреплением (PPO, GRPO)
  • Нужно обучение модели вознаграждения
  • Выполняется RLHF (полный конвейер)

Выбор метода:

  • SFT: Есть пары промпт-ответ, требуется базовое следование инструкциям
  • DPO: Есть предпочтения, нужно простое согласование (модель вознаграждения не требуется)
  • PPO: Есть модель вознаграждения, нужен максимальный контроль над RL
  • GRPO: Ограниченная память, требуется онлайн-обучение с подкреплением
  • Модель вознаграждения: Создание конвейера RLHF, требуется оценка генераций

Используйте альтернативы вместо:

  • HuggingFace Trainer: Базовая донастройка без RL
  • Axolotl: YAML-конфигурация обучения
  • LitGPT: Образовательная, минимальная донастройка
  • Unsloth: Быстрое LoRA-обучение

Частые проблемы

Проблема: OOM во время DPO-обучения Уменьшите размер батча и длину последовательности:

[code] config = DPOConfig( per_device_train_batch_size=1, # Уменьшить с 4 max_length=512, # Уменьшить с 1024 gradient_accumulation_steps=8 # Сохранение эффективного размера батча )

[/code]

Или используйте градиентную контрольную точку:

[code] model.gradient_checkpointing_enable()

[/code]

Проблема: Низкое качество согласования Настройте параметр beta:

[code] # Выше beta = более консервативно (ближе к эталону) config = DPOConfig(beta=0.5) # По умолчанию 0.1

# Ниже beta = более агрессивное согласование
config = DPOConfig(beta=0.01)

[/code]

Проблема: Модель вознаграждения не обучается Проверьте тип функции потерь и скорость обучения:

[code] config = RewardConfig( learning_rate=1e-5, # Попробуйте другую скорость обучения num_train_epochs=3 # Увеличьте длительность обучения )

[/code]

Убедитесь, что набор данных предпочтений имеет явных победителей:

[code] # Проверка набора данных print(dataset[0]) # Должен быть явно chosen > rejected

[/code]

Проблема: Нестабильное PPO-обучение Настройте коэффициент KL:

[code] config = PPOConfig( kl_coef=0.1, # Увеличить с 0.05 cliprange=0.1 # Уменьшить с 0.2 )

[/code]

Продвинутые темы

Руководство по SFT-обучению: См. references/sft-training.md о форматах наборов данных, чат-шаблонах, стратегиях упаковки и многогпу-обучении.

Варианты DPO: См. references/dpo-variants.md об IPO, cDPO, RPO и других функциях потерь DPO с рекомендуемыми гиперпараметрами.

Модели вознаграждения: См. references/reward-modeling.md о вознаграждении по результату и процессу, функции потерь Брэдли-Терри и оценке моделей вознаграждения.

Методы онлайн-RL: См. references/online-rl.md о PPO, GRPO, RLOO и OnlineDPO с подробными конфигурациями.

Углублённое изучение GRPO: См. references/grpo-training.md для экспертных паттернов GRPO — философия проектирования функций вознаграждения, идеи обучения (почему loss растёт, обнаружение коллапса мод), настройка гиперпараметров, многоэтапное обучение и устранение неполадок. Готовый шаблон в templates/basic_grpo_training.py.

Требования к оборудованию

  • GPU: NVIDIA (CUDA обязательна)
  • VRAM: Зависит от модели и метода
  • SFT 7B: 16 ГБ (с LoRA)
  • DPO 7B: 24 ГБ (хранит эталонную модель)
  • PPO 7B: 40 ГБ (политика + модель вознаграждения)
  • GRPO 7B: 24 ГБ (более эффективно по памяти)
  • Multi-GPU: Поддерживается через accelerate
  • Mixed precision: Рекомендуется BF16 (A100/H100)

Оптимизация памяти:

  • Используйте LoRA/QLoRA для всех методов
  • Включите градиентную контрольную точку
  • Используйте меньшие размеры батча с накоплением градиента

Ресурсы