На этой странице Аудиоспектрограммы и признаки (mel, chroma, MFCC) через CLI.

Метаданные навыка¶

| | |---|---| |Источник| Встроенный (устанавливается по умолчанию) |Путь| skills/media/songsee |Версия| 1.0.0 |Автор| community |Лицензия| MIT |Теги| Audio, Visualization, Spectrogram, Music, Analysis

Справочник: полный SKILL.md¶

info Ниже приведено полное определение навыка, которое Hermes загружает при его активации. Это те инструкции, которые видит агент, когда навык активен.

songsee¶

Создавайте спектрограммы и многопанельные визуализации аудиопризнаков из аудиофайлов.

Предварительные требования¶

Требуется Go: [code] go install github.com/steipete/songsee/cmd/songsee@latest

[/code] Опционально: ffmpeg для форматов, отличных от WAV/MP3.

Быстрый старт¶

[code] # Базовая спектрограмма songsee track.mp3

# Сохранение в указанный файл
songsee track.mp3 -o spectrogram.png

# Многопанельная сетка визуализаций
songsee track.mp3 --viz spectrogram,mel,chroma,hpss,selfsim,loudness,tempogram,mfcc,flux

# Временной срез (начало в 12.5 с, длительность 8 с)
songsee track.mp3 --start 12.5 --duration 8 -o slice.jpg

# Из stdin
cat track.mp3 | songsee - --format png -o out.png

[/code]

Типы визуализаций¶

Используйте --viz со значениями, разделёнными запятыми: Тип| Описание ---|--- spectrogram| Стандартная частотная спектрограмма mel| Мел-спектрограмма chroma| Распределение тональных классов hpss| Гармоническое/перкуссионное разделение selfsim| Матрица самоподобия loudness| Громкость во времени tempogram| Оценка темпа mfcc| Мел-частотные кепстральные коэффициенты flux| Спектральный поток (обнаружение атак) Несколько типов --viz отображаются в виде сетки на одном изображении.

Общие флаги¶

Флаг	Описание
`--viz`	Типы визуализаций (через запятую)
`--style`	Цветовая палитра: `classic`, `magma`, `inferno`, `viridis`, `gray`
`--width` / `--height`	Размеры выходного изображения
`--window` / `--hop`	Размер окна и шаг FFT
`--min-freq` / `--max-freq`	Фильтр диапазона частот
`--start` / `--duration`	Временной срез аудио
`--format`	Формат вывода: `jpg` или `png`
`-o`	Путь к выходному файлу
## Примечания
* WAV и MP3 декодируются нативно; другие форматы требуют `ffmpeg`
* Выходные изображения можно анализировать с помощью `vision_analyze` для автоматического аудиоанализа
* Полезно для сравнения аудиовыходов, отладки синтеза или документирования конвейеров обработки аудио

Метаданные навыка
Справочник: полный SKILL.md
Предварительные требования
Быстрый старт
Типы визуализаций
Общие флаги
Примечания

Метаданные навыка​¶

Справочник: полный SKILL.md​¶

songsee¶

Предварительные требования​¶

Быстрый старт​¶

Типы визуализаций​¶

Общие флаги​¶