На этой странице Аудиоспектрограммы и признаки (mel, chroma, MFCC) через CLI.
Метаданные навыка¶
| |
|---|---|
|Источник| Встроенный (устанавливается по умолчанию)
|Путь| skills/media/songsee
|Версия| 1.0.0
|Автор| community
|Лицензия| MIT
|Теги| Audio, Visualization, Spectrogram, Music, Analysis
Справочник: полный SKILL.md¶
info Ниже приведено полное определение навыка, которое Hermes загружает при его активации. Это те инструкции, которые видит агент, когда навык активен.
songsee¶
Создавайте спектрограммы и многопанельные визуализации аудиопризнаков из аудиофайлов.
Предварительные требования¶
Требуется Go: [code] go install github.com/steipete/songsee/cmd/songsee@latest
[/code]
Опционально: ffmpeg для форматов, отличных от WAV/MP3.
Быстрый старт¶
[code] # Базовая спектрограмма songsee track.mp3
# Сохранение в указанный файл
songsee track.mp3 -o spectrogram.png
# Многопанельная сетка визуализаций
songsee track.mp3 --viz spectrogram,mel,chroma,hpss,selfsim,loudness,tempogram,mfcc,flux
# Временной срез (начало в 12.5 с, длительность 8 с)
songsee track.mp3 --start 12.5 --duration 8 -o slice.jpg
# Из stdin
cat track.mp3 | songsee - --format png -o out.png
[/code]
Типы визуализаций¶
Используйте --viz со значениями, разделёнными запятыми:
Тип| Описание
---|---
spectrogram| Стандартная частотная спектрограмма
mel| Мел-спектрограмма
chroma| Распределение тональных классов
hpss| Гармоническое/перкуссионное разделение
selfsim| Матрица самоподобия
loudness| Громкость во времени
tempogram| Оценка темпа
mfcc| Мел-частотные кепстральные коэффициенты
flux| Спектральный поток (обнаружение атак)
Несколько типов --viz отображаются в виде сетки на одном изображении.
Общие флаги¶
| Флаг | Описание |
|---|---|
--viz |
Типы визуализаций (через запятую) |
--style |
Цветовая палитра: classic, magma, inferno, viridis, gray |
--width / --height |
Размеры выходного изображения |
--window / --hop |
Размер окна и шаг FFT |
--min-freq / --max-freq |
Фильтр диапазона частот |
--start / --duration |
Временной срез аудио |
--format |
Формат вывода: jpg или png |
-o |
Путь к выходному файлу |
| ## Примечания | |
* WAV и MP3 декодируются нативно; другие форматы требуют ffmpeg |
|
* Выходные изображения можно анализировать с помощью vision_analyze для автоматического аудиоанализа |
|
| * Полезно для сравнения аудиовыходов, отладки синтеза или документирования конвейеров обработки аудио |