Перейти к содержанию

На этой странице Аудиоспектрограммы и признаки (mel, chroma, MFCC) через CLI.

Метаданные навыка

| | |---|---| |Источник| Встроенный (устанавливается по умолчанию) |Путь| skills/media/songsee |Версия| 1.0.0 |Автор| community |Лицензия| MIT |Теги| Audio, Visualization, Spectrogram, Music, Analysis

Справочник: полный SKILL.md

info Ниже приведено полное определение навыка, которое Hermes загружает при его активации. Это те инструкции, которые видит агент, когда навык активен.

songsee

Создавайте спектрограммы и многопанельные визуализации аудиопризнаков из аудиофайлов.

Предварительные требования

Требуется Go: [code] go install github.com/steipete/songsee/cmd/songsee@latest

[/code] Опционально: ffmpeg для форматов, отличных от WAV/MP3.

Быстрый старт

[code] # Базовая спектрограмма songsee track.mp3

# Сохранение в указанный файл
songsee track.mp3 -o spectrogram.png

# Многопанельная сетка визуализаций
songsee track.mp3 --viz spectrogram,mel,chroma,hpss,selfsim,loudness,tempogram,mfcc,flux

# Временной срез (начало в 12.5 с, длительность 8 с)
songsee track.mp3 --start 12.5 --duration 8 -o slice.jpg

# Из stdin
cat track.mp3 | songsee - --format png -o out.png

[/code]

Типы визуализаций

Используйте --viz со значениями, разделёнными запятыми: Тип| Описание ---|--- spectrogram| Стандартная частотная спектрограмма mel| Мел-спектрограмма chroma| Распределение тональных классов hpss| Гармоническое/перкуссионное разделение selfsim| Матрица самоподобия loudness| Громкость во времени tempogram| Оценка темпа mfcc| Мел-частотные кепстральные коэффициенты flux| Спектральный поток (обнаружение атак) Несколько типов --viz отображаются в виде сетки на одном изображении.

Общие флаги

Флаг Описание
--viz Типы визуализаций (через запятую)
--style Цветовая палитра: classic, magma, inferno, viridis, gray
--width / --height Размеры выходного изображения
--window / --hop Размер окна и шаг FFT
--min-freq / --max-freq Фильтр диапазона частот
--start / --duration Временной срез аудио
--format Формат вывода: jpg или png
-o Путь к выходному файлу
## Примечания
* WAV и MP3 декодируются нативно; другие форматы требуют ffmpeg
* Выходные изображения можно анализировать с помощью vision_analyze для автоматического аудиоанализа
* Полезно для сравнения аудиовыходов, отладки синтеза или документирования конвейеров обработки аудио