Results for "audio-language"

Claude Code Claude Desktop GitHub Copilot Cursor Windsurf Cline Zed JetBrains

📄SKILL.md 🤖CLAUDE.md ⚡Claude Commands 📐.cursorrules 📐Cursor Rules 🕹️AGENTS.md 🧬codex.md 🏄.windsurfrules 🔧.clinerules 🧑‍✈️Copilot Instructions

All Development Operations Data Product Marketing Customer Design Sales

519 skills found · Page 1 of 18

supercollider / Supercollider

6.5k

An audio server, programming language, and IDE for sound synthesis and algorithmic composition.

universal

algorithmic-compositionaudioc-plus-plus+12

Updated 34m ago

gpt-omni / Mini Omni

3.5k

open-source multimodal large language model that can hear, talk while thinking. Featuring real-time end-to-end speech input and streaming audio output conversational capabilities.

universal

Updated 3h ago

DAMO-NLP-SG / Video LLaMA

3.1k

[EMNLP 2023 Demo] Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

universal

blip2cross-modal-pretraininglarge-language-models+5

Updated 3d ago

chaosprint / Glicol

2.9k

Graph-oriented live coding language and music/audio DSP library written in Rust

universal

audioaudio-programmingaudioworklet+14

Updated 2d ago

lucidrains / Audiolm Pytorch

2.6k

Implementation of AudioLM, a SOTA Language Modeling Approach to Audio Generation out of Google Research, in Pytorch

universal

artificial-intelligenceattention-mechanismsaudio-synthesis+2

Updated 2d ago

LAION-AI / CLAP

2.1k

Contrastive Language-Audio Pretraining

universal

Updated 21h ago

QwenLM / Qwen2 Audio

2.1k

The official repo of Qwen2-Audio chat & pretrained large audio language model proposed by Alibaba Cloud.

universal

Updated 3h ago

PortAudio / Portaudio

2.0k

PortAudio is a cross-platform, open-source C language library for real-time audio input and output.

universal

Updated 3d ago

QwenLM / Qwen Audio

1.9k

The official repo of Qwen-Audio (通义千问-Audio) chat & pretrained large audio language model proposed by Alibaba Cloud.

universal

Updated 4d ago

lyuchenyang / Macaw LLM

1.6k

Macaw-LLM: Multi-Modal Language Modeling with Image, Video, Audio, and Text Integration

universal

deep-learninglanguage-modelmachine-learning+3

Updated 10d ago

vkohaupt / VokoscreenNG

1.4k

vokoscreenNG is a powerful screencast creator in many languages to record the screen, an area or a window (Linux only). Recording of audio from multiple sources is supported. With the built-in camera support, you can make your video more personal. Other tools such as systray, magnifying glass, countdown, timer, Showclick and Halo support will help

universal

capturelinuxopensource+7

Updated 1d ago

stepfun-ai / Step Audio2

1.4k

Step-Audio 2 is an end-to-end multi-modal large language model designed for industry-strength audio understanding and speech conversation.

universal

Updated 9h ago

jishengpeng / WavTokenizer

1.3k

[ICLR 2025] SOTA discrete acoustic codec models with 40/75 tokens per second for audio language modeling

universal

acousticaudio-representationcodec+9

Updated 3d ago

kylestetz / Slang

1.2k

🎤 a simple audio programming language implemented in JS

universal

audiojavascriptlivecoding+1

Updated 12d ago

thestk / Stk

1.2k

The Synthesis ToolKit in C++ (STK) is a set of open source audio signal processing and algorithmic synthesis classes written in the C++ programming language.

universal

Updated 5d ago

YouG-o / YouTube No Translation

1.1k

Web browser add-on that prevents YouTube's automatic translations! It keeps titles, descriptions, and audio in their original language.

universal

add-onaudio-tracksbrave+15

Updated 20h ago

xid32 / SoundMind

1.1k

We introduce the Audio Logical Reasoning (ALR) dataset, consisting of 6,446 text-audio annotated samples specifically designed for complex reasoning tasks. Building on this resource, we propose SoundMind, a rule-based reinforcement learning (RL) algorithm tailored to endow audio language models (ALMs) with deep bimodal reasoning abilities.

universal

audio-language-modelaudio-reasoningdataset+1

Updated 9d ago

OFA-Sys / ONE PEACE

1.1k

A general representation model across vision, audio, language modalities. Paper: ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

universal

audio-languagecontrastive-lossfoundation-models+5

Updated 4d ago

NVIDIA / Audio Flamingo

1.0k

PyTorch implementation of Audio Flamingo: Series of Advanced Audio Understanding Language Models

universal

audio-captioningaudio-language-modelsaudio-question-answering+2

Updated 1d ago

X-LANCE / SLAM LLM

1.0k

A Framework for Speech, Language, Audio, Music Processing with Large Language Model

universal

audio-processinglarge-language-modelmultimodal-large-language-models+3

Updated 3h ago