audio-language · GitHub Topics

A general representation model across vision, audio, language modalities. Paper: ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

foundation-models multimodal representation-learning vision-language audio-language vision-and-language vision-transformer contrastive-loss

Python 1.03 k

6 个月前

AudioLLMs / Awesome-Audio-LLM

Audio Large Language Models

audio-language audio-processing

Python 461

1 个月前

TXH-mercury / VAST

[NIPS2023] Code and Model for VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

audio-language dataset vision-language

Jupyter Notebook 272

1 年前

Sreyan88 / GAMA

Code for the paper: GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities

audio dataset question-answering reasoning audio-language large-language-model multimodal-large-language-models

Python 114

4 个月前

Sreyan88 / CompA

#自然语言处理#Code for ICLR 2024 Paper: CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models

人工智能 audio benchmark compositionality 机器学习自然语言处理 audio-language

Python 15

9 个月前