multimodal-large-language-models

BradyFU / Awesome-Multimodal-Large-Language-Models

✨✨Latest Advances on Multimodal Large Language Models

instruction-tuning instruction-following large-vision-language-model visual-instruction-tuning multi-modality in-context-learning large-language-models large-vision-language-models multimodal-chain-of-thought multimodal-in-context-learning multimodal-large-language-models chain-of-thought

14.67 k

2 天前

X-PLUG / MobileAgent

#安卓#Mobile-Agent: The Powerful Mobile Device Operation Assistant Family

agent gpt4v mllm mobile-agents multimodal multimodal-large-language-models multimodal-agent Android App GUI 移动自动化 copilot harmony iOS

Python 4.05 k

3 天前

joanrod / star-vector

#大语言模型#StarVector is a foundation model for SVG generation that transforms vectorization into a code generation task. Using a vision-language modeling architecture, StarVector processes both visual and textu...

大语言模型 multimodal-large-language-models SVG vlm

Python 3.51 k

17 天前

modelscope / modelscope-agent

#大语言模型#ModelScope-Agent: An agent framework connecting models in ModelScope with the world

agent gpts chatglm-4 大语言模型 qwen open-gpts multi-agents mobile-agent assistantapi 聊天机器人 Android mobile-agents multimodal-large-language-models rag Code 数据科学

Python 3.08 k

1 个月前

ictnlp / LLaMA-Omni

LLaMA-Omni is a low-latency and high-quality end-to-end speech interaction model built upon Llama-3.1-8B-Instruct, aiming to achieve speech capabilities at the GPT-4o level.

large-language-models multimodal-large-language-models speech-to-text

Python 2.89 k

5 个月前

VITA-MLLM / VITA

✨✨VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

large-multimodal-models multimodal-large-language-models

Python 2.22 k

16 天前

X-PLUG / mPLUG-DocOwl

mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding

chart-understanding document-understanding mllm multimodal multimodal-large-language-models table-understanding

Python 2.15 k

4 个月前

cambrian-mllm / cambrian

Cambrian-1 is a family of multimodal LLMs with a vision-centric design.

聊天机器人 clip 机器视觉 dino instruction-tuning large-language-models llms mllm multimodal-large-language-models representation-learning

Python 1.89 k

5 个月前

YangLing0818 / RPG-DiffusionMaster

[ICML 2024] Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs (RPG)

large-language-models multimodal-large-language-models image-editting text-to-image

Jupyter Notebook 1.79 k

2 个月前

BAAI-DCAI / Bunny

#大语言模型#A family of lightweight multimodal models.

mllm ChatGPT gpt-4 multimodal-large-language-models vlm 中文 english

Python 1.01 k

5 个月前

AIDC-AI / Ovis

A novel Multimodal Large Language Model (MLLM) architecture, designed to structurally align visual and textual embeddings.

聊天机器人 llama3 multimodal multimodal-large-language-models multimodality qwen vision-language-model

Python 885

19 天前

Henry-23 / VideoChat

实时语音交互数字人，支持端到端语音方案（GLM-4-Voice - THG）和级联方案（ASR-LLM-TTS-THG）。可自定义形象与音色，无须训练，支持音色克隆，首包延迟低至3s。Real-time voice interactive digital human, supporting end-to-end voice solutions (GLM-4-Voice - THG) and cas...

dialogue-systems real-time digital-human lip-sync musetalk streaming talking-head asr tts end-to-end multimodal-large-language-models

Python 859

23 天前