visual-instruction-tuning · GitHub Topics

BradyFU / Awesome-Multimodal-Large-Language-Models

✨✨Latest Advances on Multimodal Large Language Models

instruction-tuning instruction-following large-vision-language-model visual-instruction-tuning multi-modality in-context-learning large-language-models large-vision-language-models multimodal-chain-of-thought multimodal-in-context-learning multimodal-large-language-models chain-of-thought

14.67 k

2 天前

CircleRadon / Osprey

[CVPR2024] The code for "Osprey: Pixel Understanding with Visual Instruction Tuning"

mllm sam visual-instruction-tuning pixel-understanding

Python 816

1 个月前

ictnlp / LLaVA-Mini

LLaVA-Mini is a unified large multimodal model (LMM) that can support the understanding of images, high-resolution images, and videos in an efficient manner.

efficient gpt4o gpt4v large-language-models large-multimodal-models llava multimodal Video vision vision-language-model visual-instruction-tuning llama multimodal-large-language-models

Python 443

3 个月前

zjysteven / lmms-finetune

A minimal codebase for finetuning large multimodal models, supporting llava-1.5/1.6, llava-interleave, llava-next-video, llava-onevision, llama-3.2-vision, qwen-vl, qwen2-vl, phi3-v etc.

finetuning foundation-models instruction-tuning large-language-model large-multimodal-models multimodal multimodal-large-language-models vision-language visual-instruction-tuning llava

Python 284

2 个月前

BAAI-DCAI / DataOptim

#大语言模型#A collection of visual instruction tuning datasets.

大语言模型 mllm visual-instruction-tuning

Python 76

1 年前

ChenDelong1999 / polite-flamingo

🦩 Visual Instruction Tuning with Polite Flamingo - training multi-modal LLMs to be both clever and polite! (AAAI-24 Oral)

large-language-models multimodal-large-language-models visual-instruction-tuning

Python 64

1 年前

bigai-nlco / VideoTGB

#大语言模型#[EMNLP 2024] A Video Chat Agent with Temporal Prior

大语言模型 mllm multimodal-large-language-models spatial-temporal visual-instruction-tuning

Python 29

1 个月前

$https://static.github-zh.com/github_avatars/fraction-ai?size=40$

fraction-ai / GAP

#大语言模型#Gamified Adversarial Prompting (GAP): Crowdsourcing AI-weakness-targeting data through gamification. Boost model performance with community-driven, strategic data collection

人工智能机器视觉 visual-instruction-tuning vqa web3 大语言模型

Python 26

6 个月前