multimodal-pretraining · GitHub Topics

Emu Series: Generative Multimodal Models from BAAI

foundation-models in-context-learning instruct-tuning multimodal-pretraining generative-pretraining-in-multimodality multimodal-generalist

Python 1.71 k

7 个月前

Paranioar / Awesome_Matching_Pretraining_Transfering

#Awesome#The Paper List of Large Multi-Modality Model (Perception, Generation, Unification), Parameter-Efficient Finetuning, Vision-Language Pretraining, Conventional Image-Text Matching for Preliminary Insigh...

cross-modal-retrieval 教程 Awesome Lists image-text-matching image-text-retrieval large-language-models large-vision-language-models multimodal-pretraining parameter-efficient-fine-tuning vision-and-language multimodal-large-language-models large-language-model text-to-image-generation text-to-image-synthesis text-to-video-generation

425

4 个月前

X-PLUG / Youku-mPLUG

Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Pre-training Dataset and Benchmarks

benchmark 中文 dataset mllm multimodal multimodal-large-language-models multimodal-pretraining Video video-question-answering youku

Python 296

1 年前

X-PLUG / mPLUG-2

mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video (ICML 2023)

foundation-models mllm multimodal multimodal-pretraining Video image-retrieval mplug video-question-answering vqa

Python 226

2 年前