cogvlm · GitHub Topics

THUDM / CogVLM2

GPT4V-level open-source multi-modal model based on Llama3-8B

cogvlm pretrained-models language-model multi-modal

Python 2.33 k

1 个月前

jhc13 / taggui

Tag manager and captioner for image datasets

image-captioning pyside6 stable-diffusion llava cogvlm florence-2

Python 959

2 个月前

gokayfem / awesome-vlm-architectures

#Awesome#Famous Vision Language Models and Their Architectures

clip llava vlm multimodal blip cogvlm internlm vision-language-model Awesome Lists

Markdown 770

2 个月前

ProGamerGov / VLM-Captioning-Tools

#大语言模型#Python scripts to use for captioning images with VLMs

cogvlm image-captioning vlm mistral vision-language 大语言模型 llama3

Python 39

8 个月前

nopperl / clip-synthetic-captions

Tiny-scale experiment showing that CLIP models trained using detailed captions generated by multimodal models (CogVLM and LLaVA 1.5) outperform models trained using the original alt-texts on a range o...

clip cogvlm llava multimodal synthetic-data vision-language-model

Python 3

1 年前

williamcfrancis / vlm-comparison-gemini-cog

A comparitive study between the two of the best performing open source Vision Language Models - Google Gemini Vision and CogVLM

人工智能 cogvlm gemini gemini-pro google-gemini vision vision-and-language vision-language-model vlm

Python 0

1 年前