GitHub 中文社区

回车: Github搜索 Shift+回车: Google搜索

©2025 GitHub中文社区论坛 GitHub官网网站地图 GitHub官方翻译

GitHub on X
GitHub on Facebook
GitHub on LinkedIn
GitHub on YouTube
GitHub on Twitch
GitHub on TikTok
GitHub’s organization on GitHub

集合主题趋势排行榜

#

visual-question-answering

Website
Wikipedia

salesforce / BLIP

PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

vision-language vision-and-language-pre-training image-text-retrieval image-captioning visual-question-answering vision-language-transformer

Jupyter Notebook 5.18 k

8 个月前

Official repository of OFA (ICML 2022). Paper: OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

multimodal pretraining image-captioning text-to-image-synthesis visual-question-answering referring-expression-comprehension vision-language pretrained-models prompt prompt-tuning 中文

Python 2.49 k

1 年前

peteanderson80 / bottom-up-attention

Bottom-up attention model for image captioning and VQA, based on Faster R-CNN and Visual Genome

vqa visual-question-answering faster-rcnn caffe image-captioning mscoco

Jupyter Notebook 1.45 k

2 年前

lucidrains / flamingo-pytorch

#计算机科学#Implementation of 🦩 Flamingo, state-of-the-art few-shot visual question answering attention net out of Deepmind, in Pytorch

人工智能 attention-mechanism 深度学习 transformers visual-question-answering

Python 1.24 k

2 年前

YehLi / xmodaler

X-modaler is a versatile and high-performance codebase for cross-modal analytics(e.g., image captioning, video captioning, vision-language pre-training, visual question answering, visual commonsense r...

翻译 - X-modaler 是用于跨模态分析的多功能高性能代码库。

image-captioning video-captioning vision-and-language pretraining cross-modal-retrieval visual-question-answering tden

Python 970

2 年前

richard-peng-xia / awesome-multimodal-in-medical-imaging

A collection of resources on applications of multi-modal learning in medical imaging.

Medical imaging multimodal-deep-learning multimodal-learning visual-question-answering large-language-models large-multimodal-models multimodal-large-language-models

715

11 天前

jnhwkim / ban-vqa

Bilinear attention networks for visual question answering

visual-question-answering attention pytorch-implmention

Python 545

1 年前

MILVLG / mcan-vqa

Deep Modular Co-Attention Networks for Visual Question Answering

visual-question-answering attention

Python 452

4 年前

MMMU-Benchmark / MMMU

#自然语言处理#This repo contains evaluation code for the paper "MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI"

机器视觉深度学习深度神经网络 evaluation foundation-models large-language-models large-multimodal-models 大语言模型 llms 机器学习 multimodal multimodal-deep-learning multimodal-learning multimodality 自然语言处理 question-answering STEM visual-question-answering

Python 412

1 个月前

zjukg / KG-MM-Survey

Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey

cross-modal-retrieval Entity resolution image-classification image-generation information-extraction knowledge-graph knowledge-graph-embeddings large-language-models multi-modal-learning paper-list survey surveys visual-question-answering awsome

401

4 个月前

davidmascharka / tbd-nets

#计算机科学#PyTorch implementation of "Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning"

机器学习 PyTorch 可视化深度学习 visual-question-answering vqa neural-networks

Jupyter Notebook 348

3 年前

MILVLG / openvqa

#计算机科学#A lightweight, scalable, and general framework for visual question answering research

visual-question-answering vqa PyTorch 深度学习 benchmark

Python 322

4 年前

lupantech / MathVista

#计算机科学#MathVista: data, code, and evaluation for Mathematical Reasoning in Visual Contexts

large-language-models 机器学习数学 science visual-question-answering

Jupyter Notebook 292

4 个月前

MILVLG / prophet

Implementation of CVPR 2023 paper "Prompting Large Language Models with Answer Heuristics for Knowledge-based Visual Question Answering".

gpt-3 multimodal-deep-learning prompt-engineering PyTorch visual-question-answering

Python 271

2 年前

Cyanogenoid / pytorch-vqa

Strong baseline for visual question answering

PyTorch vqa visual-question-answering baseline

Python 239

2 年前

HanXinzi-AI / awesome-computer-vision-resources

#人脸识别#a collection of computer vision projects&tools. 计算机视觉方向项目和工具集合。

机器视觉 image-classification image-segmentation semantic-segmentation Medical imaging OCR visual-question-answering image-captioning super-resolution Generative Adversarial Network face-detection face-recognition autonomous-vehicles autonomous-driving model-compression Tensorflow PyTorch paddlepaddle

238

10 个月前

qiantianwen / NuScenes-QA

[AAAI 2024] NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario.

autonomous-driving vision-language visual-question-answering

Python 182

5 个月前

MMStar-Benchmark / MMStar

#大语言模型#[NeurIPS 2024] This repo contains evaluation code for the paper "Are We on the Right Way for Evaluating Large Vision-Language Models"

evaluation large-language-models large-multimodal-models large-vision-language-model large-vision-language-models 大语言模型 llms multimodal multimodal-learning multimodality visual-question-answering

Python 174

7 个月前

markdtw / vqa-winner-cvprw-2017

Pytorch implementation of winner from VQA Chllange Workshop in CVPR'17

PyTorch visual-question-answering

Python 163

6 年前

Yushi-Hu / tifa

TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering

image-to-text large-language-models text-to-image visual-question-answering

Python 157

1 年前

loading...