cross-modal-retrieval · GitHub Topics

#计算机科学#🏄 Scalable embedding, reasoning, ranking for images and sentences with CLIP

翻译 - 使用BERT模型将可变长度句子映射到固定长度向量

bert sentence-encoding 深度学习 clip-model clip-as-service bert-as-service cross-modal-retrieval multi-modality neural-search openai PyTorch onnx cross-modality

Python 12.63 k

1 年前

YehLi / xmodaler

X-modaler is a versatile and high-performance codebase for cross-modal analytics(e.g., image captioning, video captioning, vision-language pre-training, visual question answering, visual commonsense r...

翻译 - X-modaler 是用于跨模态分析的多功能高性能代码库。

image-captioning video-captioning vision-and-language pretraining cross-modal-retrieval visual-question-answering tden

Python 970

2 年前

Paranioar / Awesome_Matching_Pretraining_Transfering

#Awesome#The Paper List of Large Multi-Modality Model (Perception, Generation, Unification), Parameter-Efficient Finetuning, Vision-Language Pretraining, Conventional Image-Text Matching for Preliminary Insigh...

cross-modal-retrieval 教程 Awesome Lists image-text-matching image-text-retrieval large-language-models large-vision-language-models multimodal-pretraining parameter-efficient-fine-tuning vision-and-language multimodal-large-language-models large-language-model text-to-image-generation text-to-image-synthesis text-to-video-generation

425

4 个月前

slavabarkov / tidy

#自然语言处理#Offline semantic Text-to-Image and Image-to-Image search on Android powered by quantized state-of-the-art vision-language pretrained CLIP model and ONNX Runtime inference engine

Android clip 机器视觉深度学习 image-retrieval Kotlin 自然语言处理 onnx quantization image-text-retrieval cross-modal-retrieval image-text-matching image-search semantic-search

Kotlin 421

1 年前

zjukg / KG-MM-Survey

Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey

cross-modal-retrieval Entity resolution image-classification image-generation information-extraction knowledge-graph knowledge-graph-embeddings large-language-models multi-modal-learning paper-list survey surveys visual-question-answering awsome

401

4 个月前

layumi / Image-Text-Embedding

TOMM2020 Dual-Path Convolutional Image-Text Embedding with Instance Loss 🐾 https://arxiv.org/abs/1711.05535

MATLAB person-reidentification image-search image-retrieval cross-modal-retrieval cross-modality

MATLAB 290

3 个月前

Paranioar / SGRAF

[AAAI2021] The code of “Similarity Reasoning and Filtration for Image-Text Matching”

cross-modal-retrieval image-text-matching image-retrieval image-text-retrieval text-matching aaai

Python 215

1 年前

woodfrog / vse_infty

Code for "Learning the Best Pooling Strategy for Visual Semantic Embedding", CVPR 2021 (Oral)

image-text-matching cross-modal-retrieval vision-language PyTorch

Python 161

2 年前

penghu-cs / DSCMR

Deep Supervised Cross-modal Retrieval (CVPR 2019, PyTorch Code)

cross-modal-retrieval

Python 142

6 年前

yalesong / pvse

Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval (CVPR 2019)

cross-modal-retrieval metric-learning

Python 134

1 年前

jpthu17 / EMCL

[NeurIPS 2022 Spotlight] Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations

cross-modal-retrieval neurips video-captioning video-question-answering

Python 132

1 年前

jpthu17 / DiffusionRet

[ICCV 2023] DiffusionRet: Generative Text-Video Retrieval with Diffusion Model

cross-modal-retrieval diffusion-models iccv2023

Python 129

1 年前

naver-ai / pcme

Official Pytorch implementation of "Probabilistic Cross-Modal Embedding" (CVPR 2021)

cross-modal-retrieval cvpr2021

Python 129

1 年前

jpthu17 / HBI

[CVPR 2023 Highlight & TPAMI] Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning

cross-modal-retrieval cvpr video-question-answering

Python 117

4 个月前

ilaria-manco / muscall

Official implementation of "Contrastive Audio-Language Learning for Music" (ISMIR 2022)

cross-modal-retrieval music-information-retrieval

Python 112

4 个月前

howard-hou / BagFormer

PyTorch code for BagFormer: Better Cross-Modal Retrieval via bag-wise interaction

cross-modal-retrieval image-text-retrieval vision-language

Python 97

2 年前

naver-ai / pcmepp

Official Pytorch implementation of "Improved Probabilistic Image-Text Representations" (ICLR 2024)

cross-modal-retrieval iclr2024

Python 57

1 年前

penghu-cs / UCCH

Unsupervised Contrastive Cross-modal Hashing (IEEE TPAMI 2023, PyTorch Code)

contrastive-learning cross-modal-retrieval unsupervised-learning

Python 57

1 年前

AyanKumarBhunia / on-the-fly-FGSBIR

[CVPR 2020, Oral] "Sketch Less for More: On-the-Fly Fine-Grained Sketch Based Image Retrieval”, IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2020. .

Sketch reinforcement-learning policy-gradient image-retrieval cvpr cvpr2020 cross-modal-retrieval re-identification

Python 57

4 年前

naver-ai / eccv-caption

#计算机科学#Extended COCO Validation (ECCV) Caption dataset (ECCV 2022)

cross-modal-retrieval dataset 深度学习 eccv2022 evaluation image-text-matching 机器学习 vision-and-language

Python 56

1 年前