multimodal-learning · GitHub Topics

#自然语言处理#Reading list for research topics in multimodal machine learning

multimodal-learning 机器学习 representation-learning 自然语言处理机器视觉 speech-processing Robotics healthcare reading-list 深度学习 reinforcement-learning

6.38 k

8 个月前

mlfoundations / open_flamingo

#计算机科学#An open-source framework for training large multimodal models.

机器视觉深度学习 in-context-learning language-model multimodal-learning PyTorch flamingo

Python 3.89 k

7 个月前

KaiyangZhou / CoOp

Prompt Learning for Vision-Language Models (IJCV'22, CVPR'22)

foundation-models multimodal-learning prompt-learning

Python 1.93 k

1 年前

Eurus-Holmes / Awesome-Multimodal-Research

A curated list of Multimodal Related Research.

翻译 - 精选的多模式相关研究清单。

Awesome Lists multimodal-research multimodal-learning multimodal

Python 1.34 k

2 年前

AILab-CVC / UniRepLKNet

#计算机科学#[CVPR'24] UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition

architecture 人工智能 convolutional-neural-networks 深度学习 multimodal-learning

Python 980

6 个月前

DmitryRyumin / ICCV-2023-Papers

#人脸识别#ICCV 2023 Papers: Discover cutting-edge research from ICCV 2023, the leading computer vision conference. Stay updated on the latest in computer vision and deep learning, with code included. ⭐ support ...

Python 954

7 个月前

PreferredAI / cornac

A Comparative Framework for Multimodal Recommender Systems

recommender-system recommendation-algorithms recommendation-engine matrix-factorization collaborative-filtering multimodal-learning recommendation-system multimodality

Python 944

1 个月前

ArrowLuo / CLIP4Clip

An official implementation for "CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval"

multimodal-learning multimodality multimodal search ranking retrieval-model retrieval activitynet clip

Python 933

1 年前

declare-lab / multimodal-deep-learning

This repository contains various models targetting multimodal representation learning, multimodal fusion for downstream tasks such as multimodal sentiment analysis.

multimodal-deep-learning multimodal-learning multimodal-interactions

OpenEdge ABL 823

2 年前

HuaizhengZhang / Awsome-Deep-Learning-for-Video-Analysis

#计算机科学#Papers, code and datasets about deep learning and multi-modal learning for video analysis

深度学习 video-analysis Bukkit multimodal-learning 机器学习 video-classification

792

4 年前

richard-peng-xia / awesome-multimodal-in-medical-imaging

A collection of resources on applications of multi-modal learning in medical imaging.

Medical imaging multimodal-deep-learning multimodal-learning visual-question-answering large-language-models large-multimodal-models multimodal-large-language-models

715

11 天前

henghuiding / ReLA

[CVPR2023 Highlight] GRES: Generalized Referring Expression Segmentation

multimodal-learning referring-expression-comprehension referring-expression-segmentation vision-language-transformer cvpr2023

Python 692

2 年前

georgian-io / Multimodal-Toolkit

#自然语言处理#Multimodal model for text and tabular data with HuggingFace transformers as building block for text data

huggingface-transformers transformer 自然语言处理 tabular-data multimodal-learning

Python 602

5 个月前

pliang279 / MultiBench

#自然语言处理#[NeurIPS 2021] Multiscale Benchmarks for Multimodal Representation Learning

机器学习 multimodal-learning Robotics 自然语言处理机器视觉深度学习 healthcare representation-learning speech-processing

HTML 535

1 年前

sangminwoo / awesome-vision-and-language

#Awesome#A curated list of awesome vision and language resources (still under construction... stay tuned!)

Awesome Lists vision-and-language multimodal-learning

532

5 个月前

henghuiding / MeViS

[ICCV 2023] MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions

multimodal-learning referring-expression-comprehension referring-expression-segmentation referring-video-object-segmentation video-understanding

Python 522

10 个月前

subho406 / OmniNet

#自然语言处理#Official Pytorch implementation of "OmniNet: A unified architecture for multi-modal multi-task learning" | Authors: Subhojeet Pramanik, Priyanka Agrawal, Aman Hussain

翻译 - Pytorch的官方实施“ OmniNet：用于多模式多任务学习的统一体系结构”作者：Subhojeet Pramanik，Priyanka Agrawal，Aman Hussain

机器学习深度学习神经网络人工智能 transformer 自然语言处理 image-captioning video-recognition multitask-learning multimodal-learning

Python 512

4 年前

microsoft / XPretrain

#自然语言处理#Multi-modality pre-training

multimodal-learning pre-training multimedia 机器视觉自然语言处理

Python 491

1 年前

njustkmg / OMML

Multi-Modal learning toolkit based on PaddlePaddle and PyTorch, supporting multiple applications such as multi-modal classification, cross-modal retrieval and image caption.

multimodal multimodal-learning Python paddlepaddle PyTorch crossmodal-retrieval imagecaptioning classification

Python 472

2 年前

pykale / pykale

#计算机科学#Knowledge-Aware machine LEarning (KALE): accessible machine learning from multiple sources for interdisciplinary research, part of the 🔥PyTorch ecosystem. ⭐ Star to support our work!

机器学习机器视觉 graph-analysis PyTorch medical-image-analysis multimodal-learning transfer-learning domain-adaptation 数据科学深度学习 meta-learning Python multimodal

Python 455

3 天前