audio-visual-speech-recognition

A Fundamental End-to-End Speech Recognition Toolkit and Open Source SOTA Pretrained Models, Supporting Speech Recognition, Voice Activity Detection, Text Post-processing etc.

conformer PyTorch speech-recognition paraformer punctuation speaker-diarization rnnt audio-visual-speech-recognition pretrained-model voice-activity-detection Whisper dfsmn vad speechgpt speechllm

Python 9.71 k

1 天前

smeetrs / deep_avsr

A PyTorch implementation of the Deep Audio-Visual Speech Recognition paper.

audio-visual-speech-recognition speech-recognition automatic-speech-recognition speech-to-text

Python 227

1 年前

ankurbhatia24 / MULTIMODAL-EMOTION-RECOGNITION

#计算机科学#Human Emotion Understanding using multimodal dataset.

深度学习机器学习 Keras audio-visual-speech-recognition Python Tensorflow librosa

Jupyter Notebook 96

5 年前

georgesterpu / Taris

#计算机科学#Transformer-based online speech recognition system with TensorFlow 2

online speech-recognition audio-visual-speech-recognition multimodal multimodal-deep-learning transformer Tensorflow tensorflow2 Python mahcine-learning 深度学习

Python 26

4 年前

Sreyan88 / LipGER

#大语言模型#Code for InterSpeech 2024 Paper: LipGER: Visually-Conditioned Generative Error Correction for Robust Automatic Speech Recognition

audio-visual-speech-recognition generative-ai 大语言模型 prompting speech-recognition

Python 16

9 个月前

umbertocappellazzo / Llama-AVSR

[ICASSP 2025] Official Pytorch implementation of "Large Language Models are Strong Audio-Visual Speech Recognition Learners".

audio-visual-speech-recognition large-language-models

Python 16

1 个月前

david-gimeno / tailored-avsr

Official source code for the paper "Tailored Design of Audio-Visual Speech Recognition Models using Branchformers"

audio-visual-speech-recognition interpretability

Python 11

2 个月前

lzuwei / end-to-end-multiview-lipreading

#计算机科学#End to End Multiview Lip Reading

audio-visual-speech-recognition 深度学习 end-to-end-learning

Python 10

7 年前

sungnyun / avsr-temporal-dynamics

(SLT 2024) Learning Video Temporal Dynamics with Cross-Modal Attention for Robust Audio-Visual Speech Recognition

audio-visual-speech-recognition

Python 9

6 个月前

sungnyun / cav2vec

(ICLR 2025) Multi-Task Corrupted Prediction for Learning Robust Audio-Visual Speech Representation

audio-visual-speech-recognition self-supervised-learning

Python 7

22 天前

hmeutzner / kaldi-avsr

Kaldi-based audio-visual speech recognition

speech-recognition kaldi 深度神经网络 asr audio-visual-speech-recognition

Shell 6

3 年前

karlsimsBBC / cassette-bot

🤖 📼 Command-line tool for remixing videos with time-coded transcriptions.

text-to-video audio-visual-speech-recognition Video

Python 5

5 年前

zulfiqar-ali01 / audio-visual-Transcription

Real-Time Audio-visual Speech Recongition

audio-processing audio-visual-speech-recognition

Python 4

8 个月前

luomingshuang / lipreading_with_icefall

In this repository, I try to use k2, icefall and Lhotse for lip reading. I will modify it for the lip reading task. Many different lip-reading datasets should be added. -_-

audio-visual-speech-recognition

Python 2

3 年前