PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力使用者训练出更好的模型,并应用落地。
#计算机科学# 纯JavaScript OCR(文字识别),能识别超过100种语言文字
OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
#计算机科学# Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc.
翻译 - 支持40种以上语言的即用型OCR,包括中文,日文,韩文和泰文
#大语言模型# 思源笔记是一款隐私优先的个人知识管理系统,支持细粒度块级引用和 Markdown 所见即所得。
#计算机科学# Paperless-ngx 是一个文档管理系统,将您的纸质文件转化为可搜索的在线存档
A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。
#计算机科学# pix2tex: Using a ViT to convert images of equations into LaTeX code.
翻译 - pix2tex:使用 ViT 将方程图像转换为 LaTeX 代码。
超轻量级中文ocr,支持竖排文字识别, 支持ncnn、mnn、tnn推理 ( dbnet(1.8M) + crnn(2.5M) + anglenet(378KB)) 总模型仅4.7M
#自然语言处理# Open source libraries and APIs to build custom preprocessing pipelines for labeling, training, or production machine learning pipelines.
#算法刷题# Experience, Learn and Code the latest breakthrough innovations with Microsoft AI
翻译 - 借助Microsoft AI体验,学习和编码最新的突破性创新
Trained models with fast variant of the "best" LSTM models + legacy models
#计算机科学# 视频硬字幕提取,生成srt文件。无需申请第三方API,本地实现文本识别。基于深度学习的视频字幕提取框架,包含字幕区域检测、字幕内容提取。A GUI tool for extracting hard-coded subtitle (hardsub) from videos and generating srt files.