layout-analysis · GitHub Topics

A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具，将PDF转换成Markdown和JSON格式。

extract-data layout-analysis OCR Parser pdf pdf-converter Python document-analysis pdf-parser pdf-extractor-llm pdf-extractor-pretrain pdf-extractor-rag ai4science

Python 30.4 k

15 小时前

Layout-Parser / layout-parser

#计算机科学#A Unified Toolkit for Deep Learning Based Document Image Analysis

翻译 - 用于文档布局理解的Python库

layout-analysis 深度学习 object-detection OCR layout-parser detectron2 document-layout-analysis 机器视觉 document-image-processing layout-detection

Python 5.18 k

8 个月前

breezedeus / Pix2Text

An Open-Source Python3 tool with SMALL models for recognizing layouts, tables, math formulas (LaTeX), and text in images, converting them into Markdown format. A free alternative to Mathpix, empowerin...

OCR LaTeX Python PyTorch layout-analysis math-ocr

Jupyter Notebook 2.33 k

13 小时前

UglyToad / PdfPig

Read and extract text and other content from PDFs in C# (port of PDFBox)

翻译 - 在C＃（PdfBox的端口）中读取和提取PDF中的文本和其他内容

pdfbox pdf pdf-document C#netstandard pdf-extractor pdf-document-processor pdf-files alto-xml hocr layout-analysis document-analysis page-xml pdf-generation

C# 1.96 k

11 小时前

mittagessen / kraken

OCR engine for all the languages

OCR neural-networks alto-xml hocr handwritten-text-recognition layout-analysis optical-character-recognition page-xml

Python 808

1 天前

BobLd / DocumentLayoutAnalysis

Document Layout Analysis resources repos for development with PdfPig.

document-layout-analysis layout-analysis table-extraction pdf C#hocr page-xml alto-xml

C# 607

2 年前

kotaro-kinoshita / yomitoku

#计算机科学#Yomitoku is an AI-powered document image analysis package designed specifically for the Japanese language.

深度学习 layout-analysis OCR Python PyTorch

Python 568

24 天前

mindspore-lab / mindocr

#计算机科学#A toolbox of ocr models and algorithms based on MindSpore

OCR 深度学习 text-detection text-recognition crnn dbnet key-information-extraction layout-analysis layoutxlm table-recognition

Python 264

10 天前

RapidAI / RapidDoc

📝 针对文档类图像做内容提取，将文档类图像一比一输出到Word或者Txt中，便于进一步使用或处理。后续计划支持输入PDF/图像，输出对应json格式、Txt格式、Word格式和Markdown格式。

layout-analysis

Python 189

5 个月前

RapidAI / RapidLayout

Analysis of Chinese and English layouts 中英文版面分析

layout layout-analysis

Python 176

2 个月前

andreagemelli / doc2graph

#自然语言处理#Doc2Graph transforms documents into graphs and exploit a GNN to solve several tasks.

深度学习 document-understanding geometric-deep-learning gnn key-information-extraction layout-analysis 自然语言处理 table-detection PyTorch

Jupyter Notebook 120

2 年前

ppaanngggg / yolo-doclaynet

YOLO models trained by DocLayNet - power your Document Intelligent by Layout Analysis

document-analysis layout-analysis ultralytics yolo yolov8

Python 100

1 个月前

NormXU / Layout2Graph

An official implementation of paper "Paragraph2Graph: A Language-independent GNN-based framework for layout analysis"

layout-analysis

Python 77

1 年前

JPLeoRX / detectron2-publaynet

#计算机科学#Trained Detectron2 object detection models for document layout analysis based on PubLayNet dataset

object-detection instance-segmentation 机器视觉 detectron2 Python 机器学习神经网络 document-classification document-layout-analysis layout-analysis document-analysis neural-networks 人工智能深度学习 faster-rcnn PyTorch

Python 48

2 年前

MaitySubhajit / SelfDocSeg

[ICDAR 2023] SelfDocSeg: A self-supervised vision-based approach towards Document Segmentation (Oral)

机器视觉 layout-analysis self-supervised-learning

Python 39

2 年前

CycloneBoy / pdf_table

A Unified Toolkit for Deep Learning-Based Table Extraction

人工智能 document-parsing pdf layout-analysis OCR table table-recognition

Python 34

5 个月前

dell-research-harvard / HJDataset

A Large Dataset of Historical Japanese Documents with Complex Layouts

dataset detectron2 Python layout-analysis

Jupyter Notebook 32

3 年前

CaseDrive / publaynet-models

#计算机科学#Trained Detectron2 object detection models for document layout analysis based on PubLayNet dataset

人工智能机器视觉深度学习 detectron2 document-analysis document-classification document-layout-analysis faster-rcnn instance-segmentation layout-analysis 机器学习神经网络 neural-networks object-detection Python PyTorch

Python 27

2 年前

BobLd / PdfPigMLNetBlockClassifier

#计算机科学#Proof of concept of training a simple Region Classifier using PdfPig and ML.NET (LightGBM). The objective is to classify each text block in a pdf document page as either title, text, list, table and ...

lightgbm pdf document-layout-analysis classifier 机器学习 C#pdf-document pdf-document-processor layout-analysis

C# 27

5 年前

jiangnanboy / layout_analysis4j

利用java-yolov8实现版面检测（Chinese layout detection），java-yolov8 is used to detect the layout of Chinese document images

Java layout-analysis yolo yolov8

Java 25

2 年前