unstructured-data · GitHub Topics

iterative / dvc

#效率工具集合#🦉 Data Versioning and ML Experiments

翻译 - 🦉数据版本控制|用于数据和模型的Git

数据科学机器学习 reproducibility data-version-control developer-tools 人工智能 unstructured-data

Python 14.36 k

3 天前

voxel51 / fiftyone

#计算机科学#Refine high-quality datasets and visual AI models

翻译 - 用于构建高质量数据集和计算机视觉模型的开源工具

机器学习人工智能深度学习机器视觉 developer-tools 数据科学 Python active-learning data-centric-ai data-cleaning data-curation data-quality image-classification object-detection unstructured-data vector-search 可视化

Python 9.36 k

3 小时前

Zipstack / unstract

No-code LLM Platform to launch APIs and ETL Pipelines to structure unstructured documents

etl-pipeline llm-platform unstructured-data

Python 5.04 k

8 小时前

towhee-io / towhee

#大语言模型#Towhee is a framework that is dedicated to making neural data processing pipelines simple and fast.

机器学习 convolutional-networks embedding-vectors embeddings 机器视觉图像处理 video-processing feature-extraction image-retrieval unstructured-data feature-vector transformer milvus vision-transformer vit pipeline 大语言模型

Python 3.35 k

6 个月前

neo4j-labs / llm-graph-builder

Neo4j graph construction from unstructured data using LLMs

data-import genai graph graph-rag graph-search graphdb graphrag knowledge-graph langchain Neo4j rag unstructured-data vectordb

Jupyter Notebook 3.3 k

1 天前

instill-ai / instill-core

#大语言模型#🔮 Instill Core is a full-stack AI infrastructure tool for data, model and pipeline orchestration, designed to streamline every aspect of building versatile AI-first applications

unstructured-data 低代码 developer-tools etl 无代码 Open Source Hacktoberfest 人工智能 API 命令行界面 generative-ai Go gpt 大语言模型 pipeline Python stable-diffusion TypeScript

Makefile 2.24 k

5 小时前

milvus-io / bootcamp

#自然语言处理#Dealing with all unstructured data, such as reverse image search, audio search, molecular search, video analysis, question and answer systems, NLP, etc.

milvus unstructured-data benchmark-testing image-search audio-search question-answering 深度学习自然语言处理 image-classification image-recognition Python Hacktoberfest

HTML 2.08 k

4 天前

nomic-ai / nomic

Interact, analyze and structure massive text, image, embedding, audio and video datasets

Python clustering duplicate-detection embeddings text topic-modeling unstructured-data

Python 1.63 k

16 天前

tstanislawek / awesome-document-understanding

#自然语言处理#A curated list of resources for Document Understanding (DU) topic

Awesome Lists 机器学习 information-extraction key-information-extraction document-understanding robotic-process-automation document-analysis document-layout-analysis OCR 自然语言处理深度学习 pdf rpa pdf-documents document-intelligence unstructured-data document-ai

1.39 k

2 年前

dingodb / dingo

A multi-modal vector database that supports upserts and vector queries using unified SQL (MySQL-Compatible) on structured and unstructured data, while meeting the requirements of high concurrency and ...

serving embedding-store vector-database mysql-compatibility embedding-search key-value-distributed-store vector-ocean unified-sql structured-data unstructured-data

Java 1.38 k

2 天前

Renumics / spotlight

#计算机科学#Interactively explore unstructured datasets from your dataframe.

data-centric-ai data-curation 数据可视化机器视觉机器学习 audio exploratory-data-analysis Image timeseries Video meshes unstructured-data Hacktoberfest

TypeScript 1.16 k

2 个月前

lotus-data / lotus

#大语言模型#LOTUS: A semantic query engine for fast and easy LLM-powered data processing

data 大语言模型 pandas Python semantic-search unstructured-data

Python 1.15 k

1 天前

yobix-ai / extractous

#自然语言处理#Fast and efficient unstructured data extraction. Written in Rust with bindings for many languages.

extraction pdf tika unstructured unstructured-data data-pipelines docx etl etl-pipelines 大语言模型机器学习自然语言处理 OCR pdf-parser rag Rust

Rust 1.05 k

4 个月前

amphi-ai / amphi-etl

Visual Data Transformation and Data Preparation. Low-Code Python-based ETL.

data data-pipelines etl structured-data unstructured-data 数据分析数据科学 data-preparation

TypeScript 1.04 k

9 天前

databricks / lilac

Curate better data for LLMs

人工智能数据分析 dataset-analysis unstructured-data

Python 1.02 k

1 年前

JSv4 / OpenContracts

#大语言模型#Enterprise-grade and API-first LLM workspace for unstructured documents, including data extraction, redaction, rights management, prompt playground, and more!

agent agentic-ai etl etl-pipeline 大语言模型 unstructured-data vector-database prompt-engineering

Python 832

3 天前