data-centric-ai · GitHub Topics

#数据仓库#Cleanlab's open-source library is the standard data-centric AI package for data quality and machine learning with messy, real-world data and labels.

Python 10.66 k

1 个月前

voxel51 / fiftyone

#计算机科学#Refine high-quality datasets and visual AI models

机器学习人工智能深度学习机器视觉 developer-tools 数据科学 Python active-learning data-centric-ai data-cleaning data-curation data-quality image-classification object-detection unstructured-data vector-search 可视化

Python 9.66 k

5 小时前

Docta-ai / docta

A Doctor for your data

data data-centric-ai data-centric-machine-learning data-curation data-diagnosis language-model rlhf

Python 3.34 k

6 个月前

code-kern-ai / refinery

#自然语言处理#The data scientist's open-source choice to scale, assess and maintain natural language data. Treat training data like a software artifact.

annotations data-centric-ai data-labeling 深度学习 labeling labeling-tool 机器学习自然语言处理 neural-search text-annotation transformers Python human-in-the-loop spaCy 人工智能数据科学 text-classification active-learning supervised-learning

Python 1.45 k

7 个月前

Renumics / spotlight

#计算机科学#Interactively explore unstructured datasets from your dataframe.

data-centric-ai data-curation 数据可视化机器视觉机器学习 audio exploratory-data-analysis Image timeseries Video meshes unstructured-data Hacktoberfest

TypeScript 1.18 k

19 天前

HazyResearch / data-centric-ai

#计算机科学#Resources for Data Centric AI

机器学习人工智能 data-centric-ai

TeX 1.12 k

2 年前

daochenzha / data-centric-AI

#计算机科学#A curated, but incomplete, list of data-centric AI resources.

人工智能 data-centric-ai 机器学习 data-curation data-centric data-centric-machine-learning 数据科学 data-quality data-engineering

1.11 k

1 年前

cleanlab / cleanvision

#计算机科学#Automatically find issues in image datasets and practice data-centric computer vision.

机器视觉 data-centric-ai data-exploration data-quality data-validation 深度学习 exploratory-data-analysis image-analysis image-classification image-generation image-quality image-segmentation data-profiling 数据科学

Python 1.1 k

3 个月前

Renumics / awesome-open-data-centric-ai

#自然语言处理#Curated list of open source tooling for data-centric AI on unstructured data.

Awesome Lists data-centric-ai data-curation data-versioning 数据可视化 explainable-ai active-learning feature-vector robust-machine-learning bias-detection 机器视觉 data-drift 深度学习自然语言处理 noisy-labels outlier-detection synthetic-data uncertainty-estimation 机器学习

718

2 年前

dcai-course / dcai-lab

#计算机科学#Lab assignments for Introduction to Data-Centric AI, MIT IAP 2024 👩🏽‍💻

course data-centric-ai 数据科学深度学习 homework lab 机器学习

Jupyter Notebook 459

4 个月前

gszfwsb / NCFM

Official PyTorch implementation of the paper "Dataset Distillation with Neural Characteristic Function: A Minmax Perspective" (NCFM) in CVPR 2025 (Highlight).

synthetic-data 机器视觉 data-centric-ai

Python 373

23 天前