data-cleaning · GitHub Topics

#数据仓库#The standard data-centric AI package for data quality and machine learning with messy, real-world data and labels.

翻译 - 在数据集中查找标签错误并使用嘈杂的标签进行学习。

Python 10.46 k

3 天前

voxel51 / fiftyone

#计算机科学#Refine high-quality datasets and visual AI models

翻译 - 用于构建高质量数据集和计算机视觉模型的开源工具

机器学习人工智能深度学习机器视觉 developer-tools 数据科学 Python active-learning data-centric-ai data-cleaning data-curation data-quality image-classification object-detection unstructured-data vector-search 可视化

Python 9.36 k

4 小时前

johnkerl / miller

Miller is like awk, sed, cut, join, and sort for name-indexed data such as CSV, TSV, and tabular JSON

翻译 - Miller就像awk，sed，cut，join和对名称索引数据（例如CSV，TSV和表格JSON）进行排序

data-processing data-cleaning CSV csv-format streaming-data streaming-algorithms tsv JSON json-data data-reduction 统计 statistical-analysis DevOps devops-tools tabular-data 命令行界面 command-line-tools

Go 9.25 k

5 天前

unionai-oss / pandera

A light-weight, flexible, and expressive statistical data testing library

pandas validation schema dataframes Testing pandas-dataframe data-validation data-cleaning assertions hypothesis-testing data-processing

Python 3.75 k

4 天前

justmarkham / pandas-videos

Jupyter notebook and datasets from the pandas video series

数据科学 Jupyter Notebook Python pandas 教程数据分析 data-cleaning

Jupyter Notebook 2.18 k

1 年前

justmarkham / DAT8

#自然语言处理#General Assembly's 2015 Data Science course in Washington, DC

数据科学机器学习 scikit-learn 数据分析 pandas Jupyter Notebook Python course linear-regression logistic-regression naive-bayes 自然语言处理 decision-trees ensemble-learning clustering Regular expression web-scraping 数据可视化 data-cleaning

Jupyter Notebook 1.61 k

10 个月前

hi-primus / optimus

#计算机科学#🚚 Agile Data Preparation Workflows made easy with Pandas, Dask, cuDF, Dask-cuDF, Vaex and PySpark

Apache Spark pyspark data-wrangling bigdata 数据科学 data-transformation 机器学习 data-profiling data-extraction data-exploration 数据分析 data-preparation cudf dask data-cleaning

Python 1.5 k

4 个月前

sfirke / janitor

simple tools for data cleaning in R

data-cleaning 数据科学数据分析 R pivot-tables excel tidyverse

R 1.41 k

4 个月前

data-forge / data-forge-ts

The JavaScript data transformation and analysis toolkit inspired by Pandas and LINQ.

翻译 - 受Pandas和LINQ启发的JavaScript数据转换和分析工具包。

data-wrangling data-forge data 数据分析 JavaScript Node.js linq pandas 可视化数据可视化 data-management data-manipulation data-cleaning CSV JSON

TypeScript 1.36 k

6 个月前

skrub-data / skrub

#计算机科学#Machine learning for dataframes

机器学习数据科学 data-cleaning data data-preparation data-preprocessing 数据分析 data-wrangling dataframe

Python 1.35 k

1 天前

ECNU-ICALK / EduChat

#大语言模型#An open-source educational chat model from ICALK, East China Normal University. 开源中英教育对话大模型。(通用基座模型，GPU部署，数据清理) 致敬: LLaMA, MOSS, BELLE, Ziya, vLLM

belle chinese-nlp data-cleaning 教学 llama 大语言模型 moss open-models

Jupyter Notebook 784

6 个月前

akanz1 / klib

Easy to use Python library of customized functions for cleaning and analyzing data.

数据科学数据分析数据可视化 Python feature-selection data-cleaning data-preprocessing

Python 509

3 个月前

schema-inspector / schema-inspector

Schema-Inspector is a simple JavaScript object sanitization and validation module.

JavaScript validation Sanitization data-cleaning

JavaScript 505

4 个月前

encord-team / encord-active

#计算机科学#The toolkit to test, validate, and evaluate your models and surface, curate, and prioritize the most valuable data for labeling.

机器视觉 data 数据科学 data-validation 深度学习机器学习 mlops Python active-learning annotations data-centric data-cleaning data-quality label-errors noisy-labels object-detection

Python 449

4 天前

data-cleaning / validate

Professional data validation for the R environment

R validation data-cleaning

R 419

1 个月前

Desbordante / desbordante-core

Desbordante is a high-performance data profiler that is capable of discovering many different patterns in data using various algorithms. It also allows to run data cleaning scenarios using these algor...