Build software better, together

vertti / daffy

Function decorators for Pandas and Polars DataFrame validation - columns, data types, and row-level validation with Pydantic

python validation data-validation pandas decorator dataframe data-quality runtime-validation pydantic dataframe-schema polars

Updated Dec 16, 2025
Python

Omar98165 / Noise-Injection-Techniques

Star

🔍 Enhance model robustness with noise injection techniques to tackle messy, real-world data and improve machine learning performance.

data-science deep-learning image-processing dropout neural-networks image-recognition regularization image-analysis cnn-keras data-augmentation data-quality privacy-enhancing-technologies noise-injection mixup gaussian-noise ml-engineering ml-theory ml-robustness

Updated Dec 16, 2025

Akchaykumar2004 / Missing-Data-Doctor

Star

🩺 Diagnose and treat missing values in machine learning datasets with tools to quantify, visualize, and impute, all while evaluating impact on model performance.

data-science data machine-learning automation scikit-learn tabular-data pandas data-visualization datascience imputation feature-engineering data-pipelines data-cleaning data-quality data-profiling ml-engineering data-reporting healthcaredatasets

Updated Dec 16, 2025
Python

Brax0201 / Measuring-The-Soul-of-Data

Star

🔍 Measure data authenticity and quality in synthetic analytics for safer AI. Explore relationships, diversity, and truthfulness in modern machine learning.

python data-science benchmark coverage machine-learning utility privacy evaluation vae copula diffusion data-quality fidelity synthetic-data explainable-ai ai-ethics responsible-ai generative-ai

Updated Dec 16, 2025

oRyyu2703 / Autocurator-Synthetic-Data-Benchmark

Star

🔍 Evaluate synthetic data quality against real tabular datasets with Autocurator, measuring fidelity, coverage, privacy, and utility through clear metrics and visual reports.

python data-science benchmark coverage machine-learning utility privacy deep-learning data-validation evaluation pytorch vae data-privacy copula diffusion data-quality fidelity synthetic-data

Updated Dec 16, 2025
Python

Alwx83383838 / RuQualBench

Star

🐸 Evaluate Russian language quality in LLMs by measuring typical errors through benchmark tests with diverse datasets for improved responses.

open-source machine-learning data-analysis reproducibility user-experience software-testing data-quality quality-assessment model-evaluation performance-measurement algorithm-comparison benchmark-testing system-optimization ru-qual-bench code-portfolio

Updated Dec 16, 2025
Python

JosephAllee / resilience-metrics-release

Star

📊 Analyze time-series data to measure system resilience with this Docker-friendly tool for precise, professional deployment.

python docker cli csv monitoring time-series stability resilience data-quality

Updated Dec 16, 2025
Python

OpenMetadata is a unified metadata platform for data discovery, data observability, and data governance powered by a central metadata repository, in-depth column level lineage, and seamless team collaboration.

Updated Dec 16, 2025
TypeScript

MadMax810 / Retail-Sales-ETL-and-Analysis

Star

📊 Clean and transform raw sales data for insightful analysis, enhancing data quality for better business intelligence in retail environments.

python sql etl excel data-transformation data-visualization business-intelligence data-analytics data-analysis data-wrangling data-management data-cleaning data-quality portfolio-project

Updated Dec 16, 2025

mnacym / data-steward-agent

Star

🛡️ Streamline data governance for SaaS with the Data Steward Agent, ensuring compliance and integrity for critical data management.

security privacy audit saas compliance disaster-recovery data-quality ai-agents data-governance data-stewardship data-governance-and-ai

Updated Dec 16, 2025

scarface987 / imputetoolkit

Star

🔍 Evaluate and compare imputation methods with consistent metrics using the intuitive S3 interface of the `imputetoolkit` R package.

benchmarking r rcpp cpp devtools imputation missing-data evaluation-metrics data-quality testthat roxygen2 usethis missing-data-imputation

Updated Dec 16, 2025
C++

FEROsites / Machine-Learning-AI-Library

Star

📚 Explore a curated library for mastering Machine Learning, Deep Learning, and AI through free resources, courses, and tools for all levels.

nlp opencv machine-learning text-classification tensorflow prediction kaggle weak-supervision dataops outlier-detection labeling data-quality data-curation dataquality explainable-artificial-intelligence xai noisy-labels data-centric-ai

Updated Dec 16, 2025

interzoid / interzoid-platform

Star

Examples of Interzoid's AI-Powered Data Quality, Data Verification, and Data Enrichment APIs. This is includes sample code on many platforms, no-code browser tools for calling the APIs, and browser-based tools for batch processing, customized data enrichment, and more.

Updated Dec 16, 2025
Java

jon5642 / Postgres-Polaris

Star

🗄️ Learn PostgreSQL through real-world scenarios, hands-on exercises, and advanced patterns, guiding you from beginner to expert.

docker sql database analytics postgresql postgis performance-tuning database-administration full-text-search jsonb data-modeling data-quality database-design learning-resources row-level-security database-monitoring database-tutorial postgres-advanced

Updated Dec 16, 2025
PLpgSQL

coursementor / ifood-data-governance-pipeline

Star

🐙 iFood Data Governance Pipeline oferece governança de dados corporativa para o domínio de delivery, com rastreabilidade, qualidade automatizada e conformidade LGPD.

redis airflow dashboard pipeline numpy pandas data-visualization seaborn data-engineering data-catalog data-analysis matplotlib data-quality data-governance ifood lgpd streamlit observability-data

Updated Dec 16, 2025
Python

cleanlab / cleanvision

Star

Automatically find issues in image datasets and practice data-centric computer vision.

data-science computer-vision deep-learning data-validation exploratory-data-analysis image-classification image-generation image-segmentation image-analysis data-exploration image-quality data-quality data-profiling data-centric-ai

Updated Dec 16, 2025
Python

cleanlab / cleanlab

Star

Cleanlab's open-source library is the standard data-centric AI package for data quality and machine learning with messy, real-world data and labels.

Updated Dec 16, 2025
Python

baselinrhq / baselinr

Star

Open-source data quality platform for SQL warehouses. Automated setup, profiling, drift detection, anomaly detection, validation, and AI-powered root cause analysis. Built for engineers who want transparency and control.

python open-source bigquery airflow sql data-validation postgresql snowflake self-hosted redshift dbt data-quality data-profiling anomaly-detection data-lineage root-cause-analysis drift-detection dagster data-observability

Updated Dec 16, 2025
Python

NVIDIA-NeMo / Curator

Star

Scalable data pre processing and curation toolkit for LLMs

python data data-processing data-preparation deduplication data-quality data-curation data-prep fine-tuning fast-data-processing data-processing-pipelines datacuration large-language-models llm llmapps large-scale-data-processing datarecipes semantic-deduplication llm-data-quality

Updated Dec 16, 2025
Python

harrysinghleo / panderavibe

Star

A production-ready data contract registry and validation studio. Manage schemas, detect drift, and enforce data quality with a UI.

python data-engineering schema-validation data-quality low-code fastapi streamlit data-contracts pandera

Updated Dec 16, 2025
Python

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data-quality

Here are 583 public repositories matching this topic...

vertti / daffy

Omar98165 / Noise-Injection-Techniques

Akchaykumar2004 / Missing-Data-Doctor

Brax0201 / Measuring-The-Soul-of-Data

oRyyu2703 / Autocurator-Synthetic-Data-Benchmark

Alwx83383838 / RuQualBench

JosephAllee / resilience-metrics-release

open-metadata / OpenMetadata

MadMax810 / Retail-Sales-ETL-and-Analysis

mnacym / data-steward-agent

scarface987 / imputetoolkit

FEROsites / Machine-Learning-AI-Library

interzoid / interzoid-platform

jon5642 / Postgres-Polaris

coursementor / ifood-data-governance-pipeline

cleanlab / cleanvision

cleanlab / cleanlab

baselinrhq / baselinr

NVIDIA-NeMo / Curator

harrysinghleo / panderavibe

Improve this page

Add this topic to your repo