Advancing Arabic Diacritization

Resources released with the paper Advancing Arabic Diacritization: Improved Datasets, Benchmarking, and State-of-the-Art Models.

This repository provides all publicly shareable datasets and tools developed in the study, enabling researchers to build upon our results.

Getting Started

Clone the repository:

git clone https://github.com/qcri/advancing-arabic-diacritization.git
cd advancing-arabic-diacritization

Directory Structure

advancing-arabic-diacritization/
│
├─ Wikipedia_Diacritized_Corpus/           # Wikipedia corpus (~5M words)
├─ WikiNews_Benchmarks/     # Multi-reference WikiNews-2014 and new WikiNews-2024 dataset
└─ Evaluation/             # Multi-reference scoring script

Usage

Evaluate a system output against a benchmark:

cd evaluation
java EvalDiac.java \
   --ref <PATH_TO_REFERENCE_FILE> \
   --sys <PATH_TO_YOUR_MODEL_OUTPUT>

The script reports both WER and DER, with or without multi-reference mode.

Citation

If you use these datasets or scripts, please cite:

@inproceedings{mohamed-mubarak-2025-advancing,
    title = "Advancing {A}rabic Diacritization: Improved Datasets, Benchmarking, and State-of-the-Art Models",
    author = "Mohamed, Abubakr  and
      Mubarak, Hamdy",
    editor = "Christodoulopoulos, Christos  and
      Chakraborty, Tanmoy  and
      Rose, Carolyn  and
      Peng, Violet",
    booktitle = "Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2025",
    address = "Suzhou, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2025.emnlp-main.846/",
    doi = "10.18653/v1/2025.emnlp-main.846",
    pages = "16718--16730",
    ISBN = "979-8-89176-332-6"
}

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
Evaluation		Evaluation
WikiNews_Benchmarks		WikiNews_Benchmarks
Wikipedia_Diacritized_Corpus		Wikipedia_Diacritized_Corpus
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Advancing Arabic Diacritization

Contents

1. Wikipedia Diacritized Corpus

2. WikiNews Benchmarks

3. Scoring Script

Getting Started

Directory Structure

Usage

Citation

About

Uh oh!

Releases

Packages

Languages

qcri/advancing-arabic-diacritization

Folders and files

Latest commit

History

Repository files navigation

Advancing Arabic Diacritization

Contents

1. Wikipedia Diacritized Corpus

2. WikiNews Benchmarks

3. Scoring Script

Getting Started

Directory Structure

Usage

Citation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages