corpus-data

Star

Here are 167 public repositories matching this topic...

PyThaiNLP / thaigov-v2-corpus

Star

Thai News Dataset from Thai government website.

corpus thai-language corpus-data thai-nlp pythainlp

Updated Feb 19, 2025
Jupyter Notebook

esbatmop / MNBVC

Star

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化，也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

nlp chinese chinese-nlp corpus-data chinese-simplified nlp-machine-learning chinese-language

Updated Feb 18, 2025

joshstephenson / SubAlign

Star

A python command-line tool to align utterances from subtitle language pairs

nlp subtitles-parsing corpus-linguistics corpus-data

Updated Feb 16, 2025
Python

CanCLID / canto-filter

Star

粵文語料篩選器 Cantonese text filter

nlp data corpus cantonese corpus-data cantonese-language

Updated Feb 14, 2025
Python

mantzaris / BenchmarkDataNLP.jl

Star

Generate synthetic text from a variety of methods, eg. Context Free Grammars (CFGs), with parameterized complexity to test your NLP methods (like LLMs)

nlp data-generation data-generator corpus-data llm-training

Updated Feb 10, 2025
Julia

clarin-eric / ParlaMint

Star

ParlaMint: Comparable Parliamentary Corpora

multilingual corpus-data tei members-of-parliament linguistics-dataset parliamentary-discourse

Updated Feb 15, 2025
XSLT

carolisteia / mulada

Star

Web-based streamlit application form created for a multilingual aligner project.

segmentation corpus-data nlp-machine-learning medieval streamlit-webapp multilingual-bert medieval-languages

Updated Feb 3, 2025
Python

binayachaudari / Nepali-Tamang-MT-Data

Star

Corpora for Machine Translation—Tamang to Nepali

machine-learning machine-translation corpus-data

Updated Jan 31, 2025

LemonAttn / bilibili_comment_crawl

Star

爬取bilibili视频下的评论，最新出品！！！⚠本代码只适用于学习，做其他事情概不负责！！！

python crawler spider requests bilibili corpus-data

Updated Jan 11, 2025
Python

craigmateo / pipeline-corpus

Star

Corpus for linguistic study of natural gas pipeline debates.

corpus-linguistics corpus-data

Updated Jan 4, 2025

sheepzh / poetry

Star

地球上最全的华语现代诗歌语料库，3k+诗人，80K+诗歌，15M+字

nlp poetry literature corpus-data chinese-corpus

Updated Jan 3, 2025
Python

ketanmehra003 / Parallel-Corpus-Management-Tool

Star

This project is designed to help manage and analyze large corpora of text data. It provides tools for importing, processing, and querying text data efficiently.

machine-learning django corpus python3 corpus-data corpus-tools corpus-processing language-translator-api