tokenizer

A grammar describes the syntax of a programming language, and might be defined in Backus-Naur form (BNF). A lexer performs lexical analysis, turning text into tokens. A parser takes tokens and builds a data structure like an abstract syntax tree (AST). The parser is concerned with context: does the sequence of tokens fit the grammar? A compiler is a combined lexer and parser, built for a specific grammar.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

tokenizer

Here are 396 public repositories matching this topic...

roy-a / Roy_VnTokenizer

romruben / TFM

ows-ali / languageTranslator

poojithansl / POS_Tagging

zambonin / rltools

oroszgy / spaCy-tokenizer-benchmark

DethRaid / Roy_VnTokenizer

DahlitzFlorian / math-tokenizer

DeastinY / informationminer

darenr / zh_tokenize

jonsafari / tok-tok

gmartinezramirez-old / c-py

raviqqe / nltokeniz.py

Kyubyong / neural_tokenizer

g-laz77 / Language-Modeling-Naive-Bayes

CatalystCode / jp_tokenizer

StevenShi-23 / StackOverflow-Tokenizer

maobedkova / TokenizerSplitter

sooonas / SocialTextTokenizer

JonathanRaiman / ciseau

Related topics