Tokn

LLM Inference server Developing my own LLM Inference server like vLLM.

Right now it supports

total request	tokn	vLLM
102	457 tok/sec	30,000 tok/sec

Name		Name	Last commit message	Last commit date
Latest commit History 42 Commits
.vscode		.vscode
data		data
debug		debug
layers		layers
media		media
src		src
utils		utils
.gitignore		.gitignore
README.md		README.md
__init__.py		__init__.py
commands.sh		commands.sh
fastapi_server.py		fastapi_server.py
requirements.txt		requirements.txt
serve.py		serve.py