toykenizer

A from-scratch implementation of Byte Pair Encoding (BPE) tokenization, without any other dependencies in Python.

Usage

from toykenizer import BPETokenizer
import json

# Train a new tokenizer
tokenizer = BPETokenizer()
tokenizer.train("training text here", vocab_size=512)

# Encode and decode
tokens = tokenizer.encode("hello world")
text = tokenizer.decode(tokens)

# Save and load trained merges
merges = tokenizer.save()
with open("model.json", "w") as f:
    json.dump(merges, f)

other_tokenizer = BPETokenizer()
with open("model.json") as f:
    other_tokenizer.load(json.load(f))

Pre-trained models

A tokenizer trained on Harry Potter text is included in models/harry-potter/.

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
models/harry-potter		models/harry-potter
toykenizer		toykenizer
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

toykenizer

Usage

Pre-trained models

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

toykenizer

Usage

Pre-trained models

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages