Class Unigram

SentencePiece Unigram tokenizer.

This implements the Viterbi-based unigram language model tokenization algorithm used by SentencePiece. It finds the most likely segmentation of input text based on learned piece scores (log probabilities).

Uses a trie for efficient O(n * maxPieceLen) vocabulary lookup.

Constructors

constructor

new Unigram(model: ModelProto): Unigram
Parameters
- model: ModelProto
Returns Unigram
- Defined in tokenizers.ts:553

Accessors

bosToken

get bosToken(): number
Get the beginning-of-sequence token ID.

Returns number
- Defined in tokenizers.ts:786

eosToken

get eosToken(): number
Get the end-of-sequence token ID.

Returns number
- Defined in tokenizers.ts:791

unkToken

get unkToken(): number
Get the unknown token ID.

Returns number
- Defined in tokenizers.ts:796

vocabSize

get vocabSize(): number
Get vocabulary size.

Returns number
- Defined in tokenizers.ts:801

Methods

decode

decode(tokens: number[]): string
Decode token IDs back to text.
Parameters
- tokens: number[]
Returns string
- Defined in tokenizers.ts:733

encode

encode(text: string): number[]
Encode text into token IDs using Viterbi algorithm.

Finds the most likely segmentation by computing the best path through all possible segmentations, where scores are log probabilities.
Parameters
- text: string
Returns number[]
- Defined in tokenizers.ts:654

`Static`fromBinary

fromBinary(data: Uint8Array): Unigram
Parameters
- data: Uint8Array
Returns Unigram
- Defined in tokenizers.ts:594