Class SentencePiece

SentencePiece tokenizer.

Supports both SentencePiece Unigram and SentencePiece BPE model files. The model type is detected from the trainer spec at construction time.

Constructors

constructor

new SentencePiece(model: ModelProto): SentencePiece
Parameters
- model: ModelProto
Returns SentencePiece
- Defined in tokenizers.ts:553

Accessors

bosToken

get bosToken(): number
Get the beginning-of-sequence token ID.

Returns number
- Defined in tokenizers.ts:867

eosToken

get eosToken(): number
Get the end-of-sequence token ID.

Returns number
- Defined in tokenizers.ts:872

modelType

get modelType(): "unigram" | "bpe"
Returns "unigram" | "bpe"
- Defined in tokenizers.ts:607

unkToken

get unkToken(): number
Get the unknown token ID.

Returns number
- Defined in tokenizers.ts:877

vocabSize

get vocabSize(): number
Get vocabulary size.

Returns number
- Defined in tokenizers.ts:882

Methods

decode

decode(tokens: number[]): string
Decode token IDs back to text.
Parameters
- tokens: number[]
Returns string
- Defined in tokenizers.ts:830

encode

encode(text: string): number[]
Encode text into token IDs.
Parameters
- text: string
Returns number[]
- Defined in tokenizers.ts:820

`Static`fromBinary

fromBinary(data: Uint8Array): SentencePiece
Parameters
- data: Uint8Array
Returns SentencePiece
- Defined in tokenizers.ts:613