Class BpeEncoding

Byte-pair encoding tokenizer, based on the Tiktoken library.

This handles special tokens and correctly merges adjacent pairs in order of priority (lowest ranks first). This is enough to support LLMs, although some models like CLIP have particular behavior (BOS/EOS, padding, case-insensitivity, whitespace) implemented in subclasses.

The internals of this class work in hex strings instead of Uint8Array because strings are more optimized in JavaScript.

Constructors

constructor

new BpeEncoding(
    encoder: Map<string, number>,
    specialTokens: Record<string, number>,
    regex: RegExp,
): BpeEncoding
Construct a new BPE encoding.
Parameters
- encoder: Map<string, number>
- specialTokens: Record<string, number>
- regex: RegExp
Returns BpeEncoding
- Defined in tokenizers.ts:190

Properties

decoder

decoder: Map<number, string>

encoder

encoder: Map<string, number>

regex

regex: RegExp

specialRegex

specialRegex: RegExp

specialTokensDecoder

specialTokensDecoder: Map<number, string>

specialTokensEncoder

specialTokensEncoder: Map<string, number>

Methods

_afterEncode

_afterEncode(tokens: number[]): number[]
Can be overridden to change behavior of encode().
Parameters
- tokens: number[]
Returns number[]
- Defined in tokenizers.ts:319

_beforeDecode

_beforeDecode(tokens: number[]): number[]
Can be overridden to change behavior of decode().
Parameters
- tokens: number[]
Returns number[]
- Defined in tokenizers.ts:309

_beforeEncode

_beforeEncode(text: string): string
Can be overridden to change behavior of encode().
Parameters
- text: string
Returns string
- Defined in tokenizers.ts:314

decode

decode(tokens: number[]): string
Decode tokens into a string.

May be lossy if the tokens output bytes that don't correspond to a valid UTF-8 string.
Parameters
- tokens: number[]
Returns string
- Defined in tokenizers.ts:235

decodeBytes

decodeBytes(tokens: number[]): Uint8Array
Decode tokens into a byte array (may not be UTF-8).
Parameters
- tokens: number[]
Returns Uint8Array
- Defined in tokenizers.ts:240

encode

encode(text: string, allowedSpecial?: Set<string>): number[]
Encode a text string into tokens, optionally supporting special tokens.
Parameters
- text: string
- OptionalallowedSpecial: Set<string>
Returns number[]
- Defined in tokenizers.ts:255

encodeWithSpecialTokens

encodeWithSpecialTokens(text: string): number[]
Encode text with all special tokens allowed.
Parameters
- text: string
Returns number[]
- Defined in tokenizers.ts:304

specialTokens

specialTokens(): Set<string>
Retrieve a list of special tokens in this encoding.

Returns Set<string>
- Defined in tokenizers.ts:299

Class BpeEncoding

Constructors

constructor

Parameters

Returns BpeEncoding

Properties

decoder

encoder

regex

specialRegex

specialTokensDecoder

specialTokensEncoder

Methods

_afterEncode

Parameters

Returns number[]

_beforeDecode

Parameters

Returns number[]

_beforeEncode

Parameters

Returns string

decode

Parameters

Returns string

decodeBytes

Parameters

Returns Uint8Array

encode

Parameters

Returns number[]

encodeWithSpecialTokens

Parameters

Returns number[]

specialTokens

Returns Set<string>