lmflow.utils.conversation_template#

Submodules#

Classes#

`ConversationTemplate`
`ConversationTemplateForTool`

Package Contents#

class lmflow.utils.conversation_template.ConversationTemplate[source]#

user_formatter: Formatter#

assistant_formatter: Formatter#

function_formatter: Formatter | None = None#

observation_formatter: Formatter | None = None#

system_formatter: Formatter | None = None#

force_system: bool = False#

tools_formatter: Formatter | None = None#

separator: TemplateComponent | None = None#

remove_last_sep: bool = False#

special_starter: TemplateComponent | None = None#

special_stopper: TemplateComponent | None = None#

template_name: str | None = None#

system_default: str | None = None#

__post_init__()[source]#

encode_conversation(tokenizer: transformers.PreTrainedTokenizer, messages: list[dict[str, str]], system: str | None = None, tools: list[str] | None = None, **kwargs) → collections.abc.Sequence[tuple[list[int], list[int]]][source]#

Messages here should be guaranteed to be in pairs, with the first message being the user message and the second message being the system message. Data example: ```json {

“conversation_id”: 2, “system”: “sysinfo1”, “tools”: [“tool_1_desc”], “messages”: [

{
“role”: “user”, “content”: “hi”

}, {

“role”: “assistant”, “content”: “Hello!”

}

]

}#

_encode(tokenizer: transformers.PreTrainedTokenizer, messages: list[dict[str, str]], system: str | None = None, tools: str | None = None, **kwargs) → collections.abc.Sequence[tuple[list[int], list[int]]][source]#

_encode_template(template: list[TemplateComponent], tokenizer: transformers.PreTrainedTokenizer, **kwargs) → list[int][source]#

Encode template components into token ids.

Parameters:

templatelist[TemplateComponent]: Formatted template components.
tokenizerPreTrainedTokenizer: Tokenizer to convert tokens into token ids.

Returns:

list[int]: Encoded token ids.

post_process_pairs(encoded_pairs, tokenizer)[source]#

remove_last_separator(encoded_pairs: collections.abc.Sequence[tuple[list[int], list[int]]], tokenizer: transformers.PreTrainedTokenizer) → collections.abc.Sequence[tuple[list[int], list[int]]][source]#

add_special_starter(encoded_pairs: collections.abc.Sequence[tuple[list[int], list[int]]], tokenizer: transformers.PreTrainedTokenizer) → collections.abc.Sequence[tuple[list[int], list[int]]][source]#

add_special_stopper(encoded_pairs: collections.abc.Sequence[tuple[list[int], list[int]]], tokenizer: transformers.PreTrainedTokenizer) → collections.abc.Sequence[tuple[list[int], list[int]]][source]#

_ensure_id_list(obj: int | list[int]) → list[int][source]#: Make sure the object is a list of integers. Useful for handling token ids.

class lmflow.utils.conversation_template.ConversationTemplateForTool[source]#

Bases: ConversationTemplate