BatGPT-15B-sirius / tokenization_batgpt.py

Charlie

First commit from MLP Lab

fbed214 over 1 year ago

8.92 kB

	import os
	import torch
	from typing import List, Optional, Union, Dict, Tuple
	from sentencepiece import SentencePieceProcessor
	from transformers import PreTrainedTokenizer
	from transformers.utils import logging, PaddingStrategy
	from transformers.tokenization_utils_base import EncodedInput, BatchEncoding

	SPECIAL_TOKENS = ["<mask>", "<doc>", "<title>", "<para>", "<eop>", "<eot>", "<eod>"] + ["[User]", "[Assistant]", "[System]"] + ["[Turn {}]".format(i+1) for i in range(100)]

	class SPTokenizer:
	def __init__(self, model_path: str):
	# reload tokenizer
	assert os.path.isfile(model_path), model_path
	self.sp_model = SentencePieceProcessor(model_file=model_path)

	# BOS / EOS token IDs
	self.n_words: int = self.sp_model.vocab_size()
	self.bos_id: int = self.sp_model.bos_id()
	self.eos_id: int = self.sp_model.eos_id()
	self.pad_id: int = self.sp_model.unk_id()
	assert self.sp_model.vocab_size() == self.sp_model.get_piece_size()

	self.special_tokens = {}
	self.index_special_tokens = {}
	for token in SPECIAL_TOKENS:
	self.special_tokens[token] = self.n_words
	self.index_special_tokens[self.n_words] = token
	self.n_words += 1

	def tokenize(self, s: str):
	return self.sp_model.EncodeAsPieces(s)

	def encode(self, s: str, bos: bool = False, eos: bool = False) -> List[int]:
	assert type(s) is str
	t = self.sp_model.encode(s)
	if bos:
	t = [self.bos_id] + t
	if eos:
	t = t + [self.eos_id]
	return t

	def decode(self, t: List[int]) -> str:
	return self.sp_model.decode(t)

	def decode_tokens(self, tokens: List[str]) -> str:
	text = self.sp_model.DecodePieces(tokens)
	return text

	def convert_token_to_id(self, token):
	""" Converts a token (str) in an id using the vocab. """
	if token in self.special_tokens:
	return self.special_tokens[token]
	return self.sp_model.PieceToId(token)

	def convert_id_to_token(self, index):
	"""Converts an index (integer) in a token (str) using the vocab."""
	if index in self.index_special_tokens or index in [self.eos_id, self.bos_id, self.pad_id] or index < 0:
	return ""
	return self.sp_model.IdToPiece(index)


	class BatGPTTokenizer(PreTrainedTokenizer):
	vocab_files_names = {"vocab_file": "tokenizer.model"}

	model_input_names = ["input_ids", "attention_mask", "position_ids"]

	def __init__(self, vocab_file, padding_side="left", **kwargs):
	super().__init__(padding_side=padding_side, **kwargs)
	self.name = "BatGPTTokenizer"

	self.vocab_file = vocab_file
	self.tokenizer = SPTokenizer(vocab_file)
	self.special_tokens = {
	"<bos>": self.tokenizer.bos_id,
	"<eos>": self.tokenizer.eos_id,
	"<pad>": self.tokenizer.pad_id
	}

	#
	self.unk_token = "<unk>"
	self.add_special_tokens({'additional_special_tokens': SPECIAL_TOKENS})

	def get_command(self, token):
	if token in self.special_tokens:
	return self.special_tokens[token]
	assert token in self.tokenizer.special_tokens, f"{token} is not a special token for {self.name}"
	return self.tokenizer.special_tokens[token]

	@property
	def pad_token(self) -> str:
	return "<unk>"

	@property
	def pad_token_id(self):
	return self.get_command("<pad>")

	@property
	def eos_token(self) -> str:
	return "</s>"

	@property
	def eos_token_id(self):
	return self.get_command("<eos>")

	@property
	def vocab_size(self):
	return self.tokenizer.n_words

	def get_vocab(self):
	""" Returns vocab as a dict """
	vocab = {self._convert_id_to_token(i): i for i in range(self.vocab_size)}
	vocab.update(self.added_tokens_encoder)
	return vocab

	def _tokenize(self, text, **kwargs):
	return self.tokenizer.tokenize(text)

	def _convert_token_to_id(self, token):
	""" Converts a token (str) in an id using the vocab. """
	return self.tokenizer.convert_token_to_id(token)

	def _convert_id_to_token(self, index):
	"""Converts an index (integer) in a token (str) using the vocab."""
	return self.tokenizer.convert_id_to_token(index)

	def convert_tokens_to_string(self, tokens: List[str]) -> str:
	return self.tokenizer.decode_tokens(tokens)

	def save_vocabulary(self, save_directory, filename_prefix=None):
	if os.path.isdir(save_directory):
	vocab_file = os.path.join(
	save_directory, self.vocab_files_names["vocab_file"]
	)
	else:
	vocab_file = save_directory

	with open(self.vocab_file, 'rb') as fin:
	proto_str = fin.read()

	with open(vocab_file, "wb") as writer:
	writer.write(proto_str)

	return (vocab_file,)

	def get_prefix_tokens(self):
	prefix_tokens = [self.get_command("<doc>"), self.get_command("<para>")]
	return prefix_tokens

	def build_inputs(self, query, history=None, system_prompt=None):
	if history is None:
	history = []
	role_user = "[User]"
	role_assistant = "[Assistant]"
	if system_prompt:
	prompt = "[System]\n\n {}\n\n<eot>".format(system_prompt)
	else:
	prompt = ""
	for i, (old_query, response) in enumerate(history):
	prompt += "[Turn {}]\n\n{} {}\n\n{} {}\n\n<eop>".format(i + 1, role_user, old_query, role_assistant, response)
	prompt += "[Turn {}]\n\n{} {}\n\n{}".format(len(history) + 1, role_user, query, role_assistant)
	inputs = self([prompt], return_tensors="pt")
	return inputs

	def build_stream_inputs(self, query: str, history: List[Tuple[str, str]] = None, system_prompt = None):
	role_user = "[User]"
	role_assistant = "[Assistant]"
	if history:
	prompt = "\n\n[Turn {}]\n\n{} {}\n\n{}".format(len(history) + 1, role_user, query, role_assistant)
	input_ids = self.encode(prompt, add_special_tokens=False)
	input_ids = input_ids[1:]
	inputs = self.batch_encode_plus([(input_ids, None)], return_tensors="pt", add_special_tokens=False)
	else:
	if system_prompt:
	prompt = "[System]\n\n {}\n\n[Turn {}]\n\n{} {}\n\n{} ".format(system_prompt, len(history) + 1, role_user, query, role_assistant)
	else:
	prompt = "[Turn {}]\n\n{} {}\n\n{} ".format(len(history) + 1, role_user, query, role_assistant)
	inputs = self([prompt], return_tensors="pt")
	return inputs

	def build_inputs_with_special_tokens(
	self, token_ids_0: List[int], token_ids_1: Optional[List[int]] = None
	) -> List[int]:
	prefix_tokens = self.get_prefix_tokens()
	token_ids_0 = prefix_tokens + token_ids_0
	if token_ids_1 is not None:
	token_ids_0 = token_ids_0 + token_ids_1 + [self.get_command("<eos>")]
	return token_ids_0

	def _pad(
	self,
	encoded_inputs: Union[Dict[str, EncodedInput], BatchEncoding],
	max_length: Optional[int] = None,
	padding_strategy: PaddingStrategy = PaddingStrategy.DO_NOT_PAD,
	pad_to_multiple_of: Optional[int] = None,
	return_attention_mask: Optional[bool] = None,
	) -> dict:
	# Load from model defaults
	assert self.padding_side == "left"

	required_input = encoded_inputs[self.model_input_names[0]]
	seq_length = len(required_input)

	if padding_strategy == PaddingStrategy.LONGEST:
	max_length = len(required_input)

	if max_length is not None and pad_to_multiple_of is not None and (max_length % pad_to_multiple_of != 0):
	max_length = ((max_length // pad_to_multiple_of) + 1) * pad_to_multiple_of

	needs_to_be_padded = padding_strategy != PaddingStrategy.DO_NOT_PAD and len(required_input) != max_length

	# Initialize attention mask if not present.
	if "attention_mask" not in encoded_inputs:
	encoded_inputs["attention_mask"] = [1] * seq_length

	if "position_ids" not in encoded_inputs:
	encoded_inputs["position_ids"] = list(range(seq_length))

	if needs_to_be_padded:
	difference = max_length - len(required_input)

	if "attention_mask" in encoded_inputs:
	encoded_inputs["attention_mask"] = [0] * difference + encoded_inputs["attention_mask"]
	if "position_ids" in encoded_inputs:
	encoded_inputs["position_ids"] = [0] * difference + encoded_inputs["position_ids"]
	encoded_inputs[self.model_input_names[0]] = [self.pad_token_id] * difference + required_input

	return encoded_inputs