BigBirdPegasus_Chemtagger / tokenizer_config.json

Initial commit

9971ad6 verified 24 days ago

5.22 kB

	{
	"added_tokens_decoder": {
	"0": {
	"content": "<pad>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"1": {
	"content": "</s>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"2": {
	"content": "<s>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"65": {
	"content": "[CLS]",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"66": {
	"content": "[SEP]",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"67": {
	"content": "[MASK]",
	"lstrip": true,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"105": {
	"content": "<unk>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"96103": {
	"content": "<DRY>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96104": {
	"content": "<YIELD>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96105": {
	"content": "<COOL>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96106": {
	"content": "<EXTRACT>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96107": {
	"content": "<DEGASS>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96108": {
	"content": "<FILTER>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96109": {
	"content": "<PARTITION>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96110": {
	"content": "<DISSOLVE>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96111": {
	"content": "<REMOVE>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96112": {
	"content": "<PURIFY>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96113": {
	"content": "<STIR>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96114": {
	"content": "<WASH>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96115": {
	"content": "<SYNTHESIZE>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96116": {
	"content": "<RECOVER>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96117": {
	"content": "<WAIT>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96118": {
	"content": "<CONCENTRATE>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96119": {
	"content": "<QUENCH>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96120": {
	"content": "<PRECIPITATE>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96121": {
	"content": "<HEAT>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96122": {
	"content": "<ADD>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96123": {
	"content": "<APPARATUSACTION>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	}
	},
	"additional_special_tokens": [],
	"bos_token": "<s>",
	"clean_up_tokenization_spaces": true,
	"cls_token": "[CLS]",
	"eos_token": "</s>",
	"mask_token": "[MASK]",
	"mask_token_sent": null,
	"model_max_length": 4096,
	"offset": 0,
	"pad_token": "<pad>",
	"sep_token": "[SEP]",
	"tokenizer_class": "PegasusTokenizer",
	"unk_token": "<unk>"
	}