fast tokenizer问题
#3
by
JaheimLee
- opened
为何官方项目没有use_fast=False的限制?本项目tokenizer有什么变化吗?
本项目tokenizer和官方是一样。
由于baichuan目前没有fast tokenizer实现,因此这里直接设置use_fast=False避免加载错误。
官方有tokenization_baichuan.py, 是不是要同步一下
官方BaiChuanTokenizer和transformers里的LlamaTokenizer代码是完全一样的。
此外,当前llama的fast tokenizer在包含< /s >的文本上的编码存在错误,相关问题可参考https://huggingface.co/openlm-research/open_llama_7b
因此,目前需要设置use_fast=False,以避免AutoTokenizer自动加载fast tokenizer。
好的,感谢
JaheimLee
changed discussion status to
closed