fast tokenizer问题

by JaheimLee - opened Jun 18, 2023

Discussion

JaheimLee

Jun 18, 2023

为何官方项目没有use_fast=False的限制？本项目tokenizer有什么变化吗？

fireballoon

Owner Jun 18, 2023

本项目tokenizer和官方是一样。
由于baichuan目前没有fast tokenizer实现，因此这里直接设置use_fast=False避免加载错误。

JaheimLee

Jun 19, 2023

官方有tokenization_baichuan.py, 是不是要同步一下

fireballoon

Owner Jun 19, 2023

•

edited Jun 19, 2023

官方BaiChuanTokenizer和transformers里的LlamaTokenizer代码是完全一样的。
此外，当前llama的fast tokenizer在包含< /s >的文本上的编码存在错误，相关问题可参考https://huggingface.co/openlm-research/open_llama_7b
因此，目前需要设置use_fast=False，以避免AutoTokenizer自动加载fast tokenizer。

JaheimLee

Jun 19, 2023

好的，感谢

JaheimLee changed discussion status to closed Jun 19, 2023

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment