metadata
license: cc-by-sa-4.0
language:
- ja
tags:
- japanese input
- kana kanji conversion
datasets:
- Miwa-Keita/zenz-v2.5-dataset
pipeline_tag: text2text-generation
zenz-v2.5-small
zenz-v2.5はかな漢字変換タスクに特化したGPT-2アーキテクチャの条件付き言語モデルです。ニューラルかな漢字変換システム「Zenzai」で利用することを想定しています。
- 文字単位+バイト単位BPEトークナイザー
- かな漢字変換タスクにおいて高い性能
- 文脈を考慮した変換で高い性能を発揮
zenz-v2.5は3種類のモデルサイズで公開しています。
- zenz-v2.5-medium: 310Mの大規模モデル
- zenz-v2.5-small: 91Mの中規模モデル
- zenz-v2.5-xsmall: 26Mの小規模モデル
Model Details
Model Description
CC-BY-SA 4.0で提供されているku-nlp/gpt2-small-japanese-charのトークナイザを利用しています。
本モデルはCC-BY-SA 4.0で提供します。
- Developed by: Keita Miwa (𝕏)
- Model type: GPT-2
- Language(s) (NLP): Japanese
- License: CC-BY-SA 4.0
Model Sources
本モデルはZenzai(AzooKeyKanaKanjiConverter)と共に利用することを想定して構築しています。
Data Sources
本モデルはzenz-v2.5-datasetを利用して構築しました。
Acknowledgements
本モデルの構築にあたり、さくらインターネット株式会社様より計算資源の支援をいただきました。感謝申し上げます。
また、以下のライブラリやツール、言語資源を活用して本モデルを構築しました。
- MeCab (https://taku910.github.io/mecab/)
- ipadic-NEologd (https://github.com/neologd/mecab-ipadic-neologd)
- torch (https://pypi.org/project/torch/)
- transformers (https://pypi.org/project/transformers/)
- datasets (https://pypi.org/project/datasets/)
- jaconv (https://pypi.org/project/jaconv/)
- llama.cpp (https://github.com/ggerganov/llama.cpp)
- llm.c (https://github.com/karpathy/llm.c)