metadata

license: cc-by-sa-4.0
language:
  - ja
tags:
  - japanese input
  - kana kanji conversion
datasets:
  - Miwa-Keita/zenz-v2.5-dataset
pipeline_tag: text2text-generation

zenz-v2.5-small

zenz-v2.5はかな漢字変換タスクに特化したGPT-2アーキテクチャの条件付き言語モデルです。ニューラルかな漢字変換システム「Zenzai」で利用することを想定しています。

文字単位+バイト単位BPEトークナイザー
かな漢字変換タスクにおいて高い性能
文脈を考慮した変換で高い性能を発揮

zenz-v2.5は3種類のモデルサイズで公開しています。

zenz-v2.5-medium: 310Mの大規模モデル
zenz-v2.5-small: 91Mの中規模モデル
zenz-v2.5-xsmall: 26Mの小規模モデル

Model Details

Model Description

CC-BY-SA 4.0で提供されているku-nlp/gpt2-small-japanese-charのトークナイザを利用しています。

本モデルはCC-BY-SA 4.0で提供します。

Developed by: Keita Miwa (𝕏)
Model type: GPT-2
Language(s) (NLP): Japanese
License: CC-BY-SA 4.0

Model Sources

本モデルはZenzai（AzooKeyKanaKanjiConverter）と共に利用することを想定して構築しています。

Repository: https://github.com/ensan-hcl/AzooKeyKanaKanjiConverter

Data Sources

本モデルはzenz-v2.5-datasetを利用して構築しました。

Acknowledgements

本モデルの構築にあたり、さくらインターネット株式会社様より計算資源の支援をいただきました。感謝申し上げます。

また、以下のライブラリやツール、言語資源を活用して本モデルを構築しました。

MeCab (https://taku910.github.io/mecab/)
ipadic-NEologd (https://github.com/neologd/mecab-ipadic-neologd)
torch (https://pypi.org/project/torch/)
transformers (https://pypi.org/project/transformers/)
datasets (https://pypi.org/project/datasets/)
jaconv (https://pypi.org/project/jaconv/)
llama.cpp (https://github.com/ggerganov/llama.cpp)
llm.c (https://github.com/karpathy/llm.c)