---
language:
- zh
- en
- ja
- ko
pipeline_tag: fill-mask
---

### 前言

- 一个对多种语言的小说与游戏脚本进行专门优化的语言模型系列，在最开始是为了 [KeywordGacha](https://github.com/neavo/KeywordGacha) 而创造的
- [KeywordGacha](https://github.com/neavo/KeywordGacha) 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等内容文本中实体词语表的翻译辅助工具
- 在 [KeywordGacha](https://github.com/neavo/KeywordGacha) 的开发过程中，我们发现社区中并没有满足需求的语言模型模型，所以自己动手创造了一个 ：）

### 综述

- 通过针对性的预训练，本系列模型：
  - 对 `轻小说`、`游戏脚本`、`漫画脚本` 等故事性文本内容具有极好的理解能力
  - 特别是 `剑与魔法`、`超能力战斗`、`异世界冒险` 等常见的 ACG 题材的故事内容
- AND NSFW IS OK
- 支持多种语言 
  - 目前已针对以下语言进行了预训练：`中文`、`英文`、`日文`、`韩文`
  - 未来计划针对以下语言进行预训练：`俄文`
- 目前我们提供以下预训练模型：

| 模型 | 版本 | 说明 |
| :--: | :--: | :--:|
| [keyword_gacha_base_multilingual](https://huggingface.co/neavo/keyword_gacha_base_multilingual) | 20241212 | 基础模型 |
| [keyword_gacha_ner_multilingual](https://huggingface.co/neavo/keyword_gacha_ner_multilingual)  | 20241212 | 预训练实体识别模型 |

### 基础模型 Base

- 在 [FacebookAI/xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练
- 继续预训练的训练量大约 2B Token，包含 4 种不同语言的语料
- 训练参数如下：
  - Batch Size : 8
  - Gradient Accumulation Steps : 16
  - Total Batch Size : 128
  - Learing Rate : 2e-5
  - Maximum Sequence Length : 256
  - Optimizer : ademamix_8bit
  - Warnup Ratio : 0.1
  - Train Precision : bf16
  - Max Train Epochs : 2
- 使用说明
  - 暂无，基础模型一般不直接使用，需针对具体下游任务进行微调后使用

### 实体识别模型 NER

- 在 Base 模型的基础上，使用了大约 50000 条合成语料进行 NER 任务的微调
- 与人工校对的实体词语表进行对比，可以达到 `90%-95%` 的实际准确率
  - 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时
  - 实际任务环境中的实测数据，并非预设测试集上的 F1 Score 这类理论上的指标
- 训练参数如下：
  - Batch Size : 48
  - Gradient Accumulation Steps : 2
  - Total Batch Size : 96
  - Learing Rate : 1e-5
  - Maximum Sequence Length : 256
  - Optimizer : ademamix_8bit
  - Warnup Ratio : 0.1
  - Train Precision : bf16
  - Max Train Epochs : 20
- 使用说明
  - 待补充

### 其他
- 训练脚本 [Github](https://github.com/neavo/KeywordGachaModel)