前言

  • 一个对多种语言的小说与游戏脚本进行专门优化的语言模型系列,在最开始是为了 KeywordGacha 而创造的
  • KeywordGacha 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等内容文本中实体词语表的翻译辅助工具
  • KeywordGacha 的开发过程中,我们发现社区中并没有满足需求的语言模型模型,所以自己动手创造了一个 :)

综述

  • 通过针对性的预训练,本系列模型:
    • 轻小说游戏脚本漫画脚本 等故事性文本内容具有极好的理解能力
    • 特别是 剑与魔法超能力战斗异世界冒险 等常见的 ACG 题材的故事内容
  • AND NSFW IS OK
  • 支持多种语言
    • 目前已针对以下语言进行了预训练:中文英文日文韩文
    • 未来计划针对以下语言进行预训练:俄文
  • 目前我们提供以下预训练模型:
模型 版本 说明
keyword_gacha_base_multilingual 20241212 基础模型
keyword_gacha_ner_multilingual 20241212 预训练实体识别模型

基础模型 Base

  • FacebookAI/xlm-roberta-base 进行继续预训练
  • 继续预训练的训练量大约 2B Token,包含 4 种不同语言的语料
  • 训练参数如下:
    • Batch Size : 8
    • Gradient Accumulation Steps : 16
    • Total Batch Size : 128
    • Learing Rate : 2e-5
    • Maximum Sequence Length : 256
    • Optimizer : ademamix_8bit
    • Warnup Ratio : 0.1
    • Train Precision : bf16
    • Max Train Epochs : 2
  • 使用说明
    • 暂无,基础模型一般不直接使用,需针对具体下游任务进行微调后使用

实体识别模型 NER

  • 在 Base 模型的基础上,使用了大约 50000 条合成语料进行 NER 任务的微调
  • 与人工校对的实体词语表进行对比,可以达到 90%-95% 的实际准确率
    • KeywordGacha 搭配使用时
    • 实际任务环境中的实测数据,并非预设测试集上的 F1 Score 这类理论上的指标
  • 训练参数如下:
    • Batch Size : 48
    • Gradient Accumulation Steps : 2
    • Total Batch Size : 96
    • Learing Rate : 1e-5
    • Maximum Sequence Length : 256
    • Optimizer : ademamix_8bit
    • Warnup Ratio : 0.1
    • Train Precision : bf16
    • Max Train Epochs : 20
  • 使用说明
    • 待补充

其他

Downloads last month
29
Safetensors
Model size
278M params
Tensor type
F32
·
Inference Examples
Unable to determine this model's library. Check the docs .