Update README.md
Browse files
README.md
CHANGED
@@ -25,20 +25,19 @@ pipeline_tag: token-classification
|
|
25 |
|
26 |
| 模型 | 版本 | 说明 |
|
27 |
| :--: | :--: | :--:|
|
28 |
-
| [keyword_gacha_base_multilingual](https://huggingface.co/neavo/keyword_gacha_base_multilingual) |
|
29 |
-
| [keyword_gacha_ner_multilingual](https://huggingface.co/neavo/keyword_gacha_ner_multilingual) |
|
30 |
|
31 |
### 基础模型 Base
|
32 |
|
33 |
- 当前的基础模型是在 [FacebookAI/xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练得到的
|
34 |
-
-
|
35 |
-
- 总训练语料约 400M Tokens,总训练量约为 800M Tokens
|
36 |
- 训练语料中包含 `Web 小说`、`文库本小说`、`AVG 游戏脚本`、`RPG 游戏脚本` 等不同种类的文本
|
37 |
- 训练参数如下:
|
38 |
-
- Batch Size :
|
39 |
-
- Gradient Accumulation Steps :
|
40 |
-
- Total Batch Size :
|
41 |
-
- Learing Rate :
|
42 |
- Maximum Sequence Length : 256
|
43 |
- Optimizer : AdamW_8bit
|
44 |
- Warnup Ratio : 0.1
|
@@ -52,14 +51,14 @@ pipeline_tag: token-classification
|
|
52 |
- 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时,与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率(并非 F1 Score 这种理论上的指标)
|
53 |
- 训练参数如下:
|
54 |
- Batch Size : 32
|
55 |
-
- Gradient Accumulation Steps :
|
56 |
-
- Total Batch Size :
|
57 |
- Learing Rate : 2e-5
|
58 |
- Maximum Sequence Length : 256
|
59 |
-
- Optimizer :
|
60 |
- Warnup Ratio : 0.1
|
61 |
- Train Precision : BF16
|
62 |
-
- Max Train Epochs :
|
63 |
- 使用说明
|
64 |
- 待补充
|
65 |
|
|
|
25 |
|
26 |
| 模型 | 版本 | 说明 |
|
27 |
| :--: | :--: | :--:|
|
28 |
+
| [keyword_gacha_base_multilingual](https://huggingface.co/neavo/keyword_gacha_base_multilingual) | 20240912 | 基础模型 |
|
29 |
+
| [keyword_gacha_ner_multilingual](https://huggingface.co/neavo/keyword_gacha_ner_multilingual) | 20240912 | 预训练实体识别模型 |
|
30 |
|
31 |
### 基础模型 Base
|
32 |
|
33 |
- 当前的基础模型是在 [FacebookAI/xlm-roberta-base](https://huggingface.co/FacebookAI/xlm-roberta-base) 进行继续预训练得到的
|
34 |
+
- 使用了总计约 500M Token 的语料(日语 200M、其他语言 100M)训练了2个 EPOCH
|
|
|
35 |
- 训练语料中包含 `Web 小说`、`文库本小说`、`AVG 游戏脚本`、`RPG 游戏脚本` 等不同种类的文本
|
36 |
- 训练参数如下:
|
37 |
+
- Batch Size : 8
|
38 |
+
- Gradient Accumulation Steps : 16
|
39 |
+
- Total Batch Size : 128
|
40 |
+
- Learing Rate : 1e-5
|
41 |
- Maximum Sequence Length : 256
|
42 |
- Optimizer : AdamW_8bit
|
43 |
- Warnup Ratio : 0.1
|
|
|
51 |
- 与 [KeywordGacha](https://github.com/neavo/KeywordGacha) 搭配使用时,与人工校对的实体词语表进行对比,可以达到 `90%-95%` 的实际准确率(并非 F1 Score 这种理论上的指标)
|
52 |
- 训练参数如下:
|
53 |
- Batch Size : 32
|
54 |
+
- Gradient Accumulation Steps : 1
|
55 |
+
- Total Batch Size : 32
|
56 |
- Learing Rate : 2e-5
|
57 |
- Maximum Sequence Length : 256
|
58 |
+
- Optimizer : AdamW
|
59 |
- Warnup Ratio : 0.1
|
60 |
- Train Precision : BF16
|
61 |
+
- Max Train Epochs : 20
|
62 |
- 使用说明
|
63 |
- 待补充
|
64 |
|