Kosuke-Yamada commited on
Commit
c77e291
·
1 Parent(s): f848d9c

Add README.md

Browse files
Files changed (1) hide show
  1. README.md +55 -0
README.md ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - ja
4
+ license: apache-2.0
5
+ library_name: transformers
6
+ datasets:
7
+ - llm-book/ner-wikipedia-dataset
8
+ pipeline_tag: token-classification
9
+ metrics:
10
+ - seqeval
11
+ - precision
12
+ - recall
13
+ - f1
14
+ ---
15
+
16
+ # llm-book/bert-base-japanese-v3-crf-ner-wikipedia-dataset
17
+
18
+ 「[大規模言語モデル入門](https://www.amazon.co.jp/dp/4297136333)」の第6章で紹介している固有表現認識のモデルです。
19
+ [cl-tohoku/bert-base-japanese-v3](https://huggingface.co/cl-tohoku/bert-base-japanese-v3)の出力層にCRF層を組み合わせたモデルを[llm-book/ner-wikipedia-dataset](https://huggingface.co/datasets/llm-book/ner-wikipedia-dataset)でファインチューニングして構築されています。
20
+
21
+ ## 関連リンク
22
+
23
+ * [GitHubリポジトリ](https://github.com/ghmagazine/llm-book)
24
+ * [Colabノートブック](https://colab.research.google.com/github/ghmagazine/llm-book/blob/main/chapter6/6-named-entity-recognition.ipynb)
25
+ * [データセット](https://huggingface.co/datasets/llm-book/ner-wikipedia-dataset)
26
+ * [大規模言語モデル入門(Amazon.co.jp)](https://www.amazon.co.jp/dp/4297136333/)
27
+ * [大規模言語モデル入門(gihyo.jp)](https://gihyo.jp/book/2023/978-4-297-13633-8)
28
+
29
+ ## 使い方
30
+ ```python
31
+ from transformers import pipeline
32
+ from pprint import pprint
33
+
34
+ ner_pipeline = pipeline(
35
+ model="llm-book/bert-base-japanese-v3-crf-ner-wikipedia-dataset",
36
+ aggregation_strategy="simple",
37
+ )
38
+ text = "大谷翔平は岩手県水沢市出身のプロ野球選手"
39
+ # text中の固有表現を抽出
40
+ pprint(ner_pipeline(text))
41
+ [{'end': None,
42
+ 'entity_group': '人名',
43
+ 'score': 0.7792025,
44
+ 'start': None,
45
+ 'word': '大谷 翔平'},
46
+ {'end': None,
47
+ 'entity_group': '地名',
48
+ 'score': 0.9150581,
49
+ 'start': None,
50
+ 'word': '岩手 県 水沢 市'}]
51
+ ```
52
+
53
+ ## ライセンス
54
+
55
+ [Apache License 2.0](https://www.apache.org/licenses/LICENSE-2.0)