|
--- |
|
language: |
|
- ja |
|
license: apache-2.0 |
|
library_name: transformers |
|
datasets: |
|
- llm-book/ner-wikipedia-dataset |
|
pipeline_tag: token-classification |
|
metrics: |
|
- seqeval |
|
- precision |
|
- recall |
|
- f1 |
|
--- |
|
|
|
# llm-book/bert-base-japanese-v3-crf-ner-wikipedia-dataset |
|
|
|
「[大規模言語モデル入門](https://www.amazon.co.jp/dp/4297136333)」の第6章で紹介している固有表現認識のモデルです。 |
|
[cl-tohoku/bert-base-japanese-v3](https://huggingface.co/cl-tohoku/bert-base-japanese-v3)の出力層にCRF層を組み合わせたモデルを[llm-book/ner-wikipedia-dataset](https://huggingface.co/datasets/llm-book/ner-wikipedia-dataset)でファインチューニングして構築されています。 |
|
|
|
## 関連リンク |
|
|
|
* [GitHubリポジトリ](https://github.com/ghmagazine/llm-book) |
|
* [Colabノートブック](https://colab.research.google.com/github/ghmagazine/llm-book/blob/main/chapter6/6-named-entity-recognition.ipynb) |
|
* [データセット](https://huggingface.co/datasets/llm-book/ner-wikipedia-dataset) |
|
* [大規模言語モデル入門(Amazon.co.jp)](https://www.amazon.co.jp/dp/4297136333/) |
|
* [大規模言語モデル入門(gihyo.jp)](https://gihyo.jp/book/2023/978-4-297-13633-8) |
|
|
|
## 使い方 |
|
```python |
|
from transformers import pipeline |
|
from pprint import pprint |
|
|
|
ner_pipeline = pipeline( |
|
model="llm-book/bert-base-japanese-v3-crf-ner-wikipedia-dataset", |
|
aggregation_strategy="simple", |
|
) |
|
text = "大谷翔平は岩手県水沢市出身のプロ野球選手" |
|
# text中の固有表現を抽出 |
|
pprint(ner_pipeline(text)) |
|
# [{'end': None, |
|
# 'entity_group': '人名', |
|
# 'score': 0.7792025, |
|
# 'start': None, |
|
# 'word': '大谷 翔平'}, |
|
# {'end': None, |
|
# 'entity_group': '地名', |
|
# 'score': 0.9150581, |
|
# 'start': None, |
|
# 'word': '岩手 県 水沢 市'}] |
|
``` |
|
|
|
## ライセンス |
|
|
|
[Apache License 2.0](https://www.apache.org/licenses/LICENSE-2.0) |