hotchpotch
commited on
Update README.md
Browse files
README.md
CHANGED
@@ -12,7 +12,7 @@ base_model:
|
|
12 |
|
13 |
高性能な日本語 [SPLADE](https://github.com/naver/splade) (Sparse Lexical and Expansion Model) モデルです。[テキストからスパースベクトルへの変換デモ](https://huggingface.co/spaces/hotchpotch/japanese-splade-demo-streamlit)で、どのようなスパースベクトルに変換できるか、WebUI から気軽にお試しいただけます。
|
14 |
|
15 |
-
|
16 |
|
17 |
|
18 |
# 利用方法
|
@@ -146,4 +146,8 @@ print(similarity)
|
|
146 |
## 学習元データセット
|
147 |
|
148 |
[hpprc/emb](https://huggingface.co/datasets/hpprc/emb) から、auto-wiki-qa, mmarco, jsquad jaquad, auto-wiki-qa-nemotron, quiz-works quiz-no-mori, miracl, jqara mr-tydi, baobab-wiki-retrieval, mkqa データセットを利用しています。
|
149 |
-
また英語データセットとして、MS Marcoを利用しています。
|
|
|
|
|
|
|
|
|
|
12 |
|
13 |
高性能な日本語 [SPLADE](https://github.com/naver/splade) (Sparse Lexical and Expansion Model) モデルです。[テキストからスパースベクトルへの変換デモ](https://huggingface.co/spaces/hotchpotch/japanese-splade-demo-streamlit)で、どのようなスパースベクトルに変換できるか、WebUI から気軽にお試しいただけます。
|
14 |
|
15 |
+
なお、テクニカルレポートは後日公開予定です。
|
16 |
|
17 |
|
18 |
# 利用方法
|
|
|
146 |
## 学習元データセット
|
147 |
|
148 |
[hpprc/emb](https://huggingface.co/datasets/hpprc/emb) から、auto-wiki-qa, mmarco, jsquad jaquad, auto-wiki-qa-nemotron, quiz-works quiz-no-mori, miracl, jqara mr-tydi, baobab-wiki-retrieval, mkqa データセットを利用しています。
|
149 |
+
また英語データセットとして、MS Marcoを利用しています。
|
150 |
+
|
151 |
+
## 注意事項
|
152 |
+
|
153 |
+
`tokenizer.json` ファイルを同梱していますが、このファイルは text-embeddings-inference を動かすためのダミーファイルです。詳細は、[text-embeddings-inference で日本語トークナイザーモデルの推論をする](https://secon.dev/entry/2024/09/30/160000/)をご覧ください。
|