weblab-GENIAC
/

Tanuki-8B-vision

Model card Files Files and versions Community

Tanuki-8B-vision / README.md

kanhatakeyama's picture

Update README.md (#1)

a5ff088 verified 5 months ago

|

history blame contribute delete

2.14 kB

	---
	license: apache-2.0
	---
	# Tanuki-8B-vision

	## モデルについて
	Tanuki-8B-visionは、LLaVA1.5に基づく視覚言語モデルです。言語モデルとして、[Tanuki-8bのphase1モデル](https://huggingface.co/weblab-GENIAC/team_hatakeyama_phase1)、画像エンコーダとして[google/siglip-so400m-patch14-384](https://huggingface.co/google/siglip-so400m-patch14-384)を使用しています。

	## 背景
	- 近年、視覚言語モデル（VLM）が注目されている一方で、商用利用可能な日本語データセットは限られています。本プロジェクトでは、データの合成を活用してこの課題に取り組むとともに、80億パラメータ([Tanuki-8B-vision](https://huggingface.co/weblab-GENIAC/Tanuki-8B-vision))および500億パラメータ([Tanuki-8x8B-vision-exp](https://huggingface.co/weblab-GENIAC/Tanuki-8x8B-vision-exp))のVLMを開発しました
	- VLM開発は、[GENIAC 松尾研 LLM開発プロジェクト](https://weblab.t.u-tokyo.ac.jp/geniac_llm/)の主要な開発目標としてではなく、有志の参加者によって実験的に行われました

	## 使用したコード
	### 学習
	https://github.com/matsuolab/nedo_project_code/tree/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/LLaVA-JP
	### データ合成
	https://github.com/matsuolab/nedo_project_code/tree/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/create-data-for-vlm
	### 評価
	https://github.com/matsuolab/nedo_project_code/tree/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/heron

	## 使い方
	### colab(model_pathは要変更)
	https://github.com/matsuolab/nedo_project_code/blob/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/LLaVA-JP/demo_llava_gradio.ipynb

	### ローカル
	https://github.com/matsuolab/nedo_project_code/blob/team_hatakeyama_phase2/team_hatakeyama_phase2/multimodal/LLaVA-JP/demo_llava_gradio.py

	## 評価
	### Heron VLM リーダーボード
	GPT-4による評価 (gpt-4-turbo-2024-04-09)
	![image/png](/static-proxy?url=https%3A%2F%2Fcdn-uploads.huggingface.co%2Fproduction%2Fuploads%2F627a044ccd5b87302d3cd79c%2Fp-ds8XnScNk0nbtVuD38L.png%3C%2Fspan%3E)%3C%2Fspan%3E%3C%2Fspan%3E%3C!-- HTML_TAG_END -->