llm-jp-3-13b-finetune

このリポジトリには、LLM-jp-3-13B をベースに、LLMのための日本語インストラクションデータ（Ichikara Instruction） データセットを用いて SFT (Supervised Fine-Tuning) を行ったモデルが含まれています。

モデルの詳細

概要

ベースモデル : LLM-jp-3-13B
データセット : LLMのための日本語インストラクションデータ（Ichikara Instruction）
ライセンス : CC-BY-NC-SA-4.0

使用方法

Google Colab において、ELYZA-tasks-100-TV（ELYZA-tasks-100 の改変ベンチマーク）の推論を行うサンプルコード

# 必要なライブラリをインストール
%%capture
!pip install unsloth
!pip uninstall unsloth -y && pip install --upgrade --no-cache-dir "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
!pip install -U torch
!pip install -U peft

# 必要なライブラリを読み込み
from unsloth import FastLanguageModel
from peft import PeftModel
import torch
import json
from tqdm import tqdm
import re

# ベースとなるモデルと学習した LoRA のアダプタを指定
model_id = "llm-jp/llm-jp-3-13b"
adapter_id = "tohyama96/llm-jp-3-13b-finetune"

# Hugging Face Token を指定 
HF_TOKEN = "" #@param {type:"string"}

# unsloth の FastLanguageModel で元のモデルをロード
dtype = None # None にしておけば自動で設定
load_in_4bit = True # 今回は 13B モデルを扱うため True に設定

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name=model_id,
    dtype=dtype,
    load_in_4bit=load_in_4bit,
    trust_remote_code=True,
)

# 元のモデルにLoRAのアダプタを統合
model = PeftModel.from_pretrained(model, adapter_id, token = HF_TOKEN)

# タスクとなるデータの読み込み（事前にデータをアップロードする）
datasets = []
with open("./elyza-tasks-100-TV_0.jsonl", "r") as f:
    item = ""
    for line in f:
      line = line.strip()
      item += line
      if item.endswith("}"):
        datasets.append(json.loads(item))
        item = ""

# 推論するためにモデルのモードを変更
FastLanguageModel.for_inference(model)

# モデルを用いてタスクを推論する
results = []
for dt in tqdm(datasets):
  input = dt["input"]

  prompt = f"""### 指示\n{input}\n### 回答\n"""

  inputs = tokenizer([prompt], return_tensors = "pt").to(model.device)

  outputs = model.generate(**inputs, max_new_tokens = 512, use_cache = True, do_sample=False, repetition_penalty=1.2)
  prediction = tokenizer.decode(outputs[0], skip_special_tokens=True).split('\n### 回答')[-1]

  results.append({"task_id": dt["task_id"], "input": input, "output": prediction})

# 結果をjsonlで保存
json_file_id = re.sub(".*/", "", adapter_id)
with open(f"/content/{json_file_id}_output.jsonl", 'w', encoding='utf-8') as f:
    for result in results:
        json.dump(result, f, ensure_ascii=False)
        f.write('\n')

訓練の詳細

訓練データ

データセット名 : LLMのための日本語インストラクションデータ（Ichikara Instruction）
ライセンス : CC-BY-NC-SA
内容 : 高品質な日本語のインストラクションデータセット
リンク : https://liat-aip.sakura.ne.jp/wp/llmのための日本語インストラクションデータ作成/llmのための日本語インストラクションデータ-公開/

関根聡, 安藤まや, 後藤美知子, 鈴木久美, 河原大輔, 井之上直也, 乾健太郎. ichikara-instruction: LLMのための日本語インストラクションデータの構築. 言語処理学会第30回年次大会(2024)

訓練手順

ハイパーパラメータ:
- 学習率: 5e-5
- バッチサイズ: 1
- エポック数: 1
訓練環境:
- GPU: L4 / 24GB
- 精度: fp32

評価

評価データとメトリクス

評価データセット: ELYZA-tasks-100-TV
- 日本語インストラクションモデル評価データセット
- ELYZA-tasks-100 を、2024年9月以降に日本のテレビ番組で放送された内容を用いて各タスクのトピックを置き換えた改変版
メトリクス: LLM-as-a-Judge（松尾研大規模言語モデル講座2024最終課題コンペテティション自動採点システムによる）

結果

採点結果 : 2.63