calm3-22b-RP-v0.1

cyberagent/calm3-22b-chatをベースにロールプレイ用にQLoRAでファインチューニングしたモデルです。

Aratako/calm3-22b-RPの素材となるモデルとして利用しています。

プロンプトフォーマット

元モデルから変更なく、ChatMLのフォーマットでご利用ください。以下は2ターン目の会話を行う際の形式です。

<|im_start|>system
{ロールプレイの指示、世界観・あらすじの説明、キャラの設定など}<|im_end|>
<|im_start|>user
{userの1ターン目の入力}<|im_end|>
<|im_start|>assistant
{assistantの1ターン目の応答}<|im_end|>
<|im_start|>user
{userの2ターン目の入力}<|im_end|>
<|im_start|>assistant

また、tokenizer.apply_chat_template()を使って自動で成形することも可能です。

tokenizer = AutoTokenizer.from_pretrained("Aratako/calm3-22b-RP-v0.1")

messages = [
    {"role": "system", "content": "{ロールプレイの指示、世界観・あらすじの説明、キャラの設定など}"},
    {"role": "user", "content": "{userの1ターン目の入力}"},
    {"role": "assistant", "content": "{assistantの1ターン目の入力}"},
    {"role": "user", "content": "{userの2ターン目の入力}"}
]

prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

学習データセット

本モデルの学習には以下のデータセットを利用しています。

日本語データセット

英語データセット

学習の設定

UnslothのQLoRAを用い、Runpod上のA10一枚で学習を行いました。主な学習パラメータは以下の通りです。

  • lora_r: 128
  • lisa_alpha: 256
  • lora_dropout: 0
  • lora_target_modules: ["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"]
  • learning_rate: 5e-5
  • num_train_epochs: 1
  • batch_size: 64
  • max_seq_length: 8192
  • weight_decay: 0.01
  • warmup_ratio: 0.05

ライセンス

本モデルの学習データにはOpenAI社のGPT-4o-miniの出力やAnthropic社のClaude 3.5 Sonnetの出力が含まれるため、これらの競合となるサービスには本モデルは利用できません。 そのため、本モデルはCC-BY-NC-SA 4.0の元配布します。

Uploaded model

  • Developed by: Aratako
  • License: cc-by-nc-sa-4.0
  • Finetuned from model : cyberagent/calm3-22b-chat

This llama model was trained 2x faster with Unsloth and Huggingface's TRL library.

Downloads last month
7
Safetensors
Model size
22.5B params
Tensor type
BF16
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for Aratako/calm3-22b-RP-v0.1

Finetuned
(3)
this model
Merges
1 model

Datasets used to train Aratako/calm3-22b-RP-v0.1