Spaces:

Dovakiins
/

qwerrwe

Build error

App Files Files Community

qwerrwe / tests /e2e /patched /test_4d_multipack_llama.py

winglian

support for true batches with multipack (#1230)

00568c1 unverified 11 months ago

raw

history blame

3.78 kB

	"""
	E2E tests for multipack fft llama using 4d attention masks
	"""

	import logging
	import os
	import unittest
	from pathlib import Path

	from axolotl.cli import load_datasets
	from axolotl.common.cli import TrainerCliArgs
	from axolotl.train import train
	from axolotl.utils.config import normalize_config
	from axolotl.utils.dict import DictDefault

	from ..utils import require_torch_2_1_1, with_temp_dir

	LOG = logging.getLogger("axolotl.tests.e2e")
	os.environ["WANDB_DISABLED"] = "true"


	class Test4dMultipackLlama(unittest.TestCase):
	"""
	Test case for Llama models using 4d attention with multipack
	"""

	@require_torch_2_1_1
	@with_temp_dir
	def test_sdp_lora_packing(self, temp_dir):
	# pylint: disable=duplicate-code
	cfg = DictDefault(
	{
	"base_model": "JackFram/llama-68m",
	"flash_attention": False,
	"sdp_attention": True,
	"sample_packing": True,
	"pad_to_sequence_len": True,
	"load_in_8bit": True,
	"adapter": "lora",
	"lora_r": 32,
	"lora_alpha": 16,
	"lora_dropout": 0.05,
	"lora_target_linear": True,
	"sequence_len": 1024,
	"val_set_size": 0.1,
	"datasets": [
	{
	"path": "mhenrichsen/alpaca_2k_test",
	"type": "alpaca",
	},
	],
	"num_epochs": 2,
	"micro_batch_size": 2,
	"gradient_accumulation_steps": 1,
	"output_dir": temp_dir,
	"learning_rate": 0.00001,
	"optimizer": "adamw_torch",
	"lr_scheduler": "cosine",
	"max_steps": 20,
	"save_steps": 10,
	"eval_steps": 10,
	"fp16": True,
	}
	)
	normalize_config(cfg)
	cli_args = TrainerCliArgs()
	dataset_meta = load_datasets(cfg=cfg, cli_args=cli_args)

	train(cfg=cfg, cli_args=cli_args, dataset_meta=dataset_meta)
	assert (Path(temp_dir) / "adapter_model.bin").exists()

	@with_temp_dir
	def test_torch_lora_packing(self, temp_dir):
	# pylint: disable=duplicate-code
	cfg = DictDefault(
	{
	"base_model": "JackFram/llama-68m",
	"flash_attention": False,
	"sdp_attention": False,
	"sample_packing": True,
	"pad_to_sequence_len": True,
	"sequence_len": 1024,
	"load_in_8bit": True,
	"adapter": "lora",
	"lora_r": 32,
	"lora_alpha": 16,
	"lora_dropout": 0.05,
	"lora_target_linear": True,
	"val_set_size": 0.1,
	"datasets": [
	{
	"path": "mhenrichsen/alpaca_2k_test",
	"type": "alpaca",
	},
	],
	"num_epochs": 2,
	"micro_batch_size": 2,
	"gradient_accumulation_steps": 1,
	"output_dir": temp_dir,
	"learning_rate": 0.00001,
	"optimizer": "adamw_torch",
	"lr_scheduler": "cosine",
	"max_steps": 20,
	"save_steps": 10,
	"eval_steps": 10,
	"fp16": True,
	}
	)
	normalize_config(cfg)
	cli_args = TrainerCliArgs()
	dataset_meta = load_datasets(cfg=cfg, cli_args=cli_args)

	train(cfg=cfg, cli_args=cli_args, dataset_meta=dataset_meta)
	assert (Path(temp_dir) / "adapter_model.bin").exists()