Upload folder using huggingface_hub

78a0ca9 verified 17 days ago

17.1 kB

	import os
	# Disable Unsloth compilation for GRPO stability - must be set before imports
	os.environ["UNSLOTH_COMPILE_DISABLE"] = "1"

	import torch
	# from unsloth import FastLanguageModel # Moved to lazy import
	# Monkeypatch for TRANSFORMERS_CACHE which is needed by older llm_blender
	import transformers.utils.hub
	if not hasattr(transformers.utils.hub, "TRANSFORMERS_CACHE"):
	transformers.utils.hub.TRANSFORMERS_CACHE = os.path.join(os.path.expanduser("~"), ".cache", "huggingface", "hub")

	import pandas as pd
	from dataclasses import dataclass, field
	from typing import Optional, List, Literal, Dict, Any
	from trl import SFTTrainer, SFTConfig, DPOTrainer, DPOConfig, GRPOTrainer, GRPOConfig
	from datasets import load_dataset, Dataset
	from transformers import TrainingArguments
	from huggingface_hub import HfApi
	from agentic_data_gen import AgenticDataGenerator, AgenticDataConfig

	@dataclass
	class TrainerConfig:
	model_name: str = "Qwen/Qwen2.5-7B"
	dataset_name: str = ""
	method: Literal["sft", "dpo", "grpo"] = "sft"
	platform: Literal["kaggle", "hf_jobs", "local"] = "local"
	max_seq_length: int = 4096
	load_in_4bit: bool = True
	load_in_8bit: bool = False
	torch_dtype: str = "bfloat16" # "bfloat16", "float16", "float32"
	lora_r: int = 16
	lora_alpha: int = 16
	lora_dropout: float = 0
	learning_rate: float = 2e-4
	per_device_train_batch_size: int = 4
	gradient_accumulation_steps: int = 2
	num_train_epochs: int = 3
	output_dir: str = "outputs"
	push_to_hub: bool = True
	hub_model_id: Optional[str] = None
	hf_token: Optional[str] = os.environ.get("HF_TOKEN")

	# Agentic Data Generation
	use_agentic_data: bool = False
	task_description: str = ""
	num_synthetic_records: int = 10
	synthetic_data_path: str = "synthetic_data.jsonl"
	generate_reasoning: bool = False # Whether to generate <reasoning>...<answer> format

	# GRPO-specific
	num_generations: int = 4
	max_completion_length: int = 512
	max_prompt_length: int = 512
	use_compile: bool = False # Disable by default for GRPO stability

	class QwenTrainer:
	def __init__(self, config: TrainerConfig):
	self.config = config
	self.model = None
	self.tokenizer = None

	def setup_model(self):
	print(f"Loading model: {self.config.model_name}")

	# Determine torch_dtype
	if self.config.torch_dtype == "bfloat16":
	dtype = torch.bfloat16
	elif self.config.torch_dtype == "float16":
	dtype = torch.float16
	else:
	dtype = torch.float32

	# GRPO Stability Fix: Use standard transformers for GRPO due to Unsloth bugs
	if self.config.method == "grpo":
	print(f"Using standard transformers + peft for GRPO stability (dtype: {self.config.torch_dtype})")
	from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
	from peft import LoraConfig, get_peft_model

	bnb_config = None
	if self.config.load_in_4bit:
	print("Loading in 4-bit quantization")
	bnb_config = BitsAndBytesConfig(
	load_in_4bit=True,
	bnb_4bit_quant_type="nf4",
	bnb_4bit_compute_dtype=dtype,
	bnb_4bit_use_double_quant=True,
	)
	elif self.config.load_in_8bit:
	print("Loading in 8-bit quantization")
	bnb_config = BitsAndBytesConfig(
	load_in_8bit=True,
	)
	else:
	print(f"Loading in full {self.config.torch_dtype}")

	self.tokenizer = AutoTokenizer.from_pretrained(self.config.model_name)
	self.model = AutoModelForCausalLM.from_pretrained(
	self.config.model_name,
	quantization_config=bnb_config,
	torch_dtype=dtype,
	device_map="auto",
	)

	# GRPO Stability Fix: Ensure all non-quantized parts are in the target dtype
	# This is critical for preventing scalar type mismatches during KL div calculation
	print(f"Ensuring non-quantized layers are in {self.config.torch_dtype}")
	for name, module in self.model.named_modules():
	if "norm" in name.lower() or "lm_head" in name.lower() or "embed" in name.lower():
	module.to(dtype)

	peft_config = LoraConfig(
	r=self.config.lora_r,
	lora_alpha=self.config.lora_alpha,
	target_modules=["q_proj", "k_proj", "v_proj", "o_proj",
	"gate_proj", "up_proj", "down_proj"],
	lora_dropout=self.config.lora_dropout,
	bias="none",
	task_type="CAUSAL_LM",
	)
	self.model = get_peft_model(self.model, peft_config)

	# GRPO Stability Fix: Fix for TRL GRPOTrainer trying to access warnings_issued
	if not hasattr(self.model, "warnings_issued"):
	self.model.warnings_issued = {}

	else:
	# SFT and DPO still use Unsloth for performance
	from unsloth import FastLanguageModel
	self.model, self.tokenizer = FastLanguageModel.from_pretrained(
	model_name=self.config.model_name,
	max_seq_length=self.config.max_seq_length,
	load_in_4bit=self.config.load_in_4bit,
	dtype=dtype,
	)

	print("Attaching LoRA via Unsloth")
	self.model = FastLanguageModel.get_peft_model(
	self.model,
	r=self.config.lora_r,
	target_modules=["q_proj", "k_proj", "v_proj", "o_proj",
	"gate_proj", "up_proj", "down_proj"],
	lora_alpha=self.config.lora_alpha,
	lora_dropout=self.config.lora_dropout,
	bias="none",
	random_state=3407,
	)

	if self.tokenizer.pad_token is None:
	self.tokenizer.pad_token = self.tokenizer.eos_token

	def generate_agentic_data(self):
	print(f"Generating agentic synthetic data for task: {self.config.task_description}")
	gen_config = AgenticDataConfig(
	num_records=self.config.num_synthetic_records,
	task_description=self.config.task_description,
	output_path=self.config.synthetic_data_path,
	min_quality_score=2, # Allow partially correct/minor issues to pass
	generate_dpo=(self.config.method == "dpo"),
	generate_reasoning=(self.config.method == "grpo" or self.config.generate_reasoning)
	)
	generator = AgenticDataGenerator()
	df = generator.generate(gen_config)

	if df.empty:
	raise ValueError("No records passed the quality threshold during agentic data generation. Try a different task description or lower min_quality_score.")

	return df

	def load_data(self):
	if self.config.use_agentic_data:
	df = self.generate_agentic_data()
	dataset = Dataset.from_pandas(df)
	else:
	print(f"Loading dataset: {self.config.dataset_name}")
	if os.path.exists(self.config.dataset_name):
	ext = self.config.dataset_name.split(".")[-1]
	if ext in ["jsonl", "json"]:
	dataset = load_dataset("json", data_files=self.config.dataset_name, split="train")
	elif ext == "csv":
	dataset = load_dataset("csv", data_files=self.config.dataset_name, split="train")
	elif ext == "parquet":
	dataset = load_dataset("parquet", data_files=self.config.dataset_name, split="train")
	else:
	dataset = load_dataset(self.config.dataset_name, split="train")
	else:
	dataset = load_dataset(self.config.dataset_name, split="train")

	# Standard ChatML formatting
	if self.config.method == "sft":
	def format_chatml(example):
	return {"text": f"<\|im_start\|>user\n{example['instruction']}<\|im_end\|>\n<\|im_start\|>assistant\n{example['output']}<\|im_end\|>"}
	dataset = dataset.map(format_chatml)
	elif self.config.method == "grpo":
	# For GRPO, we need 'prompt' column
	if "prompt" not in dataset.column_names:
	print("Mapping 'instruction' to 'prompt' for GRPO")
	def map_prompt(example):
	return {"prompt": example["instruction"]}
	dataset = dataset.map(map_prompt)
	elif self.config.method == "dpo":
	# For DPO, we need 'prompt', 'chosen', 'rejected'
	if "prompt" not in dataset.column_names:
	print("Mapping columns for DPO")
	def map_dpo(example):
	return {
	"prompt": example["instruction"],
	"chosen": example["output"],
	"rejected": example.get("rejected", "I don't know.")
	}
	dataset = dataset.map(map_dpo)

	return dataset

	def run_sft(self, dataset):
	print("Running SFT")
	trainer = SFTTrainer(
	model=self.model,
	tokenizer=self.tokenizer,
	train_dataset=dataset,
	dataset_text_field="text",
	max_seq_length=self.config.max_seq_length,
	args=SFTConfig(
	per_device_train_batch_size=self.config.per_device_train_batch_size,
	gradient_accumulation_steps=self.config.gradient_accumulation_steps,
	num_train_epochs=self.config.num_train_epochs,
	learning_rate=self.config.learning_rate,
	fp16=not torch.cuda.is_bf16_supported(),
	bf16=torch.cuda.is_bf16_supported(),
	logging_steps=1,
	optim="adamw_8bit",
	weight_decay=0.01,
	lr_scheduler_type="linear",
	seed=3407,
	output_dir=self.config.output_dir,
	),
	)
	trainer.train()

	def run_dpo(self, dataset):
	print("Running DPO")
	trainer = DPOTrainer(
	model=self.model,
	tokenizer=self.tokenizer,
	train_dataset=dataset,
	args=DPOConfig(
	per_device_train_batch_size=self.config.per_device_train_batch_size,
	gradient_accumulation_steps=self.config.gradient_accumulation_steps,
	num_train_epochs=self.config.num_train_epochs,
	learning_rate=self.config.learning_rate,
	fp16=not torch.cuda.is_bf16_supported(),
	bf16=torch.cuda.is_bf16_supported(),
	logging_steps=1,
	optim="adamw_8bit",
	output_dir=self.config.output_dir,
	),
	)
	trainer.train()

	def run_grpo(self, dataset):
	print("Running GRPO")
	from rewards import RewardFunctions
	# For GRPO, batch size must be a multiple of num_generations
	# Unsloth prefers per_device_train_batch_size == num_generations
	batch_size = max(self.config.per_device_train_batch_size, self.config.num_generations)

	# Stability: adjust max_completion_length by 1 if it's a power of 2 or common boundary
	max_comp = self.config.max_completion_length
	if max_comp % 16 == 0:
	max_comp += 1
	print(f"Adjusted max_completion_length to {max_comp} for stability")

	trainer = GRPOTrainer(
	model=self.model,
	args=GRPOConfig(
	per_device_train_batch_size=batch_size,
	num_generations=self.config.num_generations,
	learning_rate=self.config.learning_rate,
	max_completion_length=max_comp,
	# max_prompt_length=self.config.max_prompt_length, # Not supported in this version
	beta=0.01,
	warmup_steps=10,
	logging_steps=1,
	output_dir=self.config.output_dir,
	optim="adamw_8bit",
	seed=3407,
	),
	reward_funcs=[RewardFunctions.combined_reward],
	train_dataset=dataset,
	)
	trainer.train()

	def save_and_push(self):
	if self.config.push_to_hub:
	print(f"Saving and pushing to Hub: {self.config.hub_model_id}")
	if self.config.method != "grpo":
	from unsloth import FastLanguageModel

	if hasattr(self.model, "save_pretrained_merged"):
	self.model.save_pretrained_merged(
	"merged_model", self.tokenizer, save_method="merged_16bit"
	)
	else:
	print("Merging and saving standard PEFT model")
	merged_model = self.model.merge_and_unload()
	merged_model.save_pretrained("merged_model")
	self.tokenizer.save_pretrained("merged_model")

	api = HfApi()
	api.create_repo(repo_id=self.config.hub_model_id, token=self.config.hf_token, exist_ok=True)
	api.upload_folder(
	folder_path="merged_model",
	repo_id=self.config.hub_model_id,
	token=self.config.hf_token,
	)

	def run(self):
	self.setup_model()
	dataset = self.load_data()

	if self.config.method == "sft":
	self.run_sft(dataset)
	elif self.config.method == "dpo":
	self.run_dpo(dataset)
	elif self.config.method == "grpo":
	self.run_grpo(dataset)

	self.save_and_push()

	if __name__ == "__main__":
	import argparse
	parser = argparse.ArgumentParser(description="Qwen Unified Trainer (SFT, DPO, GRPO)")

	# Model/Dataset
	parser.add_argument("--model", type=str, default="Qwen/Qwen3.5-2B", help="HF model ID")
	parser.add_argument("--dataset", type=str, default="", help="HF dataset name or local path")
	parser.add_argument("--method", type=str, choices=["sft", "dpo", "grpo"], default="sft", help="Training method")

	# Training Hyperparameters
	parser.add_argument("--lr", type=float, default=2e-4, help="Learning rate")
	parser.add_argument("--epochs", type=int, default=3, help="Number of epochs")
	parser.add_argument("--batch_size", type=int, default=4, help="Batch size per device")
	parser.add_argument("--grad_acc", type=int, default=2, help="Gradient accumulation steps")
	parser.add_argument("--max_seq_len", type=int, default=2048, help="Max sequence length")

	# Agentic Data
	parser.add_argument("--use_agentic", action="store_true", help="Generate synthetic data before training")
	parser.add_argument("--task", type=str, default="", help="Task description for synthetic data")
	parser.add_argument("--num_synthetic", type=int, default=10, help="Number of synthetic records")
	parser.add_argument("--synthetic_path", type=str, default="synthetic_data.jsonl", help="Path to save synthetic data")
	parser.add_argument("--reasoning", action="store_true", help="Generate reasoning format")

	# Output/Hub
	parser.add_argument("--output_dir", type=str, default="outputs", help="Output directory")
	parser.add_argument("--push", action="store_true", help="Push to HF Hub")
	parser.add_argument("--hub_id", type=str, default=None, help="HF Hub model ID")
	parser.add_argument("--no_compile", action="store_true", help="Disable Unsloth compilation for stability")
	parser.add_argument("--dtype", type=str, choices=["bfloat16", "float16", "float32"], default="bfloat16", help="Torch dtype")
	parser.add_argument("--load_8bit", action="store_true", help="Load in 8-bit")
	parser.add_argument("--no_4bit", action="store_true", help="Disable 4-bit loading")

	args = parser.parse_args()

	config = TrainerConfig(
	model_name=args.model,
	dataset_name=args.dataset,
	method=args.method,
	learning_rate=args.lr,
	num_train_epochs=args.epochs,
	per_device_train_batch_size=args.batch_size,
	gradient_accumulation_steps=args.grad_acc,
	max_seq_length=args.max_seq_len,
	use_agentic_data=args.use_agentic,
	task_description=args.task,
	num_synthetic_records=args.num_synthetic,
	synthetic_data_path=args.synthetic_path,
	generate_reasoning=args.reasoning,
	output_dir=args.output_dir,
	push_to_hub=args.push,
	hub_model_id=args.hub_id,
	use_compile=not args.no_compile,
	torch_dtype=args.dtype,
	load_in_8bit=args.load_8bit,
	load_in_4bit=not args.no_4bit
	)

	trainer = QwenTrainer(config)
	trainer.run()