File size: 14,529 Bytes

a13f30f

"""
Helion-OSC Training Script
Fine-tuning and training utilities for Helion-OSC model
"""

import os
import torch
import json
import logging
from typing import Optional, Dict, Any, List
from dataclasses import dataclass, field
from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    TrainingArguments,
    Trainer,
    DataCollatorForLanguageModeling,
    EarlyStoppingCallback
)
from datasets import load_dataset, Dataset, DatasetDict
from peft import (
    LoraConfig,
    get_peft_model,
    prepare_model_for_kbit_training,
    TaskType
)
import wandb
from torch.utils.data import DataLoader

logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)


@dataclass
class ModelArguments:
    """Arguments for model configuration"""
    model_name_or_path: str = field(
        default="DeepXR/Helion-OSC",
        metadata={"help": "Path to pretrained model or model identifier"}
    )
    use_lora: bool = field(
        default=True,
        metadata={"help": "Whether to use LoRA for efficient fine-tuning"}
    )
    lora_r: int = field(
        default=16,
        metadata={"help": "LoRA attention dimension"}
    )
    lora_alpha: int = field(
        default=32,
        metadata={"help": "LoRA alpha parameter"}
    )
    lora_dropout: float = field(
        default=0.05,
        metadata={"help": "LoRA dropout probability"}
    )
    load_in_8bit: bool = field(
        default=False,
        metadata={"help": "Load model in 8-bit precision"}
    )
    load_in_4bit: bool = field(
        default=False,
        metadata={"help": "Load model in 4-bit precision"}
    )


@dataclass
class DataArguments:
    """Arguments for data processing"""
    dataset_name: Optional[str] = field(
        default=None,
        metadata={"help": "Name of the dataset to use"}
    )
    dataset_path: Optional[str] = field(
        default=None,
        metadata={"help": "Path to local dataset"}
    )
    train_file: Optional[str] = field(
        default=None,
        metadata={"help": "Path to training data file"}
    )
    validation_file: Optional[str] = field(
        default=None,
        metadata={"help": "Path to validation data file"}
    )
    max_seq_length: int = field(
        default=2048,
        metadata={"help": "Maximum sequence length"}
    )
    preprocessing_num_workers: int = field(
        default=4,
        metadata={"help": "Number of workers for preprocessing"}
    )


class HelionOSCTrainer:
    """Trainer class for Helion-OSC model"""
    
    def __init__(
        self,
        model_args: ModelArguments,
        data_args: DataArguments,
        training_args: TrainingArguments
    ):
        self.model_args = model_args
        self.data_args = data_args
        self.training_args = training_args
        
        # Initialize tokenizer
        self.tokenizer = self._load_tokenizer()
        
        # Initialize model
        self.model = self._load_model()
        
        # Load and preprocess data
        self.datasets = self._load_datasets()
        
        logger.info("Trainer initialized successfully")
    
    def _load_tokenizer(self):
        """Load and configure tokenizer"""
        logger.info("Loading tokenizer...")
        tokenizer = AutoTokenizer.from_pretrained(
            self.model_args.model_name_or_path,
            trust_remote_code=True,
            padding_side="right"
        )
        
        if tokenizer.pad_token is None:
            tokenizer.pad_token = tokenizer.eos_token
        
        return tokenizer
    
    def _load_model(self):
        """Load and configure model"""
        logger.info("Loading model...")
        
        model_kwargs = {
            "trust_remote_code": True,
            "low_cpu_mem_usage": True
        }
        
        # Configure quantization
        if self.model_args.load_in_8bit:
            model_kwargs["load_in_8bit"] = True
        elif self.model_args.load_in_4bit:
            model_kwargs["load_in_4bit"] = True
            model_kwargs["bnb_4bit_compute_dtype"] = torch.bfloat16
            model_kwargs["bnb_4bit_use_double_quant"] = True
            model_kwargs["bnb_4bit_quant_type"] = "nf4"
        else:
            model_kwargs["torch_dtype"] = torch.bfloat16
        
        model = AutoModelForCausalLM.from_pretrained(
            self.model_args.model_name_or_path,
            **model_kwargs
        )
        
        # Apply LoRA if requested
        if self.model_args.use_lora:
            logger.info("Applying LoRA configuration...")
            
            if self.model_args.load_in_8bit or self.model_args.load_in_4bit:
                model = prepare_model_for_kbit_training(model)
            
            lora_config = LoraConfig(
                r=self.model_args.lora_r,
                lora_alpha=self.model_args.lora_alpha,
                target_modules=[
                    "q_proj",
                    "k_proj",
                    "v_proj",
                    "o_proj",
                    "gate_proj",
                    "up_proj",
                    "down_proj"
                ],
                lora_dropout=self.model_args.lora_dropout,
                bias="none",
                task_type=TaskType.CAUSAL_LM
            )
            
            model = get_peft_model(model, lora_config)
            model.print_trainable_parameters()
        
        return model
    
    def _load_datasets(self) -> DatasetDict:
        """Load and preprocess datasets"""
        logger.info("Loading datasets...")
        
        if self.data_args.dataset_name:
            # Load from HuggingFace Hub
            datasets = load_dataset(self.data_args.dataset_name)
        elif self.data_args.train_file:
            # Load from local files
            data_files = {"train": self.data_args.train_file}
            if self.data_args.validation_file:
                data_files["validation"] = self.data_args.validation_file
            
            datasets = load_dataset("json", data_files=data_files)
        else:
            raise ValueError("Must provide either dataset_name or train_file")
        
        # Preprocess datasets
        logger.info("Preprocessing datasets...")
        datasets = datasets.map(
            self._preprocess_function,
            batched=True,
            num_proc=self.data_args.preprocessing_num_workers,
            remove_columns=datasets["train"].column_names,
            desc="Preprocessing datasets"
        )
        
        return datasets
    
    def _preprocess_function(self, examples):
        """Preprocess examples for training"""
        # Tokenize inputs
        if "prompt" in examples and "completion" in examples:
            # Instruction-following format
            texts = [
                f"{prompt}\n{completion}"
                for prompt, completion in zip(examples["prompt"], examples["completion"])
            ]
        elif "text" in examples:
            # Raw text format
            texts = examples["text"]
        else:
            raise ValueError("Dataset must contain 'text' or 'prompt'/'completion' columns")
        
        # Tokenize
        tokenized = self.tokenizer(
            texts,
            truncation=True,
            max_length=self.data_args.max_seq_length,
            padding="max_length",
            return_tensors=None
        )
        
        # Create labels (same as input_ids for causal LM)
        tokenized["labels"] = tokenized["input_ids"].copy()
        
        return tokenized
    
    def train(self):
        """Train the model"""
        logger.info("Starting training...")
        
        # Data collator
        data_collator = DataCollatorForLanguageModeling(
            tokenizer=self.tokenizer,
            mlm=False
        )
        
        # Initialize trainer
        trainer = Trainer(
            model=self.model,
            args=self.training_args,
            train_dataset=self.datasets["train"],
            eval_dataset=self.datasets.get("validation"),
            tokenizer=self.tokenizer,
            data_collator=data_collator,
            callbacks=[EarlyStoppingCallback(early_stopping_patience=3)]
        )
        
        # Train
        train_result = trainer.train()
        
        # Save model
        trainer.save_model()
        
        # Save metrics
        metrics = train_result.metrics
        trainer.log_metrics("train", metrics)
        trainer.save_metrics("train", metrics)
        trainer.save_state()
        
        logger.info("Training completed successfully!")
        
        return trainer, metrics
    
    def evaluate(self, trainer: Optional[Trainer] = None):
        """Evaluate the model"""
        if trainer is None:
            data_collator = DataCollatorForLanguageModeling(
                tokenizer=self.tokenizer,
                mlm=False
            )
            
            trainer = Trainer(
                model=self.model,
                args=self.training_args,
                eval_dataset=self.datasets.get("validation"),
                tokenizer=self.tokenizer,
                data_collator=data_collator
            )
        
        logger.info("Evaluating model...")
        metrics = trainer.evaluate()
        
        trainer.log_metrics("eval", metrics)
        trainer.save_metrics("eval", metrics)
        
        return metrics


def create_code_dataset(examples: List[Dict[str, str]]) -> Dataset:
    """
    Create a dataset from code examples
    
    Args:
        examples: List of dictionaries with 'prompt' and 'completion' keys
        
    Returns:
        Dataset object
    """
    return Dataset.from_dict({
        "prompt": [ex["prompt"] for ex in examples],
        "completion": [ex["completion"] for ex in examples]
    })


def create_math_dataset(examples: List[Dict[str, str]]) -> Dataset:
    """
    Create a dataset from math examples
    
    Args:
        examples: List of dictionaries with 'problem' and 'solution' keys
        
    Returns:
        Dataset object
    """
    return Dataset.from_dict({
        "prompt": [f"Problem: {ex['problem']}\nSolution:" for ex in examples],
        "completion": [ex["solution"] for ex in examples]
    })


def main():
    """Main training script"""
    import argparse
    
    parser = argparse.ArgumentParser(description="Train Helion-OSC model")
    
    # Model arguments
    parser.add_argument("--model_name_or_path", type=str, default="DeepXR/Helion-OSC")
    parser.add_argument("--use_lora", action="store_true", default=True)
    parser.add_argument("--lora_r", type=int, default=16)
    parser.add_argument("--lora_alpha", type=int, default=32)
    parser.add_argument("--lora_dropout", type=float, default=0.05)
    parser.add_argument("--load_in_8bit", action="store_true")
    parser.add_argument("--load_in_4bit", action="store_true")
    
    # Data arguments
    parser.add_argument("--dataset_name", type=str, default=None)
    parser.add_argument("--dataset_path", type=str, default=None)
    parser.add_argument("--train_file", type=str, required=True)
    parser.add_argument("--validation_file", type=str, default=None)
    parser.add_argument("--max_seq_length", type=int, default=2048)
    parser.add_argument("--preprocessing_num_workers", type=int, default=4)
    
    # Training arguments
    parser.add_argument("--output_dir", type=str, required=True)
    parser.add_argument("--num_train_epochs", type=int, default=3)
    parser.add_argument("--per_device_train_batch_size", type=int, default=4)
    parser.add_argument("--per_device_eval_batch_size", type=int, default=4)
    parser.add_argument("--gradient_accumulation_steps", type=int, default=4)
    parser.add_argument("--learning_rate", type=float, default=2e-5)
    parser.add_argument("--warmup_steps", type=int, default=100)
    parser.add_argument("--logging_steps", type=int, default=10)
    parser.add_argument("--save_steps", type=int, default=500)
    parser.add_argument("--eval_steps", type=int, default=500)
    parser.add_argument("--save_total_limit", type=int, default=3)
    parser.add_argument("--fp16", action="store_true")
    parser.add_argument("--bf16", action="store_true")
    parser.add_argument("--gradient_checkpointing", action="store_true")
    parser.add_argument("--use_wandb", action="store_true")
    
    args = parser.parse_args()
    
    # Create argument objects
    model_args = ModelArguments(
        model_name_or_path=args.model_name_or_path,
        use_lora=args.use_lora,
        lora_r=args.lora_r,
        lora_alpha=args.lora_alpha,
        lora_dropout=args.lora_dropout,
        load_in_8bit=args.load_in_8bit,
        load_in_4bit=args.load_in_4bit
    )
    
    data_args = DataArguments(
        dataset_name=args.dataset_name,
        dataset_path=args.dataset_path,
        train_file=args.train_file,
        validation_file=args.validation_file,
        max_seq_length=args.max_seq_length,
        preprocessing_num_workers=args.preprocessing_num_workers
    )
    
    training_args = TrainingArguments(
        output_dir=args.output_dir,
        num_train_epochs=args.num_train_epochs,
        per_device_train_batch_size=args.per_device_train_batch_size,
        per_device_eval_batch_size=args.per_device_eval_batch_size,
        gradient_accumulation_steps=args.gradient_accumulation_steps,
        learning_rate=args.learning_rate,
        warmup_steps=args.warmup_steps,
        logging_steps=args.logging_steps,
        save_steps=args.save_steps,
        eval_steps=args.eval_steps,
        save_total_limit=args.save_total_limit,
        fp16=args.fp16,
        bf16=args.bf16,
        gradient_checkpointing=args.gradient_checkpointing,
        report_to="wandb" if args.use_wandb else "none",
        load_best_model_at_end=True,
        metric_for_best_model="eval_loss",
        greater_is_better=False,
        evaluation_strategy="steps",
        save_strategy="steps",
        logging_dir=f"{args.output_dir}/logs",
        remove_unused_columns=False
    )
    
    # Initialize trainer
    helion_trainer = HelionOSCTrainer(
        model_args=model_args,
        data_args=data_args,
        training_args=training_args
    )
    
    # Train
    trainer, metrics = helion_trainer.train()
    
    # Evaluate
    if args.validation_file:
        eval_metrics = helion_trainer.evaluate(trainer)
        logger.info(f"Evaluation metrics: {eval_metrics}")
    
    logger.info("Training pipeline completed!")


if __name__ == "__main__":
    main()