0% found this document useful (0 votes)

2 views18 pages

train_openrag_moe

This is a alternative and efficient to traditional RAG (Retrivial augumented generation) and mixture of expert pipeline.

Uploaded by

anuj trivedi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

2 views18 pages

train_openrag_moe

This is a alternative and efficient to traditional RAG (Retrivial augumented generation) and mixture of expert pipeline.

Uploaded by

anuj trivedi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 18

# Copyright 2023 Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li

# Licensed under the Apache License, Version 2.0 (the "License");

# you may not use this file except in compliance with the License.

# You may obtain a copy of the License at

# http://www.apache.org/licenses/LICENSE-2.0

# Unless required by applicable law or agreed to in writing, software

# distributed under the License is distributed on an "AS IS" BASIS,

# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

# See the License for the specific language governing permissions and

# limitations under the License.

import os

from os.path import exists, join, isdir

import gc

import json

import math

import random

import copy

from copy import deepcopy

import logging

from dataclasses import dataclass, field

from typing import Dict, Optional, Sequence, Callable, List, Tuple, Union, Any

import torch

from torch import nn

from torch.utils.data import Dataset

import bitsandbytes as bnb

import transformers
from transformers import Trainer, BitsAndBytesConfig, set_seed

from transformers.trainer_utils import PREFIX_CHECKPOINT_DIR

from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training

from peft.tuners.lora import LoraLayer

from datasets import load_dataset

from openrag.configuration_openrag import OpenRAGConfig

from openrag.modeling_openrag import LlamaForCausalLM

import warnings

warnings.filterwarnings("ignore")

from openrag.transformers_utils import (

get_keys_to_not_convert,

_load_pretrained_model,

import transformers.integrations

import transformers.modeling_utils

from ipdb import set_trace as stt

transformers.integrations.get_keys_to_not_convert = get_keys_to_not_convert

transformers.modeling_utils.PreTrainedModel._load_pretrained_model = (

_load_pretrained_model

import GPUtil

IGNORE_INDEX = -100

DEFAULT_PAD_TOKEN = "[PAD]"
context_markups = []

@dataclass

class ModelArguments:

model_name_or_path: Optional[str] = field(default="facebook/opt-125m")

lora_r: int = field(

default=64,

metadata={"help": "Rank of the LoRA update matrices"}

lora_alpha: int = field(

default=16,

metadata={"help": "Scaling factor for LoRA"}

adapter_dim: int = field(

default=64,

metadata={"help": "Dimension of the adapter layers"}

moe_scaling: float = field(

default=1.0,

metadata={"help": "Scaling factor for Mixture of Experts"}

num_experts: int = field(

default=8,

metadata={"help": "Number of experts in the Mixture of Experts layer"}

topk: int = field(

default=2,

metadata={"help": "Top-k value for routing or selection"}

)
@dataclass

class DataArguments:

data_path: str = field(

default=None, metadata={"help": "Path to the training data."}

data_subset: str = field(

default="default", metadata={"help": "Training data subset."}

@dataclass

class TrainingArguments(transformers.TrainingArguments):

report_to: str = field(default="none")

cache_dir: Optional[str] = field(default=None)

optim: str = field(

default="paged_adamw_32bit"

) # "paged_lion_8bit", "paged_adamw_8bit", "paged_lion_32bit", "paged_adamw_32bit"

lr_scheduler_type: str = field(

default="constant_with_warmup"

) # "constant", "constant_with_warmup", "cosine", "cosine_with_restarts", "linear"

model_max_length: int = field(

default=2048,

metadata={

"help": "Maximum sequence length. Sequences will be right padded (and possibly
truncated)."

)
def _tokenize_fn(

strings: Sequence[str], tokenizer: transformers.PreTrainedTokenizer

) -> Dict:

"""Tokenize a list of strings."""

tokenized_list = [

tokenizer(

text,

return_tensors="pt",

padding="longest",

max_length=tokenizer.model_max_length,

truncation=True,

for text in strings

input_ids = labels = [tokenized.input_ids[0] for tokenized in tokenized_list]

input_ids_lens = labels_lens = [

tokenized.input_ids.ne(tokenizer.pad_token_id).sum().item()

for tokenized in tokenized_list

return dict(

input_ids=input_ids,

labels=labels,

input_ids_lens=input_ids_lens,

labels_lens=labels_lens,

def preprocess(
sources: Sequence[str],

targets: Sequence[str],

tokenizer: transformers.PreTrainedTokenizer,

) -> Dict:

"""Preprocess the data by tokenizing."""

examples = [

s+t

for s, t in zip(sources, targets)

examples_tokenized, sources_tokenized = [

_tokenize_fn(strings, tokenizer) for strings in (examples, sources)

input_ids = examples_tokenized["input_ids"]

labels = copy.deepcopy(input_ids)

for label, source_len in zip(labels, sources_tokenized["input_ids_lens"]):

label[:source_len] = IGNORE_INDEX

global context_markups

context_start = False

for j, orig_token in enumerate(label[source_len:]):

if context_start is False and orig_token == context_markups[0]:

context_start = True

assert label[source_len + j] == context_markups[0]

start_idx = j + source_len

end_idx = None

for k, orig_token_2 in enumerate(label[start_idx:]):

if orig_token_2 == context_markups[1]:

end_idx = start_idx + k

if end_idx is None:

end_idx = start_idx + k

else:
assert label[end_idx] == context_markups[1]

label[start_idx + 1 : end_idx] = IGNORE_INDEX

context_start = False

return dict(input_ids=input_ids, labels=labels)

class SupervisedDataset(Dataset):

"""Dataset for supervised fine-tuning."""

def init(self, data_path: str, data_subset: str, tokenizer: transformers.PreTrainedTokenizer):

super(SupervisedDataset, self).__init__()

logging.warning("Loading data: {}".format(data_path))

dataset = load_dataset(data_path, data_subset)

data_list = dataset['train'].to_list()

# Preprocess Data

logging.warning("Processing data")

self.tokenizer = tokenizer

self.sources = []

self.targets = []

for idx in range(len(data_list)):

data = data_list[idx]

corpus = data["corpus"]

if corpus != "":

# pretrain mode

source = f"{tokenizer.bos_token}"

self.sources.append(source)
target = f"{corpus}{tokenizer.eos_token}"

self.targets.append(target)

else:

# instruction mode

instruction = data["instruction"]

conversation = data["conversation"]

if len(conversation) == 1:

source = ""

source += (

f"### Instruction:\n{conversation[0]['input']}\n\n### Response:\n"

self.sources.append(source)

target = f"{conversation[0]['output']}{tokenizer.eos_token}"

self.targets.append(target)

del data_list

gc.collect()

logging.warning("there are {} data in dataset".format(len(self.sources)))

def __len__(self):

return len(self.sources)

def getitem(self, i):

source = [self.sources[i]]

target = [self.targets[i]]

data_dict = preprocess(source, target, self.tokenizer)

input_ids = data_dict["input_ids"][0]

labels = data_dict["labels"][0]
return dict(input_ids=input_ids, labels=labels)

@dataclass

class DataCollatorForSupervisedDataset(object):

"""Collate examples for supervised fine-tuning."""

tokenizer: transformers.PreTrainedTokenizer

def call(self, instances: Sequence[Dict]) -> Dict[str, torch.Tensor]:

input_ids, labels = tuple(

[instance[key] for instance in instances] for key in ("input_ids", "labels")

input_ids = torch.nn.utils.rnn.pad_sequence(

input_ids, batch_first=True, padding_value=self.tokenizer.pad_token_id

labels = torch.nn.utils.rnn.pad_sequence(

labels, batch_first=True, padding_value=IGNORE_INDEX

return dict(

input_ids=input_ids,

labels=labels,

attention_mask=input_ids.ne(self.tokenizer.pad_token_id),

class SavePeftModelCallback(transformers.TrainerCallback):

def save_model(self, args, state, kwargs):

# print('Saving PEFT checkpoint...')

if state.best_model_checkpoint is not None:

checkpoint_folder = os.path.join(
state.best_model_checkpoint, "adapter_model"

else:

checkpoint_folder = os.path.join(

args.output_dir, f"{PREFIX_CHECKPOINT_DIR}-{state.global_step}"

peft_model_path = os.path.join(checkpoint_folder, "adapter_model")

model = kwargs["model"]

model.save_pretrained(peft_model_path)

moe_state = {}

for param_tensor in model.state_dict():

if "adapter" in param_tensor:

moe_state.update({param_tensor: model.state_dict()[param_tensor]})

moe_model_path = os.path.join(checkpoint_folder, "moe_model.bin")

torch.save(moe_state, moe_model_path)

pytorch_model_path = os.path.join(checkpoint_folder, "pytorch_model.bin")

if os.path.exists(pytorch_model_path):

os.remove(pytorch_model_path)

def on_save(self, args, state, control, **kwargs):

self.save_model(args, state, kwargs)

return control

def on_train_end(self, args, state, control, **kwargs):

def touch(fname, times=None):

with open(fname, "a"):

os.utime(fname, times)
touch(join(args.output_dir, "completed"))

self.save_model(args, state, kwargs)

def make_supervised_data_module(

tokenizer: transformers.PreTrainedTokenizer, data_args

) -> Dict:

"""Make dataset and collator for supervised fine-tuning."""

train_dataset = SupervisedDataset(

data_path=data_args.data_path, data_subset=data_args.data_subset,

tokenizer=tokenizer,

data_collator = DataCollatorForSupervisedDataset(tokenizer=tokenizer)

return dict(

train_dataset=train_dataset, eval_dataset=None, data_collator=data_collator

def find_all_linear_names(model, bits=4):

cls = (

bnb.nn.Linear4bit

if bits == 4

else (bnb.nn.Linear8bitLt if bits == 8 else torch.nn.Linear)

lora_module_names = set()

for name, module in model.named_modules():

if isinstance(module, cls):

names = name.split(".")

lora_module_names.add(names[0] if len(names) == 1 else names[-1])

if "lm_head" in lora_module_names: # needed for 16-bit

lora_module_names.remove("lm_head")

return list(lora_module_names)

def print_trainable_parameters(model):

"""

Prints the number of trainable parameters in the model.

"""

trainable_params = 0

all_param = 0

for _, param in model.named_parameters():

all_param += param.numel()

if param.requires_grad:

trainable_params += param.numel()

print(

f"trainable params: {trainable_params} || all params: {all_param} || trainable%: {100 *

trainable_params / all_param}"

class PrinterCallback(transformers.TrainerCallback):

def on_step_end(self, args, state, control, **kwargs):

GPUtil.showUtilization(all=True, attrList=None, useOldCode=True)

def train():

parser = transformers.HfArgumentParser(

(ModelArguments, DataArguments, TrainingArguments)

model_args, data_args, training_args = parser.parse_args_into_dataclasses()

training_args.ddp_find_unused_parameters = False

set_seed(42)

model_config = OpenRAGConfig.from_pretrained(model_args.model_name_or_path)

model_config.pretraining_tp = 1 ## without tensor parallelism rank

# OpenRAG Config

model_config.moe_dtype = "bfloat16"

model_config.lora_r = model_args.lora_r

model_config.lora_alpha = model_args.lora_alpha

model_config.adapter_dim = model_args.adapter_dim

model_config.topk = model_args.topk

model_config.moe_scaling = model_args.moe_scaling

model_config.num_experts = model_args.num_experts

model_config.output_router_logits = False

# # Seq Length Extension

# model_config.rope_scaling = {

# "type": "dynamic",

# "factor": 2,

model = LlamaForCausalLM.from_pretrained(

model_args.model_name_or_path,

config=model_config,

cache_dir=training_args.cache_dir,

load_in_4bit=True,

quantization_config=BitsAndBytesConfig(

load_in_4bit=True,

bnb_4bit_compute_dtype=torch.bfloat16,

bnb_4bit_use_double_quant=True,
bnb_4bit_quant_type="nf4",

output_loading_info=False,

tokenizer = transformers.AutoTokenizer.from_pretrained(

model_args.model_name_or_path,

cache_dir=training_args.cache_dir,

model_max_length=training_args.model_max_length,

padding_side="right",

use_fast=False,

trust_remote_code=True,

special_token_dict = {

"additional_special_tokens": [

"[No Retrieval]",

"[Retrieval]",

"[Continue to Use Evidence]",

"[Irrelevant]",

"[Relevant]",

"<paragraph>",

"</paragraph>",

"[Utility:1]",

"[Utility:2]",

"[Utility:3]",

"[Utility:4]",

"[Utility:5]",

"[Fully supported]",

"[Partially supported]",

"[No support / Contradictory]",

]

special_token_dict["bos_token"] = "<s>"

special_token_dict["eos_token"] = "</s>"

special_token_dict["unk_token"] = "<unk>"

special_token_dict["pad_token"] = "<pad>"

num_added_tokens = tokenizer.add_special_tokens(special_token_dict)

global context_markups

context_markups = []

for token in ["<paragraph>", "</paragraph>"]:

context_markups.append(tokenizer.convert_tokens_to_ids(token))

assert (

num_added_tokens > 10

), "special tokens must be added to the original tokenizers."

embedding_size = model.get_input_embeddings().weight.shape[0]

if len(tokenizer) > embedding_size:

model.resize_token_embeddings(len(tokenizer))

model = prepare_model_for_kbit_training(model, use_gradient_checkpointing=True)

model.gradient_checkpointing_enable()

lora_modules = []

lora_modules += [

"embed_tokens",
"lm_head",

lora_modules += [

"q_proj",

"k_proj",

"v_proj",

"o_proj",

"up_proj",

"gate_proj",

"down_proj",

config = LoraConfig(

r=model_config.lora_r,

lora_alpha=model_config.lora_alpha,

target_modules=lora_modules,

lora_dropout=0.1,

bias="none",

task_type="CAUSAL_LM",

model = get_peft_model(model, config)

# Zero Init

for n, p in model.named_parameters():

if "adapter_up" in n:

nn.init.zeros_(p)

if "adapter_down" in n:

nn.init.kaiming_uniform_(p, a=math.sqrt(5))

if "router" in n:
nn.init.kaiming_uniform_(p, a=math.sqrt(5))

for name, module in model.named_modules():

if isinstance(module, LoraLayer):

if training_args.bf16:

module = module.to(torch.bfloat16)

if "norm" in name:

module = module.to(torch.float32)

if "lm_head" in name or "embed_tokens" in name:

if hasattr(module, "weight"):

if training_args.bf16 and module.weight.dtype == torch.float32:

module = module.to(torch.bfloat16)

if "adapter" in name:

if training_args.bf16:

module = module.to(torch.bfloat16)

else:

module = module.to(torch.float32)

for n, p in model.named_parameters():

if "adapter" in n:

p.requires_grad = True

model.config.use_cache = False

print_trainable_parameters(model)

data_module = make_supervised_data_module(tokenizer=tokenizer, data_args=data_args)

trainer = Trainer(

model=model, tokenizer=tokenizer, args=training_args, **data_module

trainer.add_callback(SavePeftModelCallback)

trainer.add_callback(PrinterCallback)
trainer.train()

model.save_pretrained(training_args.output_dir)

if __name__ == "__main__":

train()

Vit32 GPTMD
No ratings yet
Vit32 GPTMD
6 pages
566f0619-9145-4b8f-b12b-cb8a5b0cd30d
No ratings yet
566f0619-9145-4b8f-b12b-cb8a5b0cd30d
17 pages
Project Source
No ratings yet
Project Source
21 pages
Computer Vision Lab Guide
No ratings yet
Computer Vision Lab Guide
120 pages
Image Caption2
No ratings yet
Image Caption2
9 pages
Course 3 - Week 2 - Exercise - Answer - Ipynb - Colaboratory
No ratings yet
Course 3 - Week 2 - Exercise - Answer - Ipynb - Colaboratory
8 pages
IndicTrans2 PDF to Punjabi Docx Conversion
No ratings yet
IndicTrans2 PDF to Punjabi Docx Conversion
5 pages
Def Set Random Seed (Seed)
No ratings yet
Def Set Random Seed (Seed)
29 pages
Run 1
No ratings yet
Run 1
57 pages
DL 5 Excuted
No ratings yet
DL 5 Excuted
13 pages
Code2pdf 67c73149b96ef
No ratings yet
Code2pdf 67c73149b96ef
4 pages
Trainrealfill
No ratings yet
Trainrealfill
19 pages
Tensor Flow Programs
No ratings yet
Tensor Flow Programs
30 pages
Deep Learning Lab
No ratings yet
Deep Learning Lab
7 pages
TensorFlow PCA and Triplet Loss Guide
No ratings yet
TensorFlow PCA and Triplet Loss Guide
19 pages
Val
No ratings yet
Val
9 pages
Chinese Character Recognition BN
No ratings yet
Chinese Character Recognition BN
7 pages
NLP
No ratings yet
NLP
15 pages
Integer-Encoding-Simplernn - Ipynb - Colaboratory
No ratings yet
Integer-Encoding-Simplernn - Ipynb - Colaboratory
4 pages
EncoderDecoderSeq2Seq DeepLSTM
100% (1)
EncoderDecoderSeq2Seq DeepLSTM
7 pages
Full Multi Modal Model Repo
No ratings yet
Full Multi Modal Model Repo
8 pages
Ass
No ratings yet
Ass
5 pages
PyTorch Cheat Sheet & Quick Reference
No ratings yet
PyTorch Cheat Sheet & Quick Reference
6 pages
Sample
No ratings yet
Sample
6 pages
DL - 5 Excuted
No ratings yet
DL - 5 Excuted
13 pages
Intent Recognizer
No ratings yet
Intent Recognizer
5 pages
Deep Learning
No ratings yet
Deep Learning
46 pages
RNN LSTM From Scratch - Ipynb
No ratings yet
RNN LSTM From Scratch - Ipynb
55 pages
Full Multi Modal Model Repo Part2
No ratings yet
Full Multi Modal Model Repo Part2
8 pages
NN From Scratch
No ratings yet
NN From Scratch
5 pages
Lab 5
No ratings yet
Lab 5
7 pages
Autoencoder - MPL - Basic - Ipynb - Colaboratory PDF
No ratings yet
Autoencoder - MPL - Basic - Ipynb - Colaboratory PDF
21 pages
CVDL Tae 63
No ratings yet
CVDL Tae 63
9 pages
Classification CNN
No ratings yet
Classification CNN
7 pages
Research Paper Summarization
No ratings yet
Research Paper Summarization
13 pages
Train Edu Bert
No ratings yet
Train Edu Bert
3 pages
DL Lab Manual
No ratings yet
DL Lab Manual
18 pages
Csc413 Project Semantic Segmentation
No ratings yet
Csc413 Project Semantic Segmentation
84 pages
CH 13
No ratings yet
CH 13
13 pages
Transformer
No ratings yet
Transformer
10 pages
Transfer Learning for Beginners
No ratings yet
Transfer Learning for Beginners
7 pages
Parameter Efficient Fine
No ratings yet
Parameter Efficient Fine
14 pages
Image Captioning With Visual Attention PDF
No ratings yet
Image Captioning With Visual Attention PDF
16 pages
Ej Stanford Dog Densenet
No ratings yet
Ej Stanford Dog Densenet
6 pages
Experimental Pix2pix
No ratings yet
Experimental Pix2pix
5 pages
Neural DEEP
No ratings yet
Neural DEEP
39 pages
Final Code
No ratings yet
Final Code
16 pages
Tutorials Sources Beginner Ptcheat
No ratings yet
Tutorials Sources Beginner Ptcheat
7 pages
Skin Cancer Detection Using Deep Learning Models - Ipynb
No ratings yet
Skin Cancer Detection Using Deep Learning Models - Ipynb
189 pages
Sentence Embedding Code
No ratings yet
Sentence Embedding Code
9 pages
LLM Code Ref
No ratings yet
LLM Code Ref
10 pages
Bert
No ratings yet
Bert
2 pages
CNN Model
No ratings yet
CNN Model
7 pages
TensorFlow MNIST Training Guide
No ratings yet
TensorFlow MNIST Training Guide
7 pages
Simple Neural Network - Ipynb
No ratings yet
Simple Neural Network - Ipynb
4 pages
AlexNet Transfer Learning - Ipynb
No ratings yet
AlexNet Transfer Learning - Ipynb
5 pages
Lab Manual
No ratings yet
Lab Manual
45 pages
TensorFlow Cheat Sheet
No ratings yet
TensorFlow Cheat Sheet
7 pages
Yolo Step-by-Step - Ipynb
No ratings yet
Yolo Step-by-Step - Ipynb
447 pages
Assignment 3 DS5620
No ratings yet
Assignment 3 DS5620
11 pages
merge_moe_lora
No ratings yet
merge_moe_lora
5 pages
Adv 06122021
No ratings yet
Adv 06122021
2 pages
SWRL Rule base
No ratings yet
SWRL Rule base
2 pages
Handling & Storage of Products
No ratings yet
Handling & Storage of Products
50 pages
Academic Calendar - MBA Spring Semester 2024-25
No ratings yet
Academic Calendar - MBA Spring Semester 2024-25
2 pages
MSC 1 Sem Chemistry Physical Chemistry Ss 2259 Dec 2016
No ratings yet
MSC 1 Sem Chemistry Physical Chemistry Ss 2259 Dec 2016
1 page
Annual Seminar
No ratings yet
Annual Seminar
25 pages
QA Dataset Generation Framework
No ratings yet
QA Dataset Generation Framework
8 pages
Structural Wall Load Guidelines
No ratings yet
Structural Wall Load Guidelines
3 pages
15 Cheapest Tecno Phones and Prices in Nigeria
No ratings yet
15 Cheapest Tecno Phones and Prices in Nigeria
1 page
Unit - I
No ratings yet
Unit - I
32 pages
Abstract Data Type (ADT) Is A Type (Or Class) For Objects Whose Behavior Is Defined by
No ratings yet
Abstract Data Type (ADT) Is A Type (Or Class) For Objects Whose Behavior Is Defined by
2 pages
Previous Year Paper Solution PDF
No ratings yet
Previous Year Paper Solution PDF
14 pages
RC6 Cipher
No ratings yet
RC6 Cipher
6 pages
Os Iot bg96 Guide
No ratings yet
Os Iot bg96 Guide
10 pages
Data Handling With Pandas-I (Series)
No ratings yet
Data Handling With Pandas-I (Series)
6 pages
15ECSC703 576 KLE51-15ecsc703
No ratings yet
15ECSC703 576 KLE51-15ecsc703
5 pages
Hpe Proliant Gen11 Ai
No ratings yet
Hpe Proliant Gen11 Ai
7 pages
Parle
0% (1)
Parle
63 pages
Dell Emc Poweredge r250 Technical Guide
No ratings yet
Dell Emc Poweredge r250 Technical Guide
50 pages
Baase Henry GoF5e Ch8
No ratings yet
Baase Henry GoF5e Ch8
34 pages
SVM - An Essay
No ratings yet
SVM - An Essay
1 page
Business IT Tools for Students
No ratings yet
Business IT Tools for Students
13 pages
Practical 3: Assignments Based On Web Application Development Using JSP
No ratings yet
Practical 3: Assignments Based On Web Application Development Using JSP
11 pages
MIT 6.858 Fall 2013 Quiz I
No ratings yet
MIT 6.858 Fall 2013 Quiz I
14 pages
Cerberis XGR User Guide (v1.1)
No ratings yet
Cerberis XGR User Guide (v1.1)
41 pages
Is Internet For Porn
No ratings yet
Is Internet For Porn
14 pages
IT Executive Career Highlights
No ratings yet
IT Executive Career Highlights
5 pages
Android Questions With Answers
No ratings yet
Android Questions With Answers
19 pages
Comprehensive Guide to HTML Forms and Input Types
100% (1)
Comprehensive Guide to HTML Forms and Input Types
47 pages
T Rec G.719 200806 I!!msw e
No ratings yet
T Rec G.719 200806 I!!msw e
59 pages
Avif A Gunawan, ST.: Skills Interest
No ratings yet
Avif A Gunawan, ST.: Skills Interest
3 pages
Exor Logs
No ratings yet
Exor Logs
7,652 pages
U.S. Food & Drug Administration: 10903 New Hampshire Avenue Silver Spring, MD 20993
No ratings yet
U.S. Food & Drug Administration: 10903 New Hampshire Avenue Silver Spring, MD 20993
7 pages
Macs3 Info
No ratings yet
Macs3 Info
2 pages
Riya Chaudhary
No ratings yet
Riya Chaudhary
13 pages
Step by Step Process For RING UK
No ratings yet
Step by Step Process For RING UK
2 pages
Ansible
No ratings yet
Ansible
13 pages

train_openrag_moe

Uploaded by

train_openrag_moe

Uploaded by

# Copyright 2023 Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li

# Licensed under the Apache License, Version 2.0 (the "License");

# You may obtain a copy of the License at

# Unless required by applicable law or agreed to in writing, software

# distributed under the License is distributed on an "AS IS" BASIS,

# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

# limitations under the License.

from os.path import exists, join, isdir

from copy import deepcopy

from dataclasses import dataclass, field

from torch import nn

from torch.utils.data import Dataset

import bitsandbytes as bnb

from transformers.trainer_utils import PREFIX_CHECKPOINT_DIR

from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training

from peft.tuners.lora import LoraLayer

from datasets import load_dataset

from openrag.configuration_openrag import OpenRAGConfig

from openrag.modeling_openrag import LlamaForCausalLM

from openrag.transformers_utils import (

from ipdb import set_trace as stt

model_name_or_path: Optional[str] = field(default="facebook/opt-125m")

lora_r: int = field(

metadata={"help": "Rank of the LoRA update matrices"}

lora_alpha: int = field(

metadata={"help": "Scaling factor for LoRA"}

adapter_dim: int = field(

metadata={"help": "Dimension of the adapter layers"}

moe_scaling: float = field(

metadata={"help": "Scaling factor for Mixture of Experts"}

num_experts: int = field(

metadata={"help": "Number of experts in the Mixture of Experts layer"}

topk: int = field(

metadata={"help": "Top-k value for routing or selection"}

data_path: str = field(

default=None, metadata={"help": "Path to the training data."}

data_subset: str = field(

default="default", metadata={"help": "Training data subset."}

report_to: str = field(default="none")

cache_dir: Optional[str] = field(default=None)

optim: str = field(

) # "paged_lion_8bit", "paged_adamw_8bit", "paged_lion_32bit", "paged_adamw_32bit"

lr_scheduler_type: str = field(

) # "constant", "constant_with_warmup", "cosine", "cosine_with_restarts", "linear"

model_max_length: int = field(

strings: Sequence[str], tokenizer: transformers.PreTrainedTokenizer

"""Tokenize a list of strings."""

for text in strings

input_ids = labels = [tokenized.input_ids[0] for tokenized in tokenized_list]

for tokenized in tokenized_list

"""Preprocess the data by tokenizing."""

for s, t in zip(sources, targets)

_tokenize_fn(strings, tokenizer) for strings in (examples, sources)

for label, source_len in zip(labels, sources_tokenized["input_ids_lens"]):

for j, orig_token in enumerate(label[source_len:]):

if context_start is False and orig_token == context_markups[0]:

assert label[source_len + j] == context_markups[0]

for k, orig_token_2 in enumerate(label[start_idx:]):

label[start_idx + 1 : end_idx] = IGNORE_INDEX

return dict(input_ids=input_ids, labels=labels)

"""Dataset for supervised fine-tuning."""

def __init__(self, data_path: str, data_subset: str, tokenizer: transformers.PreTrainedTokenizer):

logging.warning("Loading data: {}".format(data_path))

dataset = load_dataset(data_path, data_subset)

for idx in range(len(data_list)):

f"### Instruction:\n{conversation[0]['input']}\n\n### Response:\n"

logging.warning("there are {} data in dataset".format(len(self.sources)))

def __getitem__(self, i):

data_dict = preprocess(source, target, self.tokenizer)

"""Collate examples for supervised fine-tuning."""

def __call__(self, instances: Sequence[Dict]) -> Dict[str, torch.Tensor]:

input_ids, labels = tuple(

[instance[key] for instance in instances] for key in ("input_ids", "labels")

input_ids, batch_first=True, padding_value=self.tokenizer.pad_token_id

labels, batch_first=True, padding_value=IGNORE_INDEX

def save_model(self, args, state, kwargs):

def init(self, data_path: str, data_subset: str, tokenizer: transformers.PreTrainedTokenizer):

def getitem(self, i):

def call(self, instances: Sequence[Dict]) -> Dict[str, torch.Tensor]: