fix tp only bug by sywangyi · Pull Request #3908 · huggingface/accelerate

sywangyi · 2026-01-14T06:08:38Z

Signed-off-by: Wang, Yi <yi.a.wang@intel.com>

sywangyi · 2026-01-14T06:21:28Z

import argparse

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, Trainer, TrainingArguments

from utils import get_dataset


MODEL_ID = "NousResearch/Hermes-3-Llama-3.1-8B"


def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument("--sequence-length", type=int, default=1024)
    parser.add_argument("--checkpoint-frequency", type=int, default=100)
    parser.add_argument("--model-name", type=str, default=MODEL_ID)
    parser.add_argument("--save-dir", type=str, default=f"./accelerate-nd-parallel-{MODEL_ID.split('/')[-1]}")
    parser.add_argument("--device-type", type=str, default="auto")
    return parser.parse_args()


def main():
    # If ParallelismConfig is not initialized with __init__, it reads from env vars
    # which were set by using config
    args = parse_args()
    #    pc = ParallelismConfig()
    if args.device_type == "auto":
        args.device_type = torch.accelerator.current_accelerator().type

    model_kwargs = {}
    model_kwargs["tp_plan"] = "auto"

    tokenizer = AutoTokenizer.from_pretrained(args.model_name)
    model = AutoModelForCausalLM.from_pretrained(args.model_name, use_cache=False, **model_kwargs)

    if tokenizer.pad_token is None:
        tokenizer.pad_token = tokenizer.eos_token

    packed_dataset = get_dataset(tokenizer, args.sequence_length)

    training_args = TrainingArguments(
        output_dir=args.save_dir,
        num_train_epochs=1,
        #        parallelism_config=pc,
        per_device_train_batch_size=1,
        logging_steps=5,
        save_steps=args.checkpoint_frequency,
        learning_rate=5e-5,
        remove_unused_columns=False,
        max_steps=200,
        bf16=True,
    )

    trainer = Trainer(
        model=model,
        args=training_args,
        processing_class=tokenizer,
        train_dataset=packed_dataset,
    )

    trainer.train()
    trainer.save_model()


if __name__ == "__main__":
    main()

torchrun --nproc_per_node=4 trainer_tp.py --sequence-length 1024

SunMarc

Thanks a lot ! Just a nit

HuggingFaceDocBuilderDev · 2026-01-14T13:10:50Z

The docs for this PR live here. All of your documentation changes will be reflected on that endpoint. The docs are available until 30 days after the last update.

fix tp only bug

a2dc628

Signed-off-by: Wang, Yi <yi.a.wang@intel.com>

sywangyi force-pushed the tp_only branch from cc2ef9a to a2dc628 Compare January 14, 2026 06:09

sywangyi mentioned this pull request Jan 14, 2026

fix crash in when running FSDP2+TP huggingface/transformers#43226

Merged

SunMarc approved these changes Jan 14, 2026

View reviewed changes

Comment thread src/accelerate/accelerator.py

SunMarc merged commit 38dadd9 into huggingface:main Jan 14, 2026
23 of 25 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix tp only bug#3908

fix tp only bug#3908
SunMarc merged 1 commit into
huggingface:mainfrom
sywangyi:tp_only

sywangyi commented Jan 14, 2026

Uh oh!

sywangyi commented Jan 14, 2026

Uh oh!

SunMarc left a comment

Uh oh!

Uh oh!

HuggingFaceDocBuilderDev commented Jan 14, 2026

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

Conversation

sywangyi commented Jan 14, 2026

Uh oh!

sywangyi commented Jan 14, 2026

Uh oh!

SunMarc left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

HuggingFaceDocBuilderDev commented Jan 14, 2026

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants