YingHub-v3

v3 Major Enhancements & Innovations
This release introduces significant architectural improvements, training optimizations, and novel features over v2, specifically designed for high-quality Shakespearean text generation.

🚀 Key Advancements (v3 vs v2)

1. Data Loading & Preprocessing Optimizations

Sliding Window Pre-computation
Implemented memory-efficient unfold + circular buffer strategies to handle variable-length sequences
Dynamic Mask Augmentation
10% random token masking with <unk> during batch generation improves robustness
Streaming Dataset Iterator
Memory-mapped data loading with zero-copy tensor conversion (4x faster than v2's disk I/O)

2. Architectural Upgrades

Flash Attention Integration
Implemented Triton-accelerated Flash Attention kernels (2.1x faster than standard PyTorch attention).
Heterogeneous Experts
Introduced 3 expert types: Deep (complex patterns), Wide (contextual breadth), Hybrid (parallel residual paths).
Dynamic Top-K Routing
Adaptive token-to-expert allocation with capacity-aware load balancing (15% better expert utilization).

3. Training Optimizations

Factorized Embeddings
Low-rank embeddings + projection layers reduce memory usage by 40% with <1% accuracy drop.
Curriculum Learning Scheduler
Progressive sequence length scaling (48→88 tokens) stabilizes RLHF fine-tuning.
Structured Dropout
Block-wise dropout (20%) + Structural embedding dropout (20%) + Attention dropout (30%) + gradient clipping (norm=1.2) prevents overfitting.

4. Controlled Generation

Dramatic Structure Enforcement
State machine tracking for <SCENE>, <SPEAKER>, and <STAGE> tag consistency.
Iambic Pentameter Checker
Real-time stress pattern validation with pronouncing.py integration.
Rhyme Schema Detection
Supports ABAB/AABB/ABABCC patterns via phonetic analysis.

5. Data Pipeline

Enhanced Shakespeare Cleaning
Specialized regex patterns for:
- Speaker turn management (<SPEAKER>...</SPEAKER>)
- Stage direction isolation (<STAGE>[...]</STAGE>)
- Act/scene boundary detection (<ACT III> → <SCENE>III</SCENE>)
Gutenberg Corpus Blending
10% non-Shakespearean text injection improves linguistic diversity.

🛠 Usage Examples

Training

python MoE.py --train --batch_size 32 --block_size 96

Generation

# Base model
python MoE.py --generate --temperature 0.7 --top_p 0.85

# RLHF-tuned model  
python MoE.py --ftgenerate --temperature 0.6 --top_p 0.9

RLHF Fine-tuning

python MoE.py --rlhf --checkpoint model_checkpoint.pth

📊 Data Pipeline Performance

Metric	v2	v3
Batch Preparation Time	420ms	85ms
Memory Footprint	8.2GB	3.1GB
Effective Data Reuse	68%	92%
Augmentation Variety	3 types	7 types

📊 Performance Metrics

Metric	v2	v3
Validation Loss	5.8	5.1
Expert Utilization	73%	88%
PPL (Shakespeare)	18.9	14.2
Training Speed (tok/s)	1,420	2,310

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
MoE.py		MoE.py
README.md		README.md
cleaned_data.txt		cleaned_data.txt
data_cleaner.py		data_cleaner.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

YingHub-v3

🚀 Key Advancements (v3 vs v2)

1. Data Loading & Preprocessing Optimizations

2. Architectural Upgrades

3. Training Optimizations

4. Controlled Generation

5. Data Pipeline

🛠 Usage Examples

Training

Generation

RLHF Fine-tuning

📊 Data Pipeline Performance

📊 Performance Metrics

About

Uh oh!

Releases

Packages

Languages

lyj20071013/YingHub-v3

Folders and files

Latest commit

History

Repository files navigation

YingHub-v3

🚀 Key Advancements (v3 vs v2)

1. Data Loading & Preprocessing Optimizations

2. Architectural Upgrades

3. Training Optimizations

4. Controlled Generation

5. Data Pipeline

🛠 Usage Examples

Training

Generation

RLHF Fine-tuning

📊 Data Pipeline Performance

📊 Performance Metrics

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages