Skip to content

momentics/NeuralTower

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

97 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

NeuralTower

Логотип проекта NeuralTower NeuralTower - открытый инженерный проект настольной рабочей станции на четырех NVIDIA Tesla V100 SXM2 32 GB. Цель проекта - собрать локальный узел с 128 GB HBM2 для инференса и экспериментов с большими моделями без постоянной зависимости от облака.

Проект находится в стадии проектирования и доводки. В репозитории отдельно лежат расчеты, механика, электрическая часть, подготовка железа, программная среда и статьи о проекте. Если обзорный текст расходится с инженерным документом, для сборки нужно использовать инженерный документ.

Быстрая навигация

Раздел Назначение
Docs/project_status.md Текущий статус узлов, неподтвержденные гипотезы и план первичной проверки
Docs/BOM/bom_list.md Перечень компонентов, материалов и закупочных позиций
Docs/Calculations/air_dynamics.md Расчет воздушной части V-CORE
CAD/Deck/deck_layout.md Геометрия палубы, сопел и технологических проходов
Electrical/Pinouts/slimsas_mapping.md Топология SlimSAS, слоты PCIe и порядок GPU
Hardware/BIOS/bios_settings.md Настройки BIOS для V100, PLX и PCIe
Software/Linux/system_setup.md Порядок подготовки ОС и первого запуска
Diagnosis/V100-SXM2-32G Контейнер диагностики четырех V100 SXM2

Архитектура

Система строится вокруг четырех Tesla V100 SXM2, установленных на двух SXM2 carrier board. Внутри каждого мезонина пара GPU связана NVLink 2.0, а межмезонинный обмен идет через PCIe 3.0 x16, SlimSAS SFF-8654 8i и PLX-коммутаторы материнской платы ASUS X99-E WS.

Основной инженерный компромисс проекта: V100 уже не современная архитектура, но дает большой объем HBM2 на вторичном рынке. Для программного стека это означает обязательную работу с ограничениями Volta sm_70: CUDA 12.8, FP16 как базовый тип данных и отдельная стратегия для vLLM.

Охлаждение V-CORE

V-CORE - рабочее название схемы охлаждения, где жидкостный контур снимает основную тепловую нагрузку с CPU и GPU, а нижний отсек корпуса работает как камера избыточного давления. Воздух проходит через радиаторы СЖО, попадает в герметичный КВД и выходит через калиброванные сопла палубы к VRM, обратным сторонам плат и зонам, не закрытым водоблоками. Два блока питания HX1000 находятся в изолированных боковых отсеках и не используют воздух КВД.

Основные документы по этой теме:

Программный стек

Основной путь развертывания: Gentoo Linux, CUDA 12.8, NVIDIA driver 580+, Python 3.12 и 1Cat-vLLM для восстановления рабочей поддержки V100. Альтернативный путь - официальный vLLM ветки 0.18.x с Triton-бэкендом, если форк 1Cat-vLLM не подходит.

Стартовые документы:

Безопасность

В проекте используются высокие токи, два блока питания, жидкостное охлаждение и дорогое серверное оборудование. До подачи питания обязательны проверка распиновок, прозвонка переходников, контроль общей земли между БП и рамой, наружный доступ к выключателям HX1000, тест герметичности СЖО и проверка работы помп.

Связанные документы:

Структура репозитория

NeuralTower/
├── Articles/              # публикации и черновики статей
├── CAD/                   # механическая компоновка и сборка
├── Diagnosis/             # аппаратные тесты GPU
├── Docs/
│   ├── BOM/               # перечень компонентов
│   ├── Calculations/      # расчетные записки
│   └── Images/            # логотип, схемы и будущие фотографии
├── Electrical/            # питание, земля, распиновки
├── Hardware/              # GPU, BIOS, аппаратная подготовка
├── Manuals/               # внешние мануалы и справочные материалы
└── Software/              # ОС, ML-стек, мониторинг

Связь

Группа в Telegram: @NeuralTower

Группа Telegram проекта NeuralTower