Pccl integration #241

mikex86 · 2025-04-05T19:00:11Z

Draft, not ready to merge yet.

samsja · 2025-04-09T00:18:15Z

scripts/install/install.sh

-
-set -e
-
-# Colors for output


lets keep this file

pyproject.toml

samsja · 2025-04-10T20:31:46Z

src/zeroband/utils/optim_utils.py

        param_group['lr'] = lr
+
+
+OptimT = TypeVar("OptimT", bound=torch.optim.Optimizer)


Suggested change

OptimT = TypeVar("OptimT", bound=torch.optim.Optimizer)

OptimT : TypAlias = TypeVar("OptimT", bound=torch.optim.Optimizer)

samsja · 2025-04-10T20:32:31Z

src/zeroband/utils/optim_utils.py

+    :param optimizer_type the type of optimizer used.
+    """
+
+    def _validate_exists(to_check: List[Tuple[str, Optional[torch.Tensor]]]):


Suggested change

def _validate_exists(to_check: List[Tuple[str, Optional[torch.Tensor]]]):

def _validate_exists(to_check: list[tuple[str, torch.Tensor | None]]):

samsja · 2025-04-10T20:32:52Z

src/zeroband/utils/tokenizer_utils.py

+            hf_name="mistralai/Mistral-7B-v0.1",
+            # print(len(AutoTokenizer.from_pretrained("mistralai/Mistral-7B-v0.1", use_fast=True)))
+            vocab_size=32000,
+            # print(AutoTokenizer.from_pretrained("mistralai/Mistral-7B-v0.1", use_fast=True).bos_token_id)
+            bot_token=1,
+            # print(AutoTokenizer.from_pretrained("mistralai/Mistral-7B-v0.1", use_fast=True).eos_token_id)
+            eot_token=2,
+        )


remove print

samsja · 2025-04-10T20:32:59Z

src/zeroband/utils/tokenizer_utils.py

+        return TokenizerInfo(
+            hf_name="meta-llama/Meta-Llama-3-8B",
+            # print(len(AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3-8B", use_fast=True)))
+            vocab_size=128256,
+            # print(AutoTokenizer.from_pretrained("mistralai/Mistral-7B-v0.1", use_fast=True).bos_token_id)
+            bot_token=128000,
+            # print(AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3-8B", use_fast=True).eos_token_id)
+            eot_token=128001,
+        )


remove print

do we not want to tell people how to re-obtain this number easily?

samsja · 2025-04-10T20:33:37Z

tests/test_data.py

-import copy
-import torch
-from zeroband.data import InterleaveDataset, ParquetDataset, SequencePackingDataSet, collate_fn
-from torch.utils.data import DataLoader
-from zeroband.data import load_all_datasets, DataConfig
-from zeroband.utils.logger import get_logger
-from collections import Counter
-from itertools import chain
-import pytest
-import logging
-import pyarrow as pa
-import pyarrow.parquet as pq
-from faker import Faker
-from typing import List
-import string
-from torchdata.stateful_dataloader import StatefulDataLoader


why removing the sequence packing tests ?

need to re-add them, but they were incompatible post port.

samsja · 2025-04-10T20:33:50Z

tests/test_model.py

+
+if __name__ == '__main__':
+    pytest.main()


tests/test_read_nibbles.py

src/zeroband/train.py

src/zeroband/models/llama/__init__.py

mikex86 added 16 commits April 4, 2025 05:21

small cleanup

5a45af8

introduce mpi info and allow non-mpi runs

e96c5e7

working fsdp with pccl accept loop

f5263f8

working sync DiLoCo

1cd3764

working async DiLoCo

43be48c

introduce functions for sanity

6e60343

configurable async/non-async DiLoCo

471f640

implemented nibble dataset

2a842ad

fix bug where outer lr is not set

12351cb

fix configs & unit tests

efe58d9

fix ruff

c74d5b2

fix ruff

eaeec2a

clone pccl dependency via git instead of https

1160e49

fix pccl git url

8bd560d

backported ParquetDataset

f9e37ea

fix ruff

906517e

samsja reviewed Apr 9, 2025

View reviewed changes

pyproject.toml Show resolved Hide resolved