Labs Timeline What's New

↑↓ to navigate ↵ to open Esc to close

FineWeb-Mask

dataset

2025-12-31 ByteDance

1.5 trillion-token "distilled" subset of common crawl data optimized for pre-training.

HuggingFace Paper (arXiv)

training-datatraining