Ashutosh Kumar
Ashutosh Kumar @ashutoshkmrr ·
Replying to @ashutoshkmrr
3/ Built exactly like frontier labs do it internally — one-time tokenizer training → reuse forever. Text + Code (150+ languages with AST chunking) Image / Audio / Video (VQ tokenization) Ready for 8M → 55M+ pair contrastive or pretraining datasets.
1
9
Ashutosh Kumar
Ashutosh Kumar @ashutoshkmrr ·
Replying to @ashutoshkmrr
2/ One CLI does it all: • collect → pulls clean datasets (Wikipedia, The Stack, LAION, Kinetics…) • train-tokenizer → builds frozen 128k BPE + VQ codebooks for every modality (native <CODE> support) • process → outputs ready-to-train SafeTensors with input_ids, attention_mask, modality_mask, targets Fully distributed with Ray • PII scrubbing • dedup • quality filtering • lineage.
1
10
染谷光亨
染谷光亨 @dfku0DUsuT95654 ·
【海外の反応】「韓国の国産化は完了した」政府が90億円を投じた3ヶ月後…LNG船建造で起きた想定外の事態と900億円の代償とは youtu.be/kqXXtxDb-vQ?si… @YouTubeより
30
D S C H
D S C H @DSCH5812 ·
Rinky Dink  クーティ・ウィリアムス・サヴォイ・ボールルーム・オーケストラ:クーティ・ウィリアムス(トランペット)、ラリー・デイル(ギター)、アル・シアーズ(テナーサックス) 1957年 #3月29日 ニューヨークで録音 youtu.be/cjrNmvCI-VQ?si…
18
⟡
@dhctxt ·
PAR CONTRE FAUT METTRE LA VF ET PAS LA VQ
Netflix France Netflix France @NetflixFR ·
🚨 L’intégrale de TWILIGHT, c’est dispo.A
200