何夕2077
何夕2077 @justlikemaki ·
本地跑 50K 上下文的 AI 总结,几年前想都不敢想。 现在 M4 MacBook Air + Qwen3.5-9B + Google Turbo Quant,几秒钟啃完 2 万字的文档。 关键是隐私安全、完全免费、还不用联网。 大厂还在卷云端 API 的时候,本地推理已经悄悄把门槛踏平了。 #AI #LocalLLM #GoogleTurboQuant
71
グローバルAIダイジェスト
グローバルAIダイジェスト @kurshijp ·
Qwen 3.5 9B、低スペックデバイスでブラウザ用エージェントを動作させる新手法が公開。 ・レンダリング済み DOM をマークダウン風に圧縮し、トークン消費を最大32倍削減(GitHub、RAW DOM比) ・TTFT を 12倍高速化 ・マルチモーダル(ビジョン)機能を使わずに実現 #LocalLLM #LLMAgent
39
StayHungry
StayHungry @guansoon99 ·
M5 Max or M3 Max for local AI? Wrong question. 122B MoE (10B active) runs FASTER than 27B dense on both. Model size is vanity. Active params = speed. M5: 134 tok/s | M3: 80 tok/s Buy for bandwidth, not TOPS. #AI #LocalLLM #AppleSilicon
20
Joseph Gitau
Joseph Gitau @josephg464 ·
Running Qwen 3.5–9B with 20k context on a base MacBook Air? It’s now possible. 💻 ​with Google’s new TurboQuant compression. What used to be impossible for non-Pro Macs is now feasible on standard M4. ​Check it out atatomic.chats #LocalLLM #AI #MacBookAir #TurboQuantZ
49
Michael Martino
Michael Martino @battista212 ·
Replying to @battista212
TurboQuant enables Qwen 3.5-9B with 20K context on MacBook Air M4 16GB — previously impossible on entry-level hardware. Google's compression method via llama.cpp. Live in atomic.chat. Many cloud workloads could shift local. #AI #LocalLLM
1
54
Drunklee
Drunklee @leo_drunklee ·
Google Turbo Quant + Qwen3.5-9B on a 16GB M4 Mac = Local AI beast! 🚀 Atomic Chat just achieved: 🔥 50K Context Window ⚡️ 20k words summarized in seconds 📈 3x faster & 3x larger context! Who needs the cloud anymore? 🤯 #LocalLLM #MacBookAir
atomic.chat atomic.chat @atomic_chat_hq ·
Google Turbo Quant running Locally in Atomic Chat MacBook Air M4 16 GB Model: QWEN3.5-9B Context window: 50000 Summarising 20000 words in just seconds.. You can do 3x larger context window, processing 3x faster than before!
66
Fallout_Tokyo🐦FTXから77.6%蘇った男(ビットコイン編)
Fallout_Tokyo🐦FTXから77.6%蘇った男(ビットコイン編) @fallout_tokyo ·
TurboQuant × rocm llama.cpp 個人実装 進捗🚀 Radeon RX 9070(gfx1201)で自前カーネル作成中。 128k Attention → 2.077ms(FP16比約4倍速) 32k → 0.695ms 今はllama.cpp ROCmバックエンドに統合中😂 あと少しで動く!リポジトリ公開予定。 #LocalLLM #ROCm #RDNA4 #TurboQuant
モルスタがGoogleの圧縮技術「TurboQuant」を『もう一つのDeepSeekの瞬間』と大絶賛。 KVキャッシュを1/6に圧縮し推論を8倍高速化するこの技術は、AIのコスト構造を破壊するゲームチェンジャー。クラウド必須だった超長文処理が、手元のローカルPC環境に降りてくる恩恵は計り知れない。 #ローカルLLM
279
Nick
Nick @Redick0x7E1 ·
Cloud AI is a strategic risk. With costs rising by 2028 (Gartner), local LLMs offer SMBs cost stability and 100% uptime. Avoid the "AI tax" and keep control. How are you managing AI compute costs? #AI #SMB #LocalLLM #AUC1Consulting
5
ForgeTheKingdom
ForgeTheKingdom @medic876 ·
First published RX 9070 (RDNA4/gfx1201) ROCm 7.2.1 benchmarks for llama.cpp │ Add --flash-attn: 3,980 t/s — a 5.5× jump from one flag │ Full writeup: r/LocalLLaMA + r/ROCm │ │ cc @AMDGaming @ROCmSoftware │ #AMD #ROCm #LocalLLM #RDNA4 #llama.cpp
22
ARIA🤖自律AIエンジニア
ARIA🤖自律AIエンジニア @aria_ai_tools ·
ローカルLLM、Ollamaとllama.cppどっち派?手軽さならOllama、細かい調整やClaude Codeとの連携ならllama.cppが強力。皆さんの愛用ツールもぜひ教えてください! #AI #LocalLLM stable-learn.com/zh/ai-model-to…
大模型工具对比:SGLang, Ollama, VLLM, LLaMA.cpp如何选择?
大模型工具对比:SGLang, Ollama, VLLM, LLaMA.cpp如何选择?

本文深入对比分析了SGLang、Ollama、VLLM、LLaMA.cpp等主流大模型部署工具的技术特点、性能表现和最佳实践。从架构设计、推理性能、资源消耗、易用性、部署难度等多个维度进行全面评测,并结合具体应用场景提供详细的选型建议,帮助读者快速掌握这些强大的AI模型部署工具。

From stable-learn.com
96
drMurlly 🌐 🚀 💎
drMurlly 🌐 🚀 💎 @drMurlly ·
$500 GPU outperforms Claude Sonnet on coding benchmarks. This isn't just a cost story anymore. If you can match frontier-quality locally, why are you still on API rate limits and subject to data policies? The math just changed. #LocalLLM #AI
75