llm-serving
Bench LLM trên DGX Spark: khi memory mới là bottleneck, không phải compute
54 cell benchmark thật trên GB10 128GB. MoE thắng dense 2.5x throughput, long-input giết server, KV cache là constraint thực sự - và 5 điều mình không đoán trước được khi mở terminal.