ai
Phân tích kiến trúc Gemma 4 31B: hybrid attention 5:1, Proportional RoPE, Per-Layer Embeddings (đọc thẳng từ source code)
Phân tích sâu kiến trúc Gemma 4 31B từ config.json và modeling_gemma4.py: hybrid attention 5:1 (sliding window + global), Proportional RoPE, Per-Layer Embeddings, shared KV cache. 256K context chạy được trên một GPU consumer, có screenshot evidence từ primary source.