Reddit · /u/NonGameCatharsis / reddit · 2026-06-21T10:46:36+00:00

I released a softmax-free attention model at GPT-2 Medium scale (~354M params, 11.5B tokens): structural sparsity + tile-skipping kernels for long-context VRAM savings. Open weights + custom Triton kernels [R]

为什么值得读： 推荐理由待生成，可根据标题、标签和来源先判断优先级。

AI 摘要

暂无摘要，建议先打开原文快速判断。

打开原文阅读完整内容 →

相关事件与更多上下文见编辑部与归档页。