自学内容网 自学内容网

[论文笔记] LLM模型剪枝

Attention Is All You Need But You Don’t Need All Of It For Inference of Large Language Models

        LLaMA2在剪枝时,跳过ffn和跳过full layer的效果差不多。相比跳过ffn/full layer,跳过attention layer的影响会更小。

        跳过attention layer:7B/13B从100%参数剪枝到66%,平均指标只下降1.7~1.8pp。

        跳过ffn:7B/13B从100%参数剪枝到66%,平均指标下降了12.2~15.1pp。

        跳过full later:7B/13B从100%参数剪枝到66%,平均指标下降了12.2~13pp。

        LLaMA2在剪枝时,是否跳过最后一层的ffn/attention layer,影响不大。

The Unreasonable Ineffectiveness of the Deeper Layers

        剪枝崩溃临界点:不同模型的剪枝崩溃临界点不同,LLaMA2在45%,Mistral-7B在35%,Qwen在20%,Phi-2在25%。

      


原文地址:https://blog.csdn.net/Trance95/article/details/141822254

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!