[论文笔记] LLM模型剪枝
Attention Is All You Need But You Don’t Need All Of It For Inference of Large Language Models
LLaMA2在剪枝时,跳过ffn和跳过full layer的效果差不多。相比跳过ffn/full layer,跳过attention layer的影响会更小。
跳过attention layer:7B/13B从100%参数剪枝到66%,平均指标只下降1.7~1.8pp。
跳过ffn:7B/13B从100%参数剪枝到66%,平均指标下降了12.2~15.1pp。
跳过full later:7B/13B从100%参数剪枝到66%,平均指标下降了12.2~13pp。
LLaMA2在剪枝时,是否跳过最后一层的ffn/attention layer,影响不大。
The Unreasonable Ineffectiveness of the Deeper Layers
剪枝崩溃临界点:不同模型的剪枝崩溃临界点不同,LLaMA2在45%,Mistral-7B在35%,Qwen在20%,Phi-2在25%。
原文地址:https://blog.csdn.net/Trance95/article/details/141822254
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!