自学内容网 自学内容网

Day52

神经网络调参的知识总结:

1. 调参前提:因固定超参数训练已耗时,通常不用传统机器学习超参数方法(网格、贝叶斯等 ),工业界卡多或探究新架构时,多手动调参。

2. 参数分类:参数分超参数(外参,手动指定,无需数据驱动 )与内参;超参数又分网络参数(网络层交互、卷积核、层数、激活函数等 )、优化参数(学习率、批样本量、优化器参数等 )、正则化参数(权重衰减系数、dropout比率 )。

3. 调参顺序:遵循“保证模型能训练→提升性能→抑制过拟合”思路,顺序为参数初始化(优先预训练参数 )、batchsize(选测试允许的最高值,16的倍数佳 )、epoch(训练到收敛,可早停 )、学习率与调度器(收益高,常用Adam快速收敛、SGD收尾,配合调度器,依任务选,如快速实验用Adam + ReduceLROnPlateau )、模型结构(消融或对照试验 )、损失函数(分类、回归等依任务选,如分类用交叉熵等 )、激活函数(默认ReLU或变体,依场景选 )、正则化参数(过拟合后用dropout,0.2 - 0.5间,可分模块、结合残差链接 )。

4. 各参数细节:

◦ 初始化:预训练参数最优,小数据集可用Xavier,PyTorch默认Kaiming(适配ReLU )或Xavier(适配Sigmoid/Tanh )初始化。

◦ 学习率:影响收敛,过大难收敛、过小易停滞,依策略搭配优化器与调度器。

◦ 损失函数:分类任务用交叉熵(多分类 )、二元交叉熵(二分类 )、Focal Loss(类别不平衡 )等;回归用MSE、MAE等,依场景和评价指标选,多损失函数需注意权重与量级。

◦ 正则化:dropout控制过拟合,L2权重衰减也属正则化。

5. 其他补充:复杂项目参考可跑通源码;调参监控tensorboard;调参提升有限,优先数据与特征工程;当前内容基础,掌握可应对模型跑通与理解 。

@浙大疏锦行


原文地址:https://blog.csdn.net/m0_62568655/article/details/149143735

免责声明:本站文章内容转载自网络资源,如侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!