1.转载自:http://blog.csdn.net/lsldd/article/details/41251583
2.做回归分析,常用的误差主要有均方误差根(RMSE)和R-平方(R2)。
3.RMSE是预测值与真实值的误差平方根的均值。这种度量方法很流行(Netflix机器学习比赛的评价方法),是一种定量的权衡方法。””’均方误差根”’defrmse(y_test,y):returnsp.sqrt(sp.mean((y_test-y)**2))
4.R2方法是将预测值跟只使用均值的情况下相比,看能好多少。其区间通常在(0,1)之间。0表示还不如什么都不预测,直接取均值的情况,而1表示所有预测跟真实结果完美匹配的情况。””’与均值相比的优秀程度,介于[0~1]。0表示不如均值。1表示完美预测.”’defR2(y_test,y_true):return1-((y_test-y_true)**2).sum()/((y_true-y_true.mean())**2).sum()
5.本例中使用一个2次函数加上随机的扰动来生成500个点,然后尝试1、2、100次方的多项式对该数据进行拟合。拟合的目的是使得根据训练数据能够拟合出一个多项式函数,这个函数能够很好的拟合现有数据,并且能对未知的数据进行预测,拟合结果如下:
6.1次项系数:[-0.161401830.99268453]rmse0.13,R20.82,R220.58,clf.score0.822次项系数:[0.00934527-0.035912451.03065829]rmse0.11,R20.88,R220.66,clf.score0.88100次项:rmse0.10,R20.89,R220.67,clf.score0.89
过拟合7.使用100次方多项式做拟合,效果确实是高了一些,然而该模型的据测能力却极其差劲,模型产生了过拟合。而且注意看多项式系数,出现了大量的大数值,甚至达到10的12次方。将500个样本中的最后2个从训练集中移除。然而在测试中却仍然测试所有500个样本,拟合结果如下:1次项系数:[-0.179335311.0052037]rmse0.12,R20.85,R220.61,clf.score0.852次项系数:[-0.016319350.019220110.99193521]rmse0.10,R20.90,R220.69,clf.score0.90100次项:rmse0.21,R20.57,R220.34,clf.score0.57仅仅只是缺少了最后2个训练样本,红线(100次方多项式拟合结果)的预测发生了剧烈的偏差,R2也急剧下降到0.57。
8.这说明高次多项式过度拟合了训练数据,包括其中大量的噪音,导致其完全丧失了对数据趋势的预测能力。前面也看到,100次多项式拟合出的系数数值无比巨大。人们自然想到通过在拟合过程中限制这些系数数值的大小来避免生成这种畸形的拟合函数。
9.其基本原理是将拟合多项式的所有系数绝对值之和(L1正则化)或者平方和(L2正则化)加入到惩罚模型中,并指定一个惩罚力度因子w,来避免产生这种畸形系数。
10.这样的思想应用在了岭(Ridge)回归(使用L2正则化)、Lasso法(使用L1正则化)、弹性网(Elasticnet,使用L1+L2正则化)等方法中,都能有效避免过拟合,下面使用L2正则化岭回归拟合结果:
回归评价指标均方误差根RMSE和R平方R2-怎么关掉王者荣耀小程序-王者荣耀小程序
浏览量:2079
时间:
来源:JasonZhangOO
版权声明
即速应用倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至197452366@qq.com ,我们将及时处理。本站文章仅作分享交流用途,作者观点不等同于即速应用观点。用户与作者的任何交易与本站无关,请知悉。

最新资讯
-
抖音再现本地生活服务,咫尺同城圈商业变现新通道
短视频成为本地生活探店网红营销变现引流的新阵地,每一位网红都渴望在短视频内“一夜爆红”。即速应用团队对多商家小程序进行升级,打造了咫尺同城圈:“同城探店营销助手”,不仅完善商家营销技巧,还助力探店网红玩转本地生活服务。 -
抖音再现本地生活服务,咫尺同城圈商业变现新通道
短视频成为本地生活探店网红营销变现引流的新阵地,每一位网红都渴望在短视频内“一夜爆红”。即速应用团队对多商家小程序进行升级,打造了咫尺同城圈:“同城探店营销助手”,不仅完善商家营销技巧,还助力探店网红玩转本地生活服务。 -
阿坝小程序代理
阿坝藏族羌族小程序代理公司有哪些?阿坝藏族羌族小程序代理平台哪个好?阿坝藏族羌族小程序代理商怎么收费,代理政策如何?下面就让即速应用产品经理jisuapp.cn来告诉你吧!