随机森林——机器学习中强大算法和应用工具

2015-09-26 Ahmed El Deeb MedSci原创

对于机器学习从业者而言,有自己最喜欢的算法是很常见的。可能这有点不太合乎常理,因为没有一个算法能够完全地主导所有的应用,而且机器学习算法的性能很大程度上依赖于应用程序和数据集的维度。甚至对于一个给定的问题和数据集,由不同算法训练而得到的一个组合模型往往会优于单个模型。尽管如此,人们还是有自己最喜欢的算法。有些人喜欢SVM,因为它们有着优美的公式或者是可直接使用的高质量算法实现;也有些人喜欢决策规则

对于机器学习从业者而言,有自己最喜欢的算法是很常见的。可能这有点不太合乎常理,因为没有一个算法能够完全地主导所有的应用,而且机器学习算法的性能很大程度上依赖于应用程序和数据集的维度。甚至对于一个给定的问题和数据集,由不同算法训练而得到的一个组合模型往往会优于单个模型。尽管如此,人们还是有自己最喜欢的算法。有些人喜欢SVM,因为它们有着优美的公式或者是可直接使用的高质量算法实现;也有些人喜欢决策规则,因为它们的简单性和可解释性;还有些人则因为神经网络的灵活性而痴迷于它。 我所喜欢的算法就是Random Forest(随机森林),而且它属于第二种常用的建模技术(首选项是线性模型),我通常会在所有给定的数据集上都尝试一下。 1. 随机森林使用背景 1.1 随机森林定义 随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络,有半个多世纪的历史了。神经网络预测精确,但是计算量很大。上世纪八十年代Breiman等人发明分类树的算法(Breiman et al. 1984),通过反复二分数据进行分类或回归,计算量大大降低。2001年Breiman把分类树组合成随机森林

评论区 (2)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=1952963, encodeId=f97b19529633d, content=<a href='/topic/show?id=ce0f98459eb' target=_blank style='color:#2F92EE;'>#随机森林#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=68, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=98459, encryptionId=ce0f98459eb, topicName=随机森林)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=2c25323, createdName=jambiya, createdTime=Wed Dec 02 07:54:00 CST 2015, time=2015-12-02, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=1582922, encodeId=8f2b1582922aa, content=<a href='/topic/show?id=f6e1611840d' target=_blank style='color:#2F92EE;'>#机器#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=76, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=61184, encryptionId=f6e1611840d, topicName=机器)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=13dc16973127, createdName=ms6279672939590805, createdTime=Mon Sep 28 00:54:00 CST 2015, time=2015-09-28, status=1, ipAttribution=)]
  2. [GetPortalCommentsPageByObjectIdResponse(id=1952963, encodeId=f97b19529633d, content=<a href='/topic/show?id=ce0f98459eb' target=_blank style='color:#2F92EE;'>#随机森林#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=68, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=98459, encryptionId=ce0f98459eb, topicName=随机森林)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=2c25323, createdName=jambiya, createdTime=Wed Dec 02 07:54:00 CST 2015, time=2015-12-02, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=1582922, encodeId=8f2b1582922aa, content=<a href='/topic/show?id=f6e1611840d' target=_blank style='color:#2F92EE;'>#机器#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=76, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=61184, encryptionId=f6e1611840d, topicName=机器)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=13dc16973127, createdName=ms6279672939590805, createdTime=Mon Sep 28 00:54:00 CST 2015, time=2015-09-28, status=1, ipAttribution=)]