作者:黄天元,复旦大学博士在读,热爱数据科学与开源工具(R),致力于利用数据科学迅速积累行业经验优势和科学知识发现,涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等,著有《R语言高效数据处理指南》(《R语言数据高效处理指南》(黄天元)【摘要 书评 试读】- 京东图书)。知乎专栏:R语言数据挖掘。邮箱:huang.tian-yuan@qq.com.欢迎合作交流。
之前立flag将来要写关于机器学习的题材,因为机器学习是一个学问很深而又比较硬核的技术,既可以用于理解机制,又可以直接进行预测。以前虽然有些基础,但是要形成训练有素的系统来思考和解决问题,还是要多学多练。所以准备开一个系列,利用mlr包来过一遍机器学习的基本套路。
为什么要用mlr包?因为它是一个成熟的包,熟透了的包。CRAN版本号是2.17.1,基本不会做大修改,更新的内容都会去到mlr3。看似明日黄花,但是其实非常适合用来对机器学习的基本套路进行了解,而且不太更新说明不会有太多变化,反而有利于未来的可重复性。正如脱口秀演员会过段子一样,程序员就应该过代码,因此在这个系列中我们会对mlr包官方文档的代码进行运行,并尝试理解每一步的道理所在,巩固和学习预测分析学的基本套路和延伸。
用到的主要材料为:
https://mlr.mlr-org.com/index.htmlhttps://cran.r-project.org/web/packages/mlr/index.html让我们利用成熟稳重的mlr来学习和巩固对机器学习的认知,然后再去过渡到新的mlr3。难的从来不是copy几行代码完成一个任务,而是在代码背后的为什么这么做,以及在代码之上的什么时候这么用。