R语言机器学习笔记（一）：mlr总纲

2020-07-11 22:19:07

作者：黄天元，复旦大学博士在读，热爱数据科学与开源工具（R），致力于利用数据科学迅速积累行业经验优势和科学知识发现，涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等，著有《R语言高效数据处理指南》（《R语言数据高效处理指南》(黄天元)【摘要书评试读】- 京东图书）。知乎专栏：R语言数据挖掘。邮箱：huang.tian-yuan@qq.com.欢迎合作交流。

之前立flag将来要写关于机器学习的题材，因为机器学习是一个学问很深而又比较硬核的技术，既可以用于理解机制，又可以直接进行预测。以前虽然有些基础，但是要形成训练有素的系统来思考和解决问题，还是要多学多练。所以准备开一个系列，利用mlr包来过一遍机器学习的基本套路。

为什么要用mlr包？因为它是一个成熟的包，熟透了的包。CRAN版本号是2.17.1，基本不会做大修改，更新的内容都会去到mlr3。看似明日黄花，但是其实非常适合用来对机器学习的基本套路进行了解，而且不太更新说明不会有太多变化，反而有利于未来的可重复性。正如脱口秀演员会过段子一样，程序员就应该过代码，因此在这个系列中我们会对mlr包官方文档的代码进行运行，并尝试理解每一步的道理所在，巩固和学习预测分析学的基本套路和延伸。

用到的主要材料为：

https://mlr.mlr-org.com/index.htmlmlr.mlr-org.com

https://cran.r-project.org/web/packages/mlr/index.htmlcran.r-project.org

让我们利用成熟稳重的mlr来学习和巩固对机器学习的认知，然后再去过渡到新的mlr3。难的从来不是copy几行代码完成一个任务，而是在代码背后的为什么这么做，以及在代码之上的什么时候这么用。