R语言高效数据操作：tidyfst v0.7.7强势出击

2020-03-05 11:11:28

作者：黄天元，复旦大学博士在读，热爱数据科学与开源工具（R），致力于利用数据科学迅速积累行业经验优势和科学知识发现，涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等，著有《R语言数据高效处理指南》（《R语言数据高效处理指南》(黄天元)【摘要书评试读】- 京东图书，《R语言数据高效处理指南》(黄天元)【简介_书评_在线阅读】 - 当当图书）。知乎专栏：R语言数据挖掘。邮箱：huang.tian-yuan@qq.com.欢迎合作交流。

之前的文章（HopeR：R语言高效数据框操作：tidyfst）中介绍了新的数据操作包tidyfst，目前已经升级到0.7.7版本。这个版本的促成，是我尝试断奶tidyverse的结果。其实解构一下tidyverse，我们会发现它有很多好的东西，但是也有很多冗余。比如说purrr中的map函数，基本跟lapply没有太多的差别，至于map的衍生家族，其实仅仅是将lapply的返回结果进行一个安全的强制类型转换而已。SO就有人吐槽这也要做个包...确实很多tidyverse的包应该合成一个包，特别是dplyr和tidyr，其实整个scope还是很像的。

目前，我把现在都工作都用tidyfst来实现，就在原来的函数里面加“_dt”即可，然后做了一些调试和增补。重要的是，新版本的分组操作已经优化过，因此速度已经加快。这次的版本更新加了很多函数，部分特性在其他的基础上都进行了优化，还加了一个关键特性是直接在tidyfst中使用data.table（详见Example 6: Dt）。后，上新链接：

https://hope-data-science.github.io/tidyfst/index.htmlhope-data-science.github.io

以前我就有感觉，data.table的速度就是，前面等一下，你以为要等好久，结果后来数据突然就蹦出来了，非常神奇。现在越来越能够理解，其实data.table可能是把R的命令后转为底层的C，转化的过程可能会需要一些时间。而tidyfst为了做API，某一些比较复杂的操作也会可能存着这种“先苦后甜”的延迟。但是这对于大数据的处理来说，几乎是微不足道的（无论如何你都要等更长的时间）。目前这个API已经日趋完善，下一次更新，应该是与data.table同步了，等data.table的1.12.9版本上线，我们再融合其新的特性进行调整。

分享好友

分享这个小栈给你的朋友们，一起进步吧。

R语言

创建时间：2020-06-15 11:46:51

R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的工具。

展开

订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅：虚拟交易，一经交易不退款；若特殊情况，可3日内客服咨询

• 专区发布评论属默认订阅所评论专区（除付费小栈外）

技术专家

查看更多

小雨滴
专家