绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
tidyfst的benchmark来了
2020-07-11 16:22:35

作者:黄天元,复旦大学博士在读,热爱数据科学与开源工具(R),致力于利用数据科学迅速积累行业经验优势和科学知识发现,涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等,著有《R语言高效数据处理指南》(《R语言数据高效处理指南》(黄天元)【摘要 书评 试读】- 京东图书)。知乎专栏:R语言数据挖掘邮箱:huang.tian-yuan@qq.com.欢迎合作交流。

关于之前写的包tidyfst(cran.r-project.org/web/Tidy Verbs for Fast Data Manipulation),已经做了新一轮的优化,不出意外会在7月份或者8月份放出新的版本。这次投稿Journal of Open Source Software,提了很多好的建议,让走向成熟的tidyfst更上一层楼。这次意见中,就有要做benchmark这一条,于是我参考data.table的来提供了tidyfst的性能测试,参考链接如下:

https://hope-data-science.github.io/tidyfst/articles/benchmark.htmlhope-data-science.github.io

结论是,在分组计算上tidyfst的速度基本跟data.table持平,会花一点时间作为tidy语句到data.table语句的翻译,但是这点时间微不足道。

慢慢地,我认为我从绝对的dplyr用户走向了data.table的深度用户。对于大部分一般用户而言,tidyverse已经非常香。但是随着需要处理的数据量增大,对于data.table的需求非常迫切,而tidyfst则是连接两者的桥梁。它能帮助tidyverse的用户慢慢过渡到data.table来,也有助于模块化很多复杂的data.table代码,把一些常用的数据操作封装成了函数。对于部分难写难读的data.table操作,用tidyfst来写再好不过。这不仅仅是性能超越dplyr这么简单,其实在语法结构上也慢慢走向更加简洁。tidyfst将不会纳入dplyr 1.0.0的across函数,而是推荐使用_vars族函数,来做多列更新与汇总。如果使用的用户就会发现,这个代码要比dplyr还要简洁。希望tidyfst能够为大家的工作带来更多的便利。

分享好友

分享这个小栈给你的朋友们,一起进步吧。

R语言
创建时间:2020-06-15 11:46:51
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

技术专家

查看更多
  • 小雨滴
    专家
戳我,来吐槽~