分享好友

×
取消 复制
php处理大数据
2019-05-16 16:02:16

一天大概有6亿条数据,有好几个压缩包,现在要解压这几个压缩包,解压之后每个文件大概有2千万条数据,怎么快速读取出来这些数据,在存进数据表?

☀️ :如果文件在HDFS上,可以直接创建hive表指定Location路径即可。 如果要插入已存在的Hive表,可以通过load data [local] inpath来插入, local表示本地,如果不写表示HDFS 如果要插入到其他的数据库中,比如mysql , 有类似load data的方法,或是编写MR来实现
2019-05-16 16:03:43
0
分享好友

分享这个小栈给你的朋友们,一起进步吧。

数据治理
创建时间:2020-06-15 14:35:35
数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

技术专家

查看更多
  • 栈栈
    专家
戳我,来吐槽~