绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
Hbase迎接电信TB级大数据洗礼之热点网站功能实践
2020-05-18 17:58:34
在今年年初的时候联通王志军院长就Hadoop在电信行业的大数据应用谈了自己的经验,随着3G网络的发展中国联通目前运营着世界上大的CDMA网络,流量运营是中国联通一个重要特点。中国联通3G套餐当中流量占比非常非常大,中国联通3G用户流量使用情况也是非常可观的。那么在3G网络功能中上网冲浪占了很大的比例,去研究用户感兴趣的热点网站成为了行为分析中很有特点的一项功能,联通就可以根据这些网站信息推出增值服务,古人云:大浪淘沙始到金啊!
 
Hbase作为分布式的数据库集群是如何迎接大数据的洗礼呢!,我们之前使用的是Oracle数据库作为存储数据的基石,但当数据量迅猛上涨后许多的瓶颈马上就会呈现出来,大量的数据统计、分组、排序、过滤的操作对Oracle数据库性能真是一个不小的挑战,由于数据不能分布处理,数据的查询速度可想而知。现在我们使用了Hbase数据库就可以很好的解决上述的一系列问题。下面对如何实践设计“热点网站”功能给出了我的一些设想。
 
表设计:手机上网表 tel-net table 简称 t-n 表
 

 ROW Key                       COLUMN+CELL

 18977777777                    column=msisdn:*#06#,     timestamp=1351560318018, value=100                                           
 18977777777                    column=msisdn:cellphone,timestamp=1351563680951, value=iphone-5                             
 18977777777                    column=sites:http,       timestamp=1351560423739, value=www.dataguru.cn    登陆网站
 18977777777                    column=sites:name,       timestamp=1351560476264, value=lianshuchengjin                               
 18977777777                    column=user:age,         timestamp=1351560350911, value=28                                            
 18977777777                    column=user:name,        timestamp=1351560335833, value=leonarding  

 18866662222                    column=msisdn:*#06#,     timestamp=1351560560622, value=101                                           
 18866662222                    column=msisdn:cellphone, timestamp=1351560540173, value=iphone-4
 18866662222                    column=sites:http,       timestamp=1351560630783, value=www.dataguru.cn    登陆网站
 18866662222                    column=sites:name,       timestamp=1351560664387, value=lianshuchengjin
 18866662222                    column=user:age,         timestamp=1351560606783, value=26
 18866662222                    column=user:name,        timestamp=1351560585193, value=sunev_yu

 15911112222                    column=msisdn:*#06#,     timestamp=1351560873212, value=102
 15911112222                    column=msisdn:cellphone, timestamp=1351560851244, value=iphone-3
 15911112222                    column=sites:http,       timestamp=1351562148765, value=www.itpub.net     登陆网站
 15911112222                    column=sites:name,       timestamp=1351562171874, value=itpub
 15911112222                    column=user:age,         timestamp=1351562118827, value=100
 15911112222                    column=user:name,        timestamp=1351562102858, value=tigerfish

步:在一定时间范围内找到所有手机经常上网的网址。
第二步:在map-reduce程序中进行统计和排名(由于手机号就是随机型的因此可以均衡的打散到各个节点执行)。
第三步:汇总结果后,把排名前20的热点网站输出,运营商就可以找到这些热点网站进行合作推出更符合用户倾向的套餐,大把大把的敛money。
后续还可以开发:用户倾向性分析、TOPn大流量排名分析、用户行为分析等等诸如此类的功能。
欢迎大家一起积极讨论,共创Hbase美好未来
分享好友

分享这个小栈给你的朋友们,一起进步吧。

Hbase资料库
创建时间:2020-05-08 14:42:11
Hbase资料库一站式查询。
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

技术专家

查看更多
  • 小雨滴
    专家
  • Leila
    专家
  • 飘絮絮絮丶
    专家
戳我,来吐槽~