绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
非结构化数据怎么治理?
2022-07-04 16:16:04


编 辑:彭文华

来 源:大数据架构师
彭友们好,我是老彭。近遇到几个项目,都跟非结构化数据脱不开关系。
老彭刚毕业的时候,做的是数据库的活儿,那都是结构化数据。后来有了hadoop技术,可以用来处理物联网、互联网的半结构化数据。
真正做非结构化的场景还是比较少的,大多是在项目中选取一两个点给意思意思一下。
但是现在已经发展这么多年了,大多数企业结构化数据多少有些基础了,非结构化数据治理还是一片空白。今天就唠唠这个话题~~
非结构化数据
这里说的非结构化数据特指:
1、公文、研究报告等各种文档
2、监控视频等各种音视频
3、设计图等各种特殊文件

这些东西想想就很费劲。与数据库里的结构化数据不一样,这些数据的问题更严重。我们随便想想都能罗列几个出来:
1、没有统一存储(各种附件,各种微信传输)
2、没有统一标准(都是各自写的文件)
3、数据种类特别多(除了结构化的,都是非结构化、半结构化的)
4、法外之地,治理盲区(次知道处理非结构化数据的方法是TF/IDF词频统计,次知道非结构化应用是词云)
5、没人管,不知道怎么管(有档案管理室、档案管理员的企业非常非常少)
如果你原意,自己都还能再列个十条八条的。总之,这就是个巨坑!
非结构化数据治理
其实按我说,绝大多数企业的非结构化数据还远远没有具备“治理”的前期条件
因为他们连数据都还没准备好,全都散落在各个地方,你就说怎么治?
对于结构化数据,我们知道要盘点,要做标准,要弄主数据,要梳理指标,要做质量控制。因为我们知道数据就在那几个库里。
不管数据库有多少个,表有多少张,我们知道,数据就在那里。但是非结构化数据不一样啊!鬼知道在哪里!
有档案管理室、知识中心的公司,还算好的,不管全不全,总归有个集中的地方。
但是更多的,都是各自存储:OA、邮箱、云盘、个人存储,到处都是!没法弄!
所以,想要做非结构化数据治理,步是什么?数据盘点吗?数据汇聚吗?
NONONONONO!
首先要做的,是对企业的非结构化数据的分布进行梳理,知道哪些是我们治理的重心才行!

你就说,这么多各种非结构化数据,哪些多,哪些少?哪些重要,哪些次要?哪些先治理?哪些后治理?哪些对业务影响大?哪些对业务影响小?哪些价值大?哪些价值小?
这些问题都不搞清楚,就闷头干活,谁知道你干了半天是不是有效的?
你可能会问了,那搞清楚了这些,是不是就该汇聚数据了?
NONONONONO!
还是不行。还是那句话,你得有一个牵引才行。一般来说,好是应用牵引比较好。跟数仓建设逻辑一样,自下而上建设见效快。
个项目,必须速胜!给所有人信心才行。否则遥遥无期,谁都受不了。
所以第二步应该是根据业务,拟定一个合适的应用,然后再快速收集部分数据,用NLP等技术将非结构化数据结构化,然后再利用数据库、大数据、图计算等技术处理数据,做出一两个能看到效果的应用。
比如这个:

在报销场景中,用OCR识别,用RPA进行发票验真、数据校对,实现快速报销、记账。
这样就能帮助哥们解放报销的时间了:

小结
非结构化数据管理很难,非常难,不管是技术还是管理,都比结构化数据难上N个量级。工作的方式方法也完全不一样,需要慎重!一定要慎重啊!!!



分享好友

分享这个小栈给你的朋友们,一起进步吧。

数据治理
创建时间:2020-06-15 14:35:35
数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

技术专家

查看更多
  • 栈栈
    专家
戳我,来吐槽~