绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
非结构化数据怎么盘点?
2022-08-15 16:29:40

编 辑:彭文华

来 源:大数据架构师
也是很奇怪的事情,近几个彭友都不约而同地开始讨论非结构化数据治理的工作,难道是群体意识觉醒了?
大家知道,企业在刚开始做数据治理的时候,常规套路是起一个咨询项目,对现有的情况进行摸底,对已知问题提出解决思路,对未来进行规划。
在遇到结构化数据的时候,这个套路老彭已经很轻车熟路了,但是非结构化数据还真的不太熟悉。
之前做过,但都是“顺手为之”的建设逻辑,真正以非结构化数据为主,经验还有些匮乏。
幸好,老彭彭友圈足够大,非结构化数据治理的大佬也不少。一番请教和讨论下来,也有了一些成果,分享给各位彭友,仅供参考和学习。
如果您这边有更好的内容,还请推荐给老彭,不胜感激!

非结构化数据
一句话简单解释:数据分为结构化数据、半结构化数据和非结构化数据。结构化数据就是能按照数据模型表示的结构存储的数据,具体表现就是数据库中的表、字段、值。
非结构化数据就是无法提炼成数据模型,以结构化存储的数据,具体表现就是各种文档、视频、音频。
半结构化数据就是其中部分信息可以进行结构化存储,部分信息只能“揉成一团”放进开放性的字段里存储的数据,具体表现就是各种日志。
其实在企业中,结构化数据的占比很少,半结构化和非结构化数据的占比会更多。之前看过一份文件里有一个测算结果,结构化数据只占不到20%。

非结构化数据管理
现在我们叫“非结构化数据”,其实之前早就有,叫“档案数据”。对应的组织叫做“档案馆”。
档案馆初的工作就是进行各类纸质文档、影像资料的管理。具体工作就是进行档案分类、编目、档案管理等工作。

之后档案馆升级,变成“电子档案馆”,对应的工作也就变成了把纸质文件电子化、电子文档智能化、文档内容知识化等工作。
核心工作流程不变,依然是各类档案的分类、编目、管理工作。只不过从原来纸质的文档/录像带变成电子文档/视频文件,由粗笨的档案柜,升级为知识管理系统/文档管理系统。
档案管理工作一般分为两部分:
1、档案管理,包括档案收集、档案分类、档案整理、档案鉴定、档案保管、档案编目等工作。
2、档案利用,包括档案检索、档案统计、档案信息开发、档案编辑和研究(比如档案文献编纂)、档案提供利用等工作。
换到非结构化数据管理,其实都是一样一样的。把“档案”换成“非结构化数据”就行了。
非结构化数据分类
跟结构化数据盘点一样,非结构化数据盘点也是需要分类进行的。否则胡子眉毛一把抓,压根就不知道谁是爹谁是妈。
我们通常会分为文档、视频、音频、图片等类型,但是更具体的分类还得跟业务场景挂钩,比如:
这么分是不是就具体多了?跟业务结合更紧密了?
当然,也有更具体的,比如这个:
这是中石油档案资源分类体系(2020版)的非结构化数据分类标准,是不是就更清晰了?
与结构化数据分类一样,非结构化数据也可以是多分类的。但是一般梳理的时候会按某一个固定分类进行盘点,然后再按业务需要进行多分类。否则就乱套了。
非结构化数据盘点
非结构化数据都散落在各个文件系统中,甚至是以原始物理文件存储的,盘点的时候就不能像结构化数据一样,直接连接数据库读元数据进行盘点。
那怎么进行呢?
首先,盘点肯定还是围绕元数据进行的。既然不能用系统,就只能人工了。
大致流程是这样的:
1、梳理业务流程;
2、整理业务输入;
3、整理业务输出(非结构化数据就出来了 )
4、整理非结构化数据元数据,并形成标准;
5、补充业务信息(包括编码、业务分类、业务含义、摘要、标签等);
6、编制成册
终的成果就是类似这样的一套表格,包括文档名称、编号、业务所需各类信息。
以上就是今天分享的内容,如果你有进一步的信息和方案,还请多多跟老彭交流,谢谢你了!

更多精彩:
    非结构化数据怎么治理?
    数据湖Hudi核心概念与架构设计总结
    CRM数据质量怎么控?全球500强的经验分享给你!
    怎么做好大数据安全访问管控?
    【66页PPT】部委、集团级数据治理项目经验分享
    快⼿数据质量保障体系及在直播场景的实践
    如何打造数据治理闭环?以金融行业为例
    数字化转型需要重新定义数据治理的角色


排版 | 老彭
审校 | 老彭  主编 | 老彭


分享好友

分享这个小栈给你的朋友们,一起进步吧。

架构相关随记
创建时间:2019-07-23 11:34:34
收集并记录一些架构相关的技术点。
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

栈主、嘉宾

查看更多
  • abc
    栈主

小栈成员

查看更多
  • gaokeke123
  • 栈栈
  • rikinglj
  • daxuesheng
戳我,来吐槽~