绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
数据清洗工具OpenRefine
2019-12-04 16:32:03

数据清洗工具OpenRefine

数据经常被称为一座金矿,尤其是在当今数据驱动的经济环境下更是如此。

怎样把数据集在OpenRefine中进行转换,优化数据的质量以便于在真实场景下重用它们。

一、介绍OpenRefine

我们来看一个残酷的现实:你的数据是杂乱无章的。错误会散步到你的大数据集中,无论你有多么细心,错误总是存在。数据量越大,错误越多。

正确且清晰地认识以上的现状,是我们开始使用OpenRefine的前提。于是有了数据质量的说法。

下面先熟悉三个基础概念。

数据剖析Data Profiling:也叫做数据考古(Data Archeology),是数据集(Data Set)内部为达一致性、单值性和逻辑性而进行的数值质量的统计分析及评估。数据剖析是Olson于2003年提出的概念,使用分析技术来发现正确的、结构化的、有内容、有质量的数据。换句话说,它是评估你的数据和信息的当前状态以及包含了多少错误的方法。

数据清洗Data Cleaning:是尝试通过移除空的数据行或重复的数据行、过滤数据行、聚集或转换数据值、分开多值单元等,以半自动化的方式修复错误数据的过程。数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般要求客户确认。

IDTs:Interactive Data Transformation tools,交互数据转换工具,它可以对大数据进行快速、廉价的操作,使用单个的集成接口。

OpenRefine就是这样的IDT工具,可以观察和操纵数据的工具。它类似于传统Excel的表格处理软件,但是工作方式更像是数据库,以列和字段的方式工作,而不是以单元格的方式工作。这意味着OpenRefine不仅适合对新的行数据进行编码,而且功能还极为强大。

二、安装OpenRefine

要学习OpenRefine,首先需要下载新版本的OpenRefine。

下载地址:http://openrefine.org/

OpenRefine早是众所周知的Freebase Gridworks,随后又变成Google Refine,几年后又被社区接管,在2012年10月变成了彻底开源的OpenRefine。

OpenRefine 2.6版是它改名为OpenRefine的个发行版本。

如果你对OpenRefine的开发版感兴趣,可以访问:https://github.com/OpenRefine.OpenRefine

OpenRefine基于Java环境,因此是跨平台的。

OpenRefine 2.6版目前还处于Beta1版,也是所谓的开发版,不适合在生产环境中使用。如果要选择稳定版,那么还是该下载Google Refine 2.5版。

1、OpenRefine在Windows的安装

1)下载ZIP包,地址:https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.zip ;

2)解压到某个目录;

3)要运行OpenRefine,双击openrefine.exe文件。


2、OpenRefine在Mac的安装

1)下载DMG文件:https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.dmg ;

2)打开磁盘镜像,拖动OpenRefine的图标到Applications目录;

3)双击图标以启动OpenRefine。

3、OpenRefine在Linux的安装

1)下载gzipped包:https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.tar.gz ;

2)解压到当前用户的home目录;

3)在终端命令行环境,键入./refine以启动OpenRefine。


分享好友

分享这个小栈给你的朋友们,一起进步吧。

夜行灯-数字化转型
创建时间:2019-12-04 16:30:15
如果建立《星说》是为了帮助各路豪杰打开数字化思维,运用创始的精神面对本地化业务的转型,那么下一个技术栈,《夜行灯-数字化转型》 希望倡导的,非同行的同路人,留在路上的闪光灯,为后人照明! 我们来看看技术管理的前辈在,数字化企业这条路上,遇到的问题与探索。
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

栈主、嘉宾

查看更多
  • unnamed persona
    栈主

小栈成员

查看更多
  • unnamed person1
  • ?
  • llittle
  • unnamed personq
戳我,来吐槽~