Python的卓越灵活性和易用性使其成为受欢迎的编程语言之一,尤其是对于数据科学家而言。这在很大程度上是因为处理大型数据集比较简单。
在现如今竞争激烈的情况下,基本上每家技术公司都在制定数据战略。它们都意识到了拥有正确的数据会尽可能多带给他们关键的竞争优势。如果有效使用数据,可以提供深层次的,在其他任何地方都无法发现的洞察力。
多年来,您可以存储数据的可能格式列表已显著增长。但是,有3种在日常使用中占主导地位:CSV、JSON和XML。在本文中,我将与您分享在Python中使用这三种流行数据格式的简单方法!
CSV数据
CSV文件是存储数据的常用方法。您会发现来自Kaggle比赛的大部分数据都是以这种方式存储的。我们可以使用内置的Python csv库来读取和写入CSV。通常,我们会将数据读入一个列表。
看看下面的代码。当我们运行csv.reader()时,我们所有的CSV数据都可以访问。 函数的作用是:从CSV中读取一行;每次调用它,它都会移动到下一行。我们也可以使用for循环遍历csv的每一行,就像使用csvreader中的for一样。确保每行中的列数相同,否则,在处理列表时,终可能会遇到一些错误。
在Python中写入CSV同样容易。在单个列表中设置字段名称,并在列表中设置数据。这次我们将创建一个writer()对象,并使用它将我们的数据写入文件,与我们阅读的方式非常相似。
当然,一旦您将数据读入变量,安装panda库将使处理数据变得容易得多。从CSV读取和写入文件都是一行代码!
我们甚至可以使用Pandas将CSV转换为快速单行的字典列表。将数据格式化为字典列表后,我们将使用dicttoxml库将其转换为XML格式。我们还将其保存为JSON文件!
JSON数据
JSON提供了一种干净且易于阅读的格式,因为它维护了字典风格的结构。就像CSV一样,Python有一个内置的JSON模块,使阅读和写作变得非常简单!当我们读取CSV时,它将成为字典。然后我们将该字典写入文件。
正如我们之前看到的,一旦我们获得了数据,您就可以通过pandas轻松转换为CSV或使用内置的Python CSV模块。转换为XML时,dicttoxml库始终是我们的朋友。
XML数据
XML与CSV和JSON有点不同。通常,CSV和JSON由于其简单性而被广泛使用。它们既简单又快速,可以为人类进行阅读、编写和解释,没有额外的工作,且解析JSON或CSV非常轻量级。
另一方面,XML往往有点重。您正在发送更多数据,这意味着您需要更多带宽、更多存储空间和更多运行时间。但是XML确实提供了一些基于JSON和CSV的额外特性:您可以使用命名空间来构建和共享标准结构,更好地表示继承,以及使用XML模式、DTD等表示数据的行业标准化方法。
要读入XML数据,我们将使用Python的内置XML模块和子模块ElementTree。从那里,我们可以使用xmltodictlibrary将ElementTree对象转换为字典。一旦我们有了字典,我们就可以像上面看到的那样转换为CSV、JSON或Pandas Dataframe!