Member-only story

如何用 Python 读取开放数据?

Shuyi Wang
17 min readSep 26, 2021

--

当你开始接触丰富多彩的开放数据集时,CSV、JSON 和 XML 等格式名词就会奔涌而来。如何用 Python 高效地读取它们,为后续的整理和分析做准备呢?本文为你一步步展示过程,你自己也可以动手实践。

Photo by Markus Spiske on Unsplash

需求

人工智能的算法再精妙,离开数据也是 “巧妇难为无米之炊”。

数据是宝贵的,开放数据尤其珍贵。无论是公众号、微博还是朋友圈里,许多人一听见 “开放数据”、“数据资源”、“数据链接” 这些关键词就兴奋不已。

好不容易拿到了梦寐以求的数据链接,你会发现下载下来的这些数据,可能有各种稀奇古怪的格式。

最常见的,是以下几种:

  • CSV
  • XML
  • JSON

你希望自己能调用 Python 来清理和分析它们,从而完成自己的 “数据炼金术”。

第一步,你先得学会如何用 Python 读取这些开放数据格式。

这篇文章,咱们就用实际的开放数据样例,分别为你介绍如何把 CSV、XML 和 JSON 这三种常见的网络开放数据格式读取到 Python 中,形成结构化数据框,方便你的后续分析操作。

是不是跃跃欲试了?

数据

我们选择的开放数据平台,是 Quandl。

Quandl是一个金融和经济数据平台。其中既包括价格不菲的收费数据,也有不少免费开放数据

你需要在 Quandl 免费注册一个账户,这样才可以正常访问其免费数据集合。

--

--

Shuyi Wang
Shuyi Wang

Written by Shuyi Wang

PhD in Information Science. Associate Professor at Tianjin Normal University. Former Adjunct Faculty at UNT. First Prize Winner of HackNTX 2018.

No responses yet