Member-only story
如何用 Python 读取开放数据?
当你开始接触丰富多彩的开放数据集时,CSV、JSON 和 XML 等格式名词就会奔涌而来。如何用 Python 高效地读取它们,为后续的整理和分析做准备呢?本文为你一步步展示过程,你自己也可以动手实践。
需求
人工智能的算法再精妙,离开数据也是 “巧妇难为无米之炊”。
数据是宝贵的,开放数据尤其珍贵。无论是公众号、微博还是朋友圈里,许多人一听见 “开放数据”、“数据资源”、“数据链接” 这些关键词就兴奋不已。
好不容易拿到了梦寐以求的数据链接,你会发现下载下来的这些数据,可能有各种稀奇古怪的格式。
最常见的,是以下几种:
- CSV
- XML
- JSON
你希望自己能调用 Python 来清理和分析它们,从而完成自己的 “数据炼金术”。
第一步,你先得学会如何用 Python 读取这些开放数据格式。
这篇文章,咱们就用实际的开放数据样例,分别为你介绍如何把 CSV、XML 和 JSON 这三种常见的网络开放数据格式读取到 Python 中,形成结构化数据框,方便你的后续分析操作。
是不是跃跃欲试了?
数据
我们选择的开放数据平台,是 Quandl。
Quandl是一个金融和经济数据平台。其中既包括价格不菲的收费数据,也有不少免费开放数据。
你需要在 Quandl 免费注册一个账户,这样才可以正常访问其免费数据集合。