Member-only story
如何用 Pandas 存取和交换数据?
本文为你介绍 Pandas 存取数据的 3 种主要格式,以及使用中的注意事项。
题图:Photo by Stephen Dawson on Unsplash
问题
在数据分析的过程里,你已经体会到 Python 生态系统的强大了吧?
数据采集、整理、可视化、统计分析…… 一直到深度学习,都有相应的 Python 包支持。
但是你会发现,没有任何一个 Python 软件包,是全能的。
这是一种非常好的设计思维 — — 用优秀的工具,做专业的事儿;用许多优秀工具组成的系统,来有条不紊地处理复杂问题。
所以,在这个过程中,你大概率会经常遇到数据的交换问题。
有时候,是把分析结果存起来,下次读取回来继续使用。
更重要的时候,是把一个工具的分析结果导出,导入到另一个工具包中。
这些数据存取的功能,几乎分布在每一个 Python 数据科学软件包之内。
但是,其中有一个最重要的枢纽,那就是 Pandas 。
我不止一次跟你提起过,学好 Pandas 的重要性。
很多情况下,看似复杂的数据整理与可视化,Pandas 只需要一行语句就能搞定。
回顾我们的教程里,也曾使用过各种不同的格式读取数据到 Pandas 进行处理。
然而,当你需要自己独立面对软件包的格式要求时,也许仅仅是因为不了解如何正确生成或读取某种格式,结果导致出错,甚至会使你丧失探索的信心与兴趣。
这篇教程里,我以咱们介绍过多次的情感分类数据作为例子,用最小化的数据集,详细为你介绍若干种常见的存取数据格式。
有了这些知识与技能储备,你就可以应对大多数同类数据分析问题的场景了。
环境
为了方便你完整重现我教程中的代码,我使用 Google Colab 撰写和运行,并且存储副本到了 Github 里面。