Member-only story

如何用 Pandas 存取和交换数据？

14 min readJun 20, 2022

本文为你介绍 Pandas 存取数据的 3 种主要格式，以及使用中的注意事项。

题图：Photo by Stephen Dawson on Unsplash

在数据分析的过程里，你已经体会到 Python 生态系统的强大了吧？

数据采集、整理、可视化、统计分析…… 一直到深度学习，都有相应的 Python 包支持。

但是你会发现，没有任何一个 Python 软件包，是全能的。

这是一种非常好的设计思维 — — 用优秀的工具，做专业的事儿；用许多优秀工具组成的系统，来有条不紊地处理复杂问题。

所以，在这个过程中，你大概率会经常遇到数据的交换问题。

有时候，是把分析结果存起来，下次读取回来继续使用。

更重要的时候，是把一个工具的分析结果导出，导入到另一个工具包中。

这些数据存取的功能，几乎分布在每一个 Python 数据科学软件包之内。

但是，其中有一个最重要的枢纽，那就是 Pandas 。

我不止一次跟你提起过，学好 Pandas 的重要性。

很多情况下，看似复杂的数据整理与可视化，Pandas 只需要一行语句就能搞定。

回顾我们的教程里，也曾使用过各种不同的格式读取数据到 Pandas 进行处理。

然而，当你需要自己独立面对软件包的格式要求时，也许仅仅是因为不了解如何正确生成或读取某种格式，结果导致出错，甚至会使你丧失探索的信心与兴趣。

这篇教程里，我以咱们介绍过多次的情感分类数据作为例子，用最小化的数据集，详细为你介绍若干种常见的存取数据格式。

有了这些知识与技能储备，你就可以应对大多数同类数据分析问题的场景了。

为了方便你完整重现我教程中的代码，我使用 Google Colab 撰写和运行，并且存储副本到了 Github 里面。