Member-only story

如何用 Pandas 存取和交换数据?

Shuyi Wang
14 min readJun 20, 2022

--

本文为你介绍 Pandas 存取数据的 3 种主要格式,以及使用中的注意事项。

题图:Photo by Stephen Dawson on Unsplash

问题

在数据分析的过程里,你已经体会到 Python 生态系统的强大了吧?

数据采集、整理、可视化、统计分析…… 一直到深度学习,都有相应的 Python 包支持。

但是你会发现,没有任何一个 Python 软件包,是全能的。

这是一种非常好的设计思维 — — 用优秀的工具,做专业的事儿;用许多优秀工具组成的系统,来有条不紊地处理复杂问题

所以,在这个过程中,你大概率会经常遇到数据的交换问题。

有时候,是把分析结果存起来,下次读取回来继续使用。

更重要的时候,是把一个工具的分析结果导出,导入到另一个工具包中。

这些数据存取的功能,几乎分布在每一个 Python 数据科学软件包之内。

但是,其中有一个最重要的枢纽,那就是 Pandas 。

我不止一次跟你提起过,学好 Pandas 的重要性

很多情况下,看似复杂的数据整理与可视化,Pandas 只需要一行语句就能搞定。

回顾我们的教程里,也曾使用过各种不同的格式读取数据到 Pandas 进行处理。

然而,当你需要自己独立面对软件包的格式要求时,也许仅仅是因为不了解如何正确生成或读取某种格式,结果导致出错,甚至会使你丧失探索的信心与兴趣。

这篇教程里,我以咱们介绍过多次的情感分类数据作为例子,用最小化的数据集,详细为你介绍若干种常见的存取数据格式。

有了这些知识与技能储备,你就可以应对大多数同类数据分析问题的场景了。

环境

为了方便你完整重现我教程中的代码,我使用 Google Colab 撰写和运行,并且存储副本到了 Github 里面。

--

--

Shuyi Wang
Shuyi Wang

Written by Shuyi Wang

PhD in Information Science. Associate Professor at Tianjin Normal University. Former Adjunct Faculty at UNT. First Prize Winner of HackNTX 2018.

No responses yet