使用pandas进行数据处理之 DataFrame篇-Python教程

资源魔 2020-10-09 22:49:08 48 0

相干学习保举：python教程

这是pandas数据解决专题的第二篇文章，咱们一同来聊聊pandas傍边最首要的数据构造——DataFrame。

上一篇文章傍边咱们引见了Series的用法，也提到了Series相称于一个一维的数组，只是pandas为咱们封装了许多不便好用的api。而DataFrame能够简略了了解成Series形成的dict，这样就将数据拼接成为了二维的表格。而且为咱们提供了许多表级别数据解决和批量数据解决的接口，年夜年夜升高了数据解决的难度。

创立DataFrame

DataFrame是一个表格型的数据构造，它领有两个索引，辨别是行索引和列索引，使患上咱们能够很不便地猎取对应的行和列。这就年夜年夜升高了咱们查找数据解决数据的难度。

起首，咱们先从最简略的开端，若何创立一个DataFrame。

从字典创立

咱们创立了一个dict，它的key是列名，value是一个list，当咱们将这个dict传入DataFrame的结构函数的时分，它将会以key作为列名，value作为对应的值为咱们创立一个DataFrame。

当咱们正在jupyter输入的时分，它会主动为咱们将DataFrame中的内容以表格的方式展示。

从numpy数据创立

咱们也能够从一个numpy的二维数组来创立一个DataFrame，假如咱们只是传入numpy的数组而没有指定列名的话，那末pandas将会以数字作为索引为咱们创立列：

咱们正在创立的时分为columns这个字段传入一个string的list便可为它指定列名：

从文件读取

pandas另一个十分弱小的性能就是能够从各类格局的文件傍边读取数据创立DataFrame，比方像是罕用的excel、csv，乃至是数据库也能够。

关于excel、csv、json等这类构造化的数据，pandas提供了专门的api，咱们找到对应的api进利用用便可：

假如是一些比拟非凡格局的，也不关系，咱们应用read_table，它能够从各类文本文件中读取数据，经过传入分隔符等参数实现创立。比方正在上一篇验证PCA降维成果的文章傍边，咱们从.data格局的文件傍边读取了数据。该文件傍边列以及列之间的分隔符是空格，而没有是csv的逗号或许是table符。咱们经过传入sep这个参数，指定分隔符就实现了数据的读取。

这个header参数示意文件的哪些行作为数据的列名，默许header=0，也即会将第一行作为列名。假如数据傍边没有存正在列名，需求指定header=None，不然会孕育发生成绩。咱们很少会呈现需求用到多级列名的状况，以是普通状况下最罕用的就是取默许值或许是令它等于None。

正在一切这些创立DataFrame的办法傍边最罕用的就是最初一种，从文件读取。由于咱们做机械学习或许是参与kaggle傍边的一些较量的时分，往往数据都是现成的，以文件的方式给咱们应用，需求咱们本人创立数据的状况很少。假如是正在实际的工作场景，尽管数据没有会存正在文件傍边，然而也会有一个泉源，普通是会存储正在一些年夜数据平台傍边，模子从这些平台傍边猎取训练数据。

以是总体来讲，咱们很少应用其余创立DataFrame的办法，咱们有所理解，着重把握从文件读取的办法便可。