Pandas 常用函数,本文介绍 Pandas 的常用函数,包括数据操作函数,检测缺失数据函数,日期时间函数,统计函数,迭代函数,排序函数等等。

数据操作函数
| 函数名称 |
函数说明 |
| melt() |
将Dataframe从宽格式转换为长格式 |
| pivot() |
根据给定的index/columns值,重新生成一个新的DataFrame对象 |
| pivot_table() |
创建一个电子表格样式的数据透视表作为DataFrame。 |
| crosstab() |
计算两个(或多个)因子的简单交叉表。 |
| cut() |
将值转换成离散的区间 |
| qcut() |
Quantile-based离散化函数。 |
| merge() |
使用数据库风格的连接合并 DataFrame 或 Series 对象。 |
| merge_ordered() |
为有序的数据执行填充或插值,如时间序列数据。 |
| merge_asof() |
执行asof合并。 |
| concat() |
Pandas的concat()函数实现了按索引拼接的功能 |
| get_dummies() |
将分类变量转换为 dummy 或 indicator 变量。 |
| factorize() |
将对象编码为枚举类型或分类变量。 |
| unique() |
基于哈希表的唯一性 |
| wide_to_long() |
宽 panel 到长格式。 |
检测缺失数据函数
| 函数名称 |
函数说明 |
| isna() |
用于检测数组对象中的缺失值。 |
| isnull() |
用于检测数组对象中的缺失值。 |
| notna() |
用于检测数组对象中的非缺失值。 |
| notnull() |
用于检测数组对象中的非缺失值。 |
日期时间函数
| 函数名称 |
函数说明 |
| to_datetime() |
用于将参数转换为日期时间。 |
| to_timedelta() |
用于将参数转换为日期时间。 |
| date_range() |
使用此方法可获得固定频率的日期时间索引。 |
| bdate_range() |
按索引连接 pandas 对象 |
| period_range() |
按索引连接 pandas 对象 |
| timedelta_range() |
按索引连接 pandas 对象 |
统计函数
| 函数名称 |
函数说明 |
| df.sum() |
所有值之和 |
| df.mean() |
所有值的平均值 |
| df.median() |
所有值的中位数字 |
| df.mode() |
值的模值 |
| df.std() |
值的标准偏差 |
| df.min() |
所有值中的最小值 |
| df.max() |
所有值中的最大值 |
| df.abs() |
绝对值 |
| prod() |
数组元素的乘积 |
| cumsum() |
累计总和 |
| cumprod() |
累计乘积 |
| pct_change() |
此函数将每个元素与其前一个元素进行比较,并计算变化百分比 |
| cov() |
协方差 |
| corr() |
相关系数 |
迭代函数
| 函数名称 |
函数说明 |
| df.iteritems() |
迭代(key,value)对 |
| df.iteritems() |
将每个列作为键,将值与值作为键和列值迭代为Series对象。 |
| df.iterrows() |
返回迭代器,产生每个索引值以及包含每行数据的序列。 |
| df.itertuples() |
为DataFrame中的每一行返回一个产生一个命名元组的迭代器 |
排序函数
| 函数名称 |
函数说明 |
| df.sort_index() |
按行排序或按列排序 |
| df.sort_values() |
按值排序 |
自定义函数
| 函数名称 |
函数说明 |
| get_option() |
获取解释器的默认参数值 |
| set_option() |
设置解释器的参数值 |
| reset_option() |
解释器的参数重置为默认值 |
| describe_option() |
打印参数的描述 |
| option_context() |
临时设置解释器的参数,退出使用块时,恢复为默认值 |
其他
| 函数名称 |
函数说明 |
| to_numeric() |
将参数转换为数字类型 |
| interval_range() |
按索引连接 pandas 对象 |
| df.pop() |
从DataFrame中删除一行或一列 |
| df.drop() |
使用索引标签从 DataFrame 中删除行。 如果标签重复,则会删除多行。 |
df.loc[] |
DataFrame 按照索引来选择某行 |
df.iloc[] |
DataFrame 按照位置来选择某行 |
| df.append() |
将新行添加到 DataFrame |
| df.head() |
返回 DataFrame 开头前 n 行 |
| df.tail() |
返回 DataFrame 最后 n 行 |
| df.reindex_like() |
对DataFrame重建索引 |
| df.rename() |
对轴进行重命名 |
| 属性 |
说明 |
| df.T |
转置行或列 |
| df.axes |
返回一个列,行轴标签和列轴标签作为唯一的成员 |
| df.dtypes |
返回每列的数据类型 |
| df.empty |
返回布尔值,表示对象是否为空, 返回True表示对象为空。 |
| df.ndim |
返回对象的维数,根据定义,DataFrame是一个2D对象。 |
| df.shape |
返回表示DataFrame的维度的元组。 元组(a,b),其中a表示行数,b表示列数。 |
| df.size |
返回 DataFrame 中的元素个数。 |
| df.values |
将DataFrame中的实际数据作为NDarray返回。 |