【技术积累】Python中的Pandas库【二】寻技术

如何在 Pandas 中进行文本的匹配和替换操作？

在 Pandas 中，使用 str 属性与正则表达式可以进行文本的匹配和替换操作。下面是一些常用的方法：

str.contains()：判断字符串中是否包含指定的文本。

import pandas as pd

df = pd.DataFrame({'text': ['apple', 'banana', 'orange']})
df['contains_a'] = df['text'].str.contains('a')
print(df)

str.replace()：替换字符串中指定的文本。

df = pd.DataFrame({'text': ['apple', 'banana', 'orange']})
df['new_text'] = df['text'].str.replace('a', 'e')
print(df)

str.extract()：从字符串中提取满足指定正则表达式的部分。

df = pd.DataFrame({'text': ['Name: John', 'Name: Michael', 'Name: David']})
df['name'] = df['text'].str.extract('Name: (.*)')
print(df)

如何在 Pandas 中进行时间序列数据的重采样和滚动统计？

时间序列数据重采样是指将数据从一个时间频率转换为另一个时间频率的过程，例如将每日数据转换为每周数据。滚动统计是指计算一段时间内的统计指标，例如计算每日收盘价的移动平均值。

在 Pandas 中，可以使用 resample() 函数进行时间序列数据的重采样，使用 rolling() 函数进行滚动统计。具体操作如下：

读取时间序列数据并将日期列设置为索引：
对数据进行重采样：
对数据进行滚动统计：

import pandas as pd
df = pd.read_csv('data.csv', index_col='date', parse_dates=True)
# 将数据从每日转换为每周
df_weekly = df.resample('W').mean()

# 将数据从每日转换为每月
df_monthly = df.resample('M').mean()
# 计算收盘价的滚动平均值
df['rolling_mean'] = df['close'].rolling(window=10).mean()

# 计算收盘价的滚动标准差
df['rolling_std'] = df['close'].rolling(window=10).std()

如何在 Pandas 中对数据进行随机抽样和生成随机数？

在 Pandas 中对数据进行随机抽样，可以使用 DataFrame 或 Series 对象的 sample() 方法，该方法可以设置抽样的数量、比例、是否有放回等参数，示例代码如下：

import pandas as pd

# 创建一个 DataFrame 对象
df = pd.DataFrame({'A': [1,2,3,4,5], 'B': ['a','b','c','d','e']})

# 对 DataFrame 进行随机抽样
sample_df = df.sample(n=3, replace=True)  # 抽样数量为 3，有放回
print(sample_df)

生成随机数，可以使用 numpy 库中的 random 模块，示例代码如下：

import numpy as np

# 生成一个 [0, 1) 之间的随机数
rand_num = np.random.rand()
print(rand_num)

除了生成单个随机数外，也可以生成多个随机数，例如：

# 生成一个大小为 3x2 的随机矩阵
rand_matrix = np.random.rand(3, 2)
print(rand_matrix)

如何在 Pandas 中使用进阶的 DataFrame 和 Series 的操作方法，例如 stack、unstack、pivot、melt 等？

在 Pandas 中，可以通过以下方法使用进阶的 DataFrame 和 Series 操作方法：

stack：将列数据压缩为行数据，使得 DataFrame 的行数增加，列数减少。
unstack：将行数据展开成列数据，使得 DataFrame 的列数增加，行数减少。
pivot：将一列作为横轴，一列作为纵轴，另一列作为对应值，构造新的 DataFrame。
melt：将多列合并成一列。

import pandas as pd

# 构造数据
df = pd.DataFrame({
    'name': ['Alice', 'Bob'],
    'salary2019': [5000, 6000],
    'salary2020': [5500, 6800]
})
print(df)
# 输出：
#     name  salary2019  salary2020
# 0  Alice        5000        5500
# 1    Bob        6000        6800

# stack
stacked_df = df.set_index('name').stack().reset_index()
print(stacked_df)
# 输出：
#     name      level_1     0
# 0  Alice  salary2019  5000
# 1  Alice  salary2020  5500
# 2    Bob  salary2019  6000
# 3    Bob  salary2020  6800

# unstack
unstacked_df = stacked_df.set_index(['name', 'level_1']).unstack()
print(unstacked_df)
# 输出：
#              0
# level_1 salary2019 salary2020
# name
# Alice         5000       5500
# Bob           6000       6800

import pandas as pd

# 构造数据
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'year': [2019, 2019, 2020],
    'salary': [5000, 6000, 7000]
})
print(df)
# 输出：
#       name  year  salary
# 0    Alice  2019    5000
# 1      Bob  2019    6000
# 2  Charlie  2020    7000

# pivot
pivot_df = df.pivot(index='name', columns='year', values='salary')
print(pivot_df)
# 输出：
# year       2019    2020
# name
# Alice      5000     NaN
# Bob        6000     NaN
# Charlie     NaN    7000

import pandas as pd

# 构造数据
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'salary2019': [5000, 6000, 7000],
    'salary2020': [5500, 6800, 7500]
})
print(df)
# 输出：
#       name  salary2019  salary2020
# 0    Alice        5000        5500
# 1      Bob        6000        6800
# 2  Charlie        7000        7500

# melt
melted_df = df.melt(id_vars=['name'], value_vars=['salary2019', 'salary2020'], var_name='year', value_name='salary')
print(melted_df)
# 输出：
#       name        year  salary
# 0    Alice  salary2019    5000
# 1      Bob  salary2019    6000
# 2  Charlie  salary2019    7000
# 3    Alice  salary2020    5500
# 4      Bob  salary2020    6800
# 5  Charlie  salary2020    7500

如何在 Pandas 中使用 mask 和 where 函数对数据进行条件赋值操作？

在 Pandas 中，可以使用 mask 和 where 函数对数据进行条件赋值操作。

mask：根据条件，对符合条件的元素进行替换
where：根据条件，对不符合条件的元素进行替换

以下是对 Pandas 中的 DataFrame 进行条件赋值的示例代码：

import pandas as pd

# 创建 DataFrame
df = pd.DataFrame({'A': [-1, 2, 3, -4], 'B': [5, 6, -7, 8]})

# mask：将 df 中小于 0 的元素替换为 0
df_mask = df.mask(df < 0, 0)
print(df_mask)

# where：将 df 中大于 0 的元素替换为 0
df_where = df.where(df < 0, 0)
print(df_where)

可以看到，使用 mask 函数将 df 中小于 0 的元素替换为 0，使用 where 函数将 df 中大于 0 的元素替换为 0。

如何在 Pandas 中使用 rolling 函数对数据进行滑动窗口统计操作？

将数据转换为 Pandas 的 Series 或 DataFrame 格式。
调用 rolling 函数，并设置窗口大小和统计函数。
对返回的对象进行操作，如筛选或绘图。

下面是一个简单的示例，演示如何使用 rolling 函数对数据进行滑动窗口统计操作：

import pandas as pd

# 创建数据
data = pd.Series([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# 使用 rolling 函数进行统计
result = data.rolling(window=3).sum()

# 输出结果
print(result)

0     NaN
1     NaN
2     3.0
3     6.0
4     9.0
5    12.0
6    15.0
7    18.0
8    21.0
9    24.0
dtype: float64

如何在 Pandas 中进行数据的合并去重和拼接操作？

在 Pandas 中，数据的合并、去重和拼接操作可以通过以下几个方法实现：

pd.concat()：将多个数据表按行或列拼接在一起，并且可以指定数据表之间的连接方式（inner或outer）和连接轴（axis=0或1）。
pd.merge()：用于合并两个数据表，其中一个数据表作为基础表，另一个数据表作为待合并的表，可以指定基础表和待合并表中的共同列来进行合并，并且可以指定连接方式（inner、left、right或outer）。
df.drop_duplicates()：用于去除数据表中的重复行，可以根据指定的列名来进行去重操作。

# 创建示例数据表
import numpy as np
import pandas as pd

df1 = pd.DataFrame({'A': ['a', 'b', 'c', 'd'],
                    'B': [1, 2, 3, 4],
                    'C': [np.nan, 2, 3, 4]})
df2 = pd.DataFrame({'A': ['e', 'b', 'f', 'g'],
                    'B': [5, 6, 7, 8],
                    'C': [1, 2, np.nan, 4]})

# pd.concat()方法进行拼接操作
df_concat = pd.concat([df1, df2], axis=0, join='outer')

# pd.merge()方法进行合并操作
df_merge = pd.merge(df1, df2, on='A', how='inner')

# df.drop_duplicates()方法进行去重操作
df_drop_dup = df_concat.drop_duplicates(['A'], keep='last')

如何在 Pandas 中使用 interpolate 函数对数据进行插值操作？

Pandas 中 interpolate 函数可以对缺失值进行插值操作。以下是使用 interpolate 函数的示例代码：

import pandas as pd

# 创建一个包含缺失值的 Series
s = pd.Series([1, 2, 3, np.nan, 5, np.nan, 7])

# 使用线性插值对缺失值进行填充
s_interpolated = s.interpolate()

print(s_interpolated)

0    1.000000
1    2.000000
2    3.000000
3    4.000000
4    5.000000
5    6.000000
6    7.000000
dtype: float64

该示例代码中，使用了默认的线性插值方式对缺失值进行填充。可以通过参数设置来改变插值方式，比如使用多项式插值或者样条插值等。使用 interpolate 函数的注意点是，待插值数据必须是单调的，否则插值结果可能不准确。

如何在 Pandas 中进行时间序列数据的处理和分析？

Pandas 中有两种处理时间序列数据的类型：Timestamp 和 DatetimeIndex。Timestamp 是 Pandas 中表示单个时间点的数据类型，而 DatetimeIndex 是 Pandas 中表示一个时间序列的数据类型。

以下是 Pandas 中处理时间序列数据的常用方法：

创建时间序列

可以使用 Pandas 中的 to_datetime() 方法将字符串转换为 Timestamp 对象或 DatetimeIndex 对象。

import pandas as pd

# 将字符串转换为 Timestamp 对象
timestamp = pd.to_datetime('2021-01-01')
print(timestamp)

# 将字符串列表转换为 DatetimeIndex 对象
date_list = ['2021-01-01', '2021-01-02', '2021-01-03']
date_index = pd.DatetimeIndex(date_list)
print(date_index)

时间序列切片

可以使用 loc 或 iloc 方法对时间序列进行切片。

import pandas as pd

date_index = pd.date_range(start='2021-01-01', end='2021-01-10')
df = pd.DataFrame({'value': range(10)}, index=date_index)

# 使用 loc 方法对时间序列进行切片，取 2021-01-01 至 2021-01-03 的数据
print(df.loc['2021-01-01':'2021-01-03'])

# 使用 iloc 方法对时间序列进行切片，取第一行至第三行的数据
print(df.iloc[0:3])

时间序列的聚合

可以使用 resample() 方法将时间序列按照一定的时间周期进行聚合。

import pandas as pd

date_index = pd.date_range(start='2021-01-01', end='2021-01-10')
df = pd.DataFrame({'value': range(10)}, index=date_index)

# 将时间序列按照每天进行聚合，并计算平均值
daily_mean = df.resample('D').mean()
print(daily_mean)

# 将时间序列按照每两天进行聚合，并计算平均值
two_day_mean = df.resample('2D').mean()
print(two_day_mean)

移动窗口分析

可以使用 rolling() 方法对时间序列进行移动窗口分析。

import pandas as pd

date_index = pd.date_range(start='2021-01-01', end='2021-01-10')
df = pd.DataFrame({'value': range(10)}, index=date_index)

# 对时间序列进行 3 天的移动窗口计算
rolling_mean = df.rolling(window=3).mean()
print(rolling_mean)

时间序列可视化

可以使用 Pandas 中的 plot() 方法对时间序列进行可视化。

import pandas as pd
import matplotlib.pyplot as plt

date_index = pd.date_range(start='2021-01-01', end='2021-01-10')
df = pd.DataFrame({'value': range(10)}, index=date_index)

# 对时间序列进行可视化
df.plot()
plt.show()