如何使用 Pandas 库读取和分析数据?
步骤 1:导入 Pandas 库
import pandas as pd
步骤 2:读取数据
- 使用
read_csv()
函数读取 CSV 文件:
data = pd.read_csv("your_data_file.csv")
- 使用
read_excel()
函数读取 Excel 文件:
data = pd.read_excel("your_data_file.xlsx")
步骤 3:查看数据
- 使用
head()
和tail()
方法查看数据的前几行和最后几行:
print(data.head())
print(data.tail())
- 使用
info()
方法查看数据类型、行数、列数等信息:
print(data.info())
步骤 4:数据处理
-
使用各种方法进行数据处理,例如:
- 筛选数据:
data[data["column_name"] > threshold]
- 合并数据:
data.merge(other_data, on="common_column")
- 统计数据:
data.describe()
- 筛选数据:
步骤 5:数据分析
-
使用各种方法进行数据分析,例如:
- 计算统计指标:
data["column_name"].mean()
- 统计关联性:
data.corr()
- 构建图表:
data.plot()
- 计算统计指标:
步骤 6:保存结果
- 使用
to_csv()
方法将数据保存为 CSV 文件:
data.to_csv("processed_data.csv", index=False)
示例
import pandas as pd
# 读取 CSV 文件
data = pd.read_csv("sales_data.csv")
# 查看数据
print(data.head())
# 计算平均销量
average_sales = data["sales"].mean()
# 保存结果
data.to_csv("processed_data.csv", index=False)
```