第6章 金融数据分析与计量经济学
金融数据特征与处理方法
Section titled “金融数据特征与处理方法”金融数据是计量经济学分析的基石。与一般经济数据相比,金融数据具有独特的时间维度、频率维度和结构维度特征,理解这些特征是正确选择分析方法的前提。
金融数据的类型谱系
Section titled “金融数据的类型谱系”金融数据按照不同维度可划分为以下类型:
| 数据类型 | 典型示例 | 核心特征 |
|---|---|---|
| 截面数据 | 某一时点各银行ROE | 无时间维度,仅有个体维度 |
| 时间序列 | 某银行2000–2025年月度股价 | 单一个体,时间连续 |
| 面板数据 | 50家银行2010–2024年年度财务指标 | 个体×时间双维度 |
| 高频数据 | 毫秒级交易记录 | 超高频率、海量观测 |
| 文本数据 | 年报管理层讨论与分析 | 非结构化、需NLP处理 |
| 网络数据 | 银行间拆借关系图谱 | 节点与边的拓扑结构 |
其中,面板数据是金融实证研究中最常用的数据类型,它同时包含个体异质性和时间动态性,信息量远大于纯截面或纯时序数据。本节后续内容及第1.2{reference-type=“ref” reference=“sec:panel”}节将重点围绕面板数据展开。
金融数据的典型特征
Section titled “金融数据的典型特征”金融数据具有区别于一般经济数据的四大典型特征,这些特征直接影响模型的选择与设定。
非正态分布------尖峰厚尾
Section titled “非正态分布------尖峰厚尾”金融收益率分布的峰度(Kurtosis)通常远大于3(正态分布的峰度值),呈现”尖峰厚尾”形态。这意味着极端事件(暴跌、暴涨)发生的概率远高于正态分布的预测。例如,2008年金融危机期间标普500单日跌幅超过9%的事件,在正态假设下几乎不可能发生,但实际市场中并不罕见。
Jarque-Bera检验可形式化检验正态性:
其中为偏度,为峰度,为样本量。在金融数据中,JB统计量几乎总是显著拒绝正态假设。
异方差性------ARCH效应
Section titled “异方差性------ARCH效应”金融收益率的波动率具有”集聚性”:大幅波动之后往往跟随大幅波动,平静期之后跟随平静期。Engle(1982)提出的自回归条件异方差(ARCH)模型首次系统刻画了这一现象:
Bollerslev(1986)将其推广为GARCH模型:
金融时间序列普遍存在自相关现象。股价收益率的一阶自相关虽弱,但收益率的平方和绝对值往往呈现显著的高阶自相关,这正是ARCH效应的体现。Ljung-Box Q检验可用于序列相关性的联合检验:
金融时间序列常因政策变革、金融危机或制度变迁而发生结构性断裂。例如,中国利率市场化改革前后,银行净息差的均值和波动率均可能发生显著变化。忽略结构突变会导致伪回归和参数估计不一致。Chow检验和Zivot-Andrews检验是检测结构突变的常用方法。
数据预处理流程
Section titled “数据预处理流程”高质量的数据预处理是实证研究可信性的保障。金融数据预处理通常包含以下三个核心步骤。
缺失值产生的原因包括:银行未披露某些财务指标、数据采集过程中的技术故障、新上市银行缺少历史数据等。处理方法包括:
| 方法 | 适用场景 | 优缺点 |
|---|---|---|
| 删除法 | 缺失比例5% | 简单直接,但浪费信息 |
| 均值/中位数插补 | 随机缺失 | 保留样本量,但低估方差 |
| 线性插值 | 时序连续缺失 | 对趋势数据效果好 |
| 多重插补(MI) | 系统性缺失 | 统计性质最优,但计算量大 |
在Stata中,多重插补的实现如下:
// 多重插补( chained 方式 )mi set widemi register imputed roe npl_ratio carmi impute chained (regress) roe npl_ratio car = loan_growth log_asset, add(20)金融数据中的异常值可能来源于数据录入错误,也可能是真实的极端事件(如金融危机期间的异常波动)。常见检测方法:
IQR法:以四分位距(IQR)为基准,超过或的观测值标记为异常。
Z-score法:标准化后绝对值超过3(或2.576)的观测标记为异常。
Isolation Forest:基于随机森林的异常检测算法,无需假设数据分布,适合高维金融数据。
# Isolation Forest 异常检测from sklearn.ensemble import IsolationForestimport pandas as pd
df = pd.read_csv("bank_panel.csv")clf = IsolationForest(contamination=0.05, random_state=42)df["outlier"] = clf.fit_predict(df[["roe", "npl_ratio", "car", "loan_growth"]])print(df[df["outlier"] == -1].head())数据标准化与变换
Section titled “数据标准化与变换”金融变量量纲差异大(如资产规模以亿元计,比率以百分比计),需要进行标准化或变换:
-
对数变换:,压缩右偏分布,使回归系数可解释为弹性
-
Box-Cox变换:,λ由极大似然估计确定
-
缩尾处理(Winsorize):将极端值截断到指定百分位(如1%和99%),保留观测数量同时降低异常值影响
// Stata 缩尾处理// 安装 winsor2 命令ssc install winsor2winsor2 roe, cuts(1 99) replace面板数据回归分析 {#sec:panel}
Section titled “面板数据回归分析 {#sec:panel}”面板数据(Panel Data)同时包含个体维度和时间维度,是金融实证研究的主力数据结构。本节系统讲解面板数据回归的三种经典模型及其选择方法。
面板数据的优势
Section titled “面板数据的优势”相较于纯截面数据或纯时间序列数据,面板数据具有三方面优势:
-
控制个体异质性:面板数据允许控制不可观测的、不随时间变化的个体特征(如银行的公司文化、地域优势),从而缓解遗漏变量偏误
-
更多信息量:个个体× 期提供个观测值,增大自由度,提高估计效率
-
减少共线性:个体内变异与个体间变异的结合,降低了多重共线性风险
面板数据的基本模型可写为:
其中为个体效应(个体异质性),为解释变量向量,为待估参数向量,为随机扰动项。对的不同假设形成了三种经典模型。
混合OLS回归(Pooled OLS)
Section titled “混合OLS回归(Pooled OLS)”混合OLS假设所有个体具有相同的截距项(),将面板数据当作一个大样本进行回归:
适用条件:个体间不存在不可观测的异质性,或异质性与解释变量不相关。
局限性:若个体效应确实存在且与相关,忽略会导致估计偏误------这正是面板数据模型选择的核心问题。
// 混合OLS回归reg roe npl_ratio car loan_growth log_asset, robustest store ols固定效应模型(Fixed Effects, FE)
Section titled “固定效应模型(Fixed Effects, FE)”固定效应模型假设个体效应与解释变量相关,因此必须控制才能获得一致的估计。FE的核心思想是:利用”组内变异”(within variation)消除个体效应。
组内估计量(Within Estimator)
Section titled “组内估计量(Within Estimator)”对模型进行组内去均值变换:
个体效应在差分中被消去,OLS估计该变换后的模型即可得到组内估计量。
LSDV估计
Section titled “LSDV估计”另一种等价方法是引入个个体虚拟变量直接估计:
当较大时,LSDV计算量大,但与组内估计量数值等价。
// 固定效应模型(两种等价命令)// 方式一:xtregxtset bank_id yearxtreg roe npl_ratio car loan_growth log_asset, fe robustest store fe
// 方式二:reghdfe(推荐,支持多维固定效应)reghdfe roe npl_ratio car loan_growth log_asset, absorb(bank_id year) robustest store fe2随机效应模型(Random Effects, RE)
Section titled “随机效应模型(Random Effects, RE)”随机效应模型假设个体效应与解释变量不相关,即:
在此假设下,可被视为随机扰动项的一部分,模型变为:
复合扰动项的方差结构为:
RE模型使用广义最小二乘法(GLS)估计,通过部分组内变换(quasi-demeaning)实现:
其中\thetâ为变换参数,取值介于0(OLS)和1(FE)之间。
// 随机效应模型xtreg roe npl_ratio car loan_growth log_asset, re robustest store re模型选择检验
Section titled “模型选择检验”三种模型的选择依赖于严格的统计检验,形成一套递进的检验逻辑:
F检验:混合OLS vs 固定效应
Section titled “F检验:混合OLS vs 固定效应”原假设: 所有个体效应均相等(即)。F统计量为:
若拒绝原假设,说明个体效应存在,应使用FE而非OLS。
Hausman检验:固定效应 vs 随机效应
Section titled “Hausman检验:固定效应 vs 随机效应”Hausman检验的核心问题是:个体效应是否与解释变量相关?
原假设: (RE成立)
检验统计量:
若显著(),拒绝原假设,选择FE;否则选择RE。
BP-LM检验:混合OLS vs 随机效应
Section titled “BP-LM检验:混合OLS vs 随机效应”Breusch-Pagan Lagrange Multiplier检验判断个体效应的方差是否为零。
原假设: (不存在个体效应,OLS适用)
// 完整的模型选择检验流程// Step 1: 估计FE和RExtreg roe npl_ratio car loan_growth log_asset, fe robustest store fextreg roe npl_ratio car loan_growth log_asset, re robustest store re
// Step 2: Hausman检验(FE vs RE)hausman fe re
// Step 3: BP-LM检验(OLS vs RE)xttest0
// Step 4: 输出三列回归表esttab ols fe re using reports/ch07_panel_reg.rtf, /// b(3) se(3) star(* 0.1 ** 0.05 *** 0.01) /// mtitles("OLS" "FE" "RE") /// scalars(N r2_a) replaceGMM动态面板简介
Section titled “GMM动态面板简介”当模型包含因变量的滞后项(如)作为解释变量时,FE和RE估计量均不一致(Nickell偏误)。Arellano和Bond(1991)提出的差分GMM估计量通过使用滞后水平值作为差分方程的工具变量来解决这一问题:
// Arellano-Bond 差分GMMxtabond roe l.roe npl_ratio car loan_growth, /// lags(1) twostep robust// Sargan/Hansen 过度识别检验estat sarganestat ar1, artests(2)estat ar2, artests(2)时间序列预测
Section titled “时间序列预测”时间序列预测是金融数据分析的核心任务之一,广泛应用于股价走势判断、利率预测、消费趋势分析等场景。本节从经典统计方法到深度学习方法进行递进讲解。
时间序列分解
Section titled “时间序列分解”任何时间序列可分解为三个组分:
其中为趋势分量(长期方向),为季节分量(周期性波动),为残差分量(随机扰动)。
-
加法分解:,适用于季节波动幅度相对恒定
-
乘法分解:,适用于季节波动幅度随趋势增大
# STL 分解( Python 实现 )from statsmodels.tsa.seasonal import STLimport pandas as pd
df = pd.read_csv("bank_card_spending.csv", parse_dates=["date"], index_col="date")stl = STL(df["amount"], period=12)res = stl.fit()res.plot()SARIMA模型
Section titled “SARIMA模型”SARIMA(Seasonal Autoregressive Integrated Moving Average)是经典时间序列预测的标杆模型,表示为SARIMA。
从AR到SARIMA的递进
Section titled “从AR到SARIMA的递进”AR(自回归)模型:当前值由过去值的线性组合加噪声决定:
MA(移动平均)模型:当前值由过去噪声的线性组合决定:
ARIMA模型:在ARMA基础上引入差分操作,处理非平稳序列。阶差分:
其中为滞后算子。为一阶差分:。
SARIMA模型:在ARIMA基础上增加季节差分和季节自回归/移动平均项:
其中和为季节多项式,为季节周期(月度数据)。
SARIMA的定阶需要确定6个参数,主要方法包括:
- ACF/PACF图:自相关函数(ACF)和偏自相关函数(PACF)的截尾/拖尾特征可初步判断:
- ACF拖尾 + PACF$p$阶截尾 ⇒ AR($p$)- ACF$q$阶截尾 + PACF拖尾 ⇒ MA($q$)- AIC/BIC准则:在候选模型中选择信息准则最小的模型
- AIC$= -2\ln L + 2k$,偏好复杂模型- BIC$= -2\ln L + k\ln n$,惩罚更强,偏好简约模型- 网格搜索:遍历组合,比较AIC/BIC
# SARIMA 自动定阶与预测import pmdarima as pmimport pandas as pd
df = pd.read_csv("bank_card_spending.csv", parse_dates=["date"])model = pm.auto_arima(df[“amount”], seasonal=True, m=12, # 月度数据,季节周期12 d=1, D=1, # 一阶差分 + 一阶季节差分 max_p=3, max_q=3, # 非季节部分最大阶数 max_P=2, max_Q=2, # 季节部分最大阶数 information_criterion=“aic”, trace=True
)print(model.summary())
# 预测未来30天forecast, conf_int = model.predict(n_periods=30, return_conf_int=True)LSTM深度学习预测
Section titled “LSTM深度学习预测”长短期记忆网络(Long Short-Term Memory, LSTM)是Hochreiter和Schmidhuber于1997年提出的循环神经网络变体,专门解决长序列学习中的梯度消失问题。
循环神经网络基本原理
Section titled “循环神经网络基本原理”循环神经网络(RNN)通过隐藏状态传递历史信息:
RNN的核心问题是梯度消失:在反向传播中,梯度随时间步指数级衰减,导致无法学习长期依赖关系。
LSTM的三重门机制
Section titled “LSTM的三重门机制”LSTM通过精心设计的门控机制解决梯度消失问题:
- 遗忘门(Forget Gate):决定从细胞状态中丢弃哪些信息
$f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$- 记忆门(Input Gate):决定哪些新信息写入细胞状态
$i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)$$\tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C)$- 输出门(Output Gate):决定输出哪些信息
$o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)$$h_t = o_t \cdot \tanh(C_t)$细胞状态更新规则:
窗口滑动与序列构建
Section titled “窗口滑动与序列构建”将时间序列转换为监督学习问题需要”窗口滑动”方法:用过去个时间步的值预测下一个时间步的值。
# LSTM 时间序列预测import numpy as npimport torchimport torch.nn as nn
# 窗口滑动构建序列def create_sequences(data, window=12):X, y = [], [] for i in range(len(data) - window): X.append(data[i:i+window]) y.append(data[i+window]) return np.array(X), np.array(y)
# 定义 LSTM 模型class BankLSTM(nn.Module):def init(self, input_size=1, hidden_size=64, num_layers=2): super().init() self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True, dropout=0.2) self.fc = nn.Linear(hidden_size, 1)
def forward(self, x): out, _ = self.lstm(x) return self.fc(out[:, -1, :])
# 训练model = BankLSTM()criterion = nn.MSELoss()optimizer = torch.optim.Adam(model.parameters(), lr=0.001)Prophet模型
Section titled “Prophet模型”Prophet是Facebook(现Meta)开发的开源时间序列预测工具,基于加法分解模型:
其中为趋势函数(分段线性或逻辑增长),为季节函数(傅里叶级数),为节假日效应,为残差。
Prophet的优势在于:
-
自动检测趋势变化点
-
灵活处理多重季节性(年/周/日)
-
内置节假日效应建模
-
无需专业调参,适合业务指标快速预测
# Prophet 预测from prophet import Prophetimport pandas as pd
df = pd.read_csv("bank_card_spending.csv")df = df.rename(columns={"date": "ds", "amount": "y"})
model = Prophet(yearly_seasonality=True, weekly_seasonality=True, changepoint_prior_scale=0.05
)model.fit(df)
# 预测未来30天future = model.make_future_dataframe(periods=30)forecast = model.predict(future)model.plot(forecast)model.plot_components(forecast)模型评估指标
Section titled “模型评估指标”时间序列预测模型的性能评估使用以下指标:
| 指标 | 公式 | 含义 |
|---|---|---|
| RMSE | 均方根误差,单位与原数据一致 | |
| MAE | $`\frac{1}{n}\sum_{t=1}^{n} | y_t - \hat{y}_t |
| MAPE | $`\frac{100%}{n}\sum_{t=1}^{n}\left | \frac{y_t - \hat{y}_t}{y_t}\right |
因果推断方法
Section titled “因果推断方法”相关关系不等于因果关系。金融研究中,我们关心的核心问题往往是因果性的:降低存款准备金率是否导致贷款增加?数字金融是否导致银行效率提升?本节介绍金融领域最常用的四种因果推断方法。
因果推断vs相关分析
Section titled “因果推断vs相关分析”双重差分法(Difference-in-Differences, DID)
Section titled “双重差分法(Difference-in-Differences, DID)”双重差分法是政策评估中最常用的因果推断方法,通过比较处理组和对照组在政策前后的变化差异来识别因果效应。
经典2×2框架
Section titled “经典2×2框架”| 政策前 | 政策后 | 差分 | |
|---|---|---|---|
| 处理组 | |||
| 对照组 | |||
| DID |
DID估计量可由回归方程得到:
其中δ即为DID估计量,表示政策的平均处理效应(ATT)。
平行趋势假设
Section titled “平行趋势假设”DID有效性的关键假设是平行趋势(Parallel Trends):在没有政策干预的情况下,处理组和对照组的变化趋势相同。平行趋势无法直接检验(因为反事实不可观测),但可通过事件研究法(Event Study)检验政策前的趋势一致性:
其中为事件时间虚拟变量,政策前各期应统计不显著。
// DID 回归 + 平行趋势检验// 生成处理变量与交互项gen treat_post = treat * post
// 基准DID回归reghdfe y treat_post treat post, absorb(id year) robust
// 事件研究法(平行趋势检验)eventdd y, method(hdfe) absorb(id year) treat(treat) time(year) /// baseline(-1) leads(5) lags(5) graph断点回归(Regression Discontinuity Design, RDD)
Section titled “断点回归(Regression Discontinuity Design, RDD)”断点回归利用处理变量在某个阈值处的”断点”来识别因果效应。核心逻辑:刚好在阈值两侧的个体非常相似,唯一的差异就是是否接受处理。
精确断点vs模糊断点
Section titled “精确断点vs模糊断点”精确断点(Sharp RDD):处理变量在断点处从0跳变为1:
模糊断点(Fuzzy RDD):处理概率在断点处不连续,但并非从0跳到1:
局部线性回归的带宽是RDD的关键参数,带宽过大引入偏误,带宽过小增大方差。常用选择方法:
-
IK法(Imbens-Kalyanaraman):最小化均方误差
-
CCT法(Calonico-Cattaneo-Titiunik):稳健偏误校正
应用场景:信贷门槛效应------某银行规定信用评分低于600分不发放贷款,可利用600分附近样本识别贷款对借款人收入的因果效应。
// 断点回归( Stata 实现 )// 安装 rdrobust 包ssc install rdrobust, replace
// 精确断点回归rdrobust y running_var, c(600)
// 带宽敏感性检验rdrobust y running_var, c(600) bwselect(mserd)
// 绘制断点图rdplot y running_var, c(600)工具变量法(Instrumental Variables, IV)
Section titled “工具变量法(Instrumental Variables, IV)”当解释变量与扰动项相关时(),OLS估计量不一致。内生性的来源包括:
-
遗漏变量:不可观测的因素同时影响解释变量和被解释变量
-
联立因果:解释变量与被解释变量互为因果
-
测量误差:解释变量的测量不准确
有效工具变量的三个条件
Section titled “有效工具变量的三个条件”工具变量需满足:
-
相关性(Relevance):,工具变量与内生解释变量强相关
-
外生性(Exogeneity):,工具变量与扰动项不相关
-
排他性(Exclusion Restriction):工具变量只能通过内生解释变量影响被解释变量
两阶段最小二乘法(2SLS)
Section titled “两阶段最小二乘法(2SLS)”第一阶段:用工具变量预测内生解释变量
第二阶段:用预测值替换内生变量进行回归
// 两阶段最小二乘法(2SLS)// ivreg2 命令(推荐)ssc install ivreg2, replace
ivreg2 y (x_endogenous = z_instrument), first robust
// 弱工具变量检验ivreg2 y (x_endogenous = z_instrument), first robust /// ffirst // 报告第一阶段 F 统计量// 经验法则:第一阶段 F > 10 则无弱工具变量问题合成控制法简介
Section titled “合成控制法简介”合成控制法(Synthetic Control Method, SCM)由Abadie等(2010)提出,适用于单个处理单元(如某个省份实施政策)的因果推断。核心思想:用未实施政策的控制单元的加权组合来构造处理单元的”合成对照”。
权重通过最小化政策前处理单元与控制单元的特征差异来确定。
AI辅助计量分析工作流
Section titled “AI辅助计量分析工作流”AI大模型正在重塑计量经济学的研究流程,但它始终是助手而非替代------研究问题的提出、模型的经济含义解释、结果的合理性判断,这些核心环节仍需研究者的专业判断。
AI在计量研究中的角色定位
Section titled “AI在计量研究中的角色定位”| 环节 | AI可替代程度 | 人工必要程度 |
|---|---|---|
| 文献综述辅助 | 高 | 中 |
| 数据获取与清洗 | 高 | 中 |
| 描述统计与可视化 | 高 | 低 |
| 模型估计与检验 | 中 | 高 |
| 结果解释与经济学判断 | 低 | 高 |
| 稳健性检验设计 | 中 | 高 |
| 论文撰写 | 中 | 高 |
Step 1:文献综述→确定模型设定
Section titled “Step 1:文献综述→确定模型设定”利用AI快速梳理相关文献,提炼已有研究的模型设定、变量选择和估计方法。提示词示例:
请帮我梳理"银行盈利能力影响因素"的实证文献:1. 列出近5年5篇代表性中文文献(含作者、年份、期刊)2. 每篇文献的核心模型设定是什么?3. 常用的被解释变量和解释变量有哪些?4. 主要的实证策略(FE/RE/GMM/IV)是什么?5. 现有研究的不足之处是什么?Step 2:数据获取与清洗(AI辅助)
Section titled “Step 2:数据获取与清洗(AI辅助)”AI可辅助编写数据爬取脚本、缺失值处理代码和异常值检测逻辑,但数据的准确性和完整性仍需人工核验。
Step 3:描述统计与可视化(AI辅助)
Section titled “Step 3:描述统计与可视化(AI辅助)”让AI生成描述统计表、相关系数矩阵和关键变量的分布图。此环节AI可高度自动化,但研究者应关注数据是否符合经济直觉。
Step 4:模型估计与检验(AI执行+人工判断)
Section titled “Step 4:模型估计与检验(AI执行+人工判断)”AI可快速执行多种模型估计,但以下关键判断必须由研究者做出:
-
固定效应vs随机效应的选择依据
-
工具变量的合理性论证
-
系数的经济含义是否合理
Step 5:稳健性检验设计(AI建议+人工决策)
Section titled “Step 5:稳健性检验设计(AI建议+人工决策)”AI可建议稳健性检验方案,但检验的合理性需要研究者判断:
-
替换变量度量方式
-
调整样本范围(排除特殊年份/银行类型)
-
使用不同估计方法
-
安慰剂检验/ falsification test
Step 6:结果解释与论文撰写
Section titled “Step 6:结果解释与论文撰写”AI可辅助起草初稿,但经济学解释必须基于研究者的专业判断。特别注意:回归系数的统计显著不等于经济显著------一个显著水平的系数,如果经济量级微不足道(如ROE提高0.001个百分点),其实际意义有限。
实验:银行盈利能力影响因素实证研究
Section titled “实验:银行盈利能力影响因素实证研究”本实验将完整走一遍论文级实证研究的全流程,从研究假设到稳健性检验,形成一份可投稿级别的回归分析报告。
基于银行业理论和中国金融制度背景,提出以下三条研究假设:
-
H1:不良贷款率与银行盈利能力负相关。不良贷款率越高,拨备计提越多,侵蚀利润空间。
-
H2:资本充足率与银行盈利能力正相关。资本充足率高的银行风险抵御能力强,可承担更高收益的资产配置。
-
H3:资产规模与银行盈利能力存在非线性关系。规模经济在初期提升盈利,但过度扩张后管理成本上升,出现规模不经济。
| 变量类型 | 变量名 | 定义 | 数据来源 |
|---|---|---|---|
| 被解释变量 | ROE | 净利润/股东权益 | Bankscope |
| ROA | 净利润/总资产 | Bankscope | |
| 核心解释变量 | NPL | 不良贷款/总贷款 | 银行年报 |
| CAR | 资本充足率 | 银行年报 | |
| SIZE | ln(总资产) | Bankscope | |
| 控制变量 | LOAN | 贷款增速 | 计算得到 |
| GDP | GDP增速 | 国家统计局 | |
| CPI | 通货膨胀率 | 国家统计局 | |
| 异质性变量 | TYPE | 银行类型 | 手工分类 |
| REGION | 所在区域 | 手工分类 |
数据来源说明
Section titled “数据来源说明”本实验使用Bankscope(现Bank Focus)数据库中中国商业银行2010—2024年的年度财务数据,涵盖国有大型银行、股份制银行、城市商业银行和农村商业银行四类机构。样本剔除了政策性银行、外资银行和数据严重缺失的观测。
-
基准回归:双向固定效应模型(控制个体和年份固定效应)
-
稳健性检验:替换被解释变量(ROA)、缩尾处理、调整样本区间
-
异质性分析:按银行类型和区域分组回归
-
中介效应:检验风险承担是否中介资本充足率对盈利能力的影响
Step 1:描述统计与相关性分析
Section titled “Step 1:描述统计与相关性分析”任务:银行盈利能力研究——描述统计请使用 Stata 完成以下分析:1. 读入 bank_profitability.dta2. 对所有变量进行描述统计(均值、标准差、最小值、最大值、观测数)3. 计算核心变量的相关系数矩阵4. 绘制 ROE 的直方图,检验正态性5. 输出描述统计表和相关系数矩阵到 reports/ch07_desc_stat.txtStep 2:基准回归
Section titled “Step 2:基准回归”任务:银行盈利能力研究——基准回归请使用 Stata 的 reghdfe 命令完成基准回归:1. 模型设定:reghdfe roe npl car size loan_growth gdp_growth cpi, absorb(bank_id year) cluster(bank_id)2. 同时估计三个嵌套模型:- 模型1:仅核心解释变量- 模型2:加入控制变量- 模型3:加入年份固定效应3. 输出三列回归表到 reports/ch07_baseline.rtfStep 3:稳健性检验
Section titled “Step 3:稳健性检验”任务:银行盈利能力研究——稳健性检验请完成以下稳健性检验:1. 替换被解释变量:用 ROA 替代 ROE2. 缩尾处理:对 ROE 在 1% 和 99% 分位进行 Winsorize3. 排除 2020 年(新冠疫情异常年份)4. 使用滞后解释变量(t-1期)缓解反向因果每个检验输出一列回归结果,合并为稳健性检验表格保存到 reports/ch07_robustness.rtfStep 4:异质性分析
Section titled “Step 4:异质性分析”任务:银行盈利能力研究——异质性分析请按以下维度进行分组回归:1. 按银行类型分组:国有大行 vs 股份行 vs 城商行 vs 农商行2. 按区域分组:东部 vs 中部 vs 西部3. 对每组分别运行基准回归模型4. 用 Chow 检验判断组间系数差异是否显著输出分组回归表到 reports/ch07_heterogeneity.rtfStep 5:中介效应检验
Section titled “Step 5:中介效应检验”任务:银行盈利能力研究——中介效应检验检验假说:资本充足率(CAR) → 风险承担(RISK) → 盈利能力(ROE)使用 Sobel 中介效应检验三步法:| Step a: reg roe car controls, robust | (总效应) || Step b: reg risk car controls, robust | (a路径) || Step c: reg roe car risk controls, robust | (直接效应+b路径) |计算中介效应 = a * b使用 sgmediation 命令完成 Sobel 检验输出中介效应检验结果到 reports/ch07_mediation.txt| # | 交付物 | 文件名 |
|---|---|---|
| 1 | 描述统计表 + 相关系数矩阵 | reports/ch07_desc_stat.txt |
| 2 | 基准回归表(三列) | reports/ch07_baseline.rtf |
| 3 | 稳健性检验表 | reports/ch07_robustness.rtf |
| 4 | 异质性分析表 | reports/ch07_heterogeneity.rtf |
| 5 | 中介效应检验结果 | reports/ch07_mediation.txt |
| 6 | 200字研究结论 | 写入实验报告 |
研究结论示例:
基于2010—2024年中国商业银行面板数据,采用双向固定效应模型实证检验了银行盈利能力的影响因素。研究发现:(1)不良贷款率对ROE有显著负向影响(系数,),支持H1;(2)资本充足率对ROE有显著正向影响(系数,),支持H2;(3)资产规模与ROE呈倒U型关系,拐点出现在资产规模约5000亿元处,部分支持H3。上述结论在替换被解释变量、缩尾处理、排除异常年份等稳健性检验中保持一致。异质性分析表明,资本充足率对城商行和农商行的盈利提升效应更为显著。
本章系统介绍了金融数据分析与计量经济学的核心方法。7.1节阐述了金融数据的六大类型和四大典型特征(尖峰厚尾、异方差、序列相关、结构突变),以及缺失值处理、异常值检测和变量变换的完整预处理流程。7.2节深入讲解了面板数据回归的三种经典模型(混合OLS、固定效应、随机效应)及其选择检验(F检验、Hausman检验、BP-LM检验),并介绍了动态面板GMM方法。7.3节从时间序列分解出发,依次介绍了SARIMA、LSTM和Prophet三种预测方法。7.4节阐述了因果推断的四种主流方法(DID、RDD、IV、SCM)。7.5节构建了AI辅助计量分析的六步工作流,并警示了过拟合、数据窥探、伪回归等常见陷阱。7.6节通过银行盈利能力影响因素的完整实验,将上述方法串联为论文级实证研究。