数据量化研究 · 模块三

历史样本验证框架

建立从数据读取、研究信号记录到结果指标解释的历史样本验证流程。

2-3 小时预计学习时间
进阶级课程难度
完成模块一二前置要求
← 返回数据量化研究课
一、数据读取与预处理

历史验证前先检查数据质量

历史验证的第一步是准备数据。数据要有清楚的时间顺序,常见字段包括日期、开盘、最高、最低、收盘等价格字段和成交量。

  • 是否有缺失值或重复日期。
  • 价格是否出现异常值。
  • 数据是否按时间顺序排列。
  • 不同字段是否正确对齐。
  • 样本区间是否足够支持观察。

数据质量不好,历史验证结果就容易失真,所以处理规则前,先把数据检查做完。

二、研究信号记录逻辑

让信号只使用当时已经存在的数据

数据准备好后,下一步是记录研究信号。信号来自提前写好的规则,例如收盘价与预设观察区间形成特定关系、短期均线与长期均线形成特定关系、RSI 进入指定区间,或成交量高于过去平均水平。

  • 程序按时间顺序逐行检查数据。
  • 条件满足时记录信号,不满足则保持观察记录为空。
  • 每个信号要记录时间、记录原因和相关指标。
  • 只能使用当前和过去的数据,不能使用未来信息。

使用未来信息会让验证结果显得过于理想,是历史样本验证中最需要警惕的问题之一。

三、观察流程记录

把信号后的状态变化记录清楚

信号出现后,历史验证框架需要记录后续流程,而不是只看信号本身。这里的重点是研究记录,不是个性化建议。

  • 信号出现的时间。
  • 用于验证的价格假设。
  • 结束观察的条件。
  • 每次结果的变化。
  • 成本与流程差异假设。
  • 当前是否已经存在同类记录状态。

只看信号、不考虑成本假设和状态变化,结果往往会过于理想,难以支持严谨研究。

四、结果指标解释

不要只看单一数字

历史验证结束后,要用多个指标评价规则表现。常见指标包括整体结果、阶段回落、正向样本占比、结果分布、样本数量、结果曲线和夏普比率。

  • 整体结果:研究样本的总体表现。
  • 阶段回落:不利阶段的回落幅度。
  • 正向样本占比:正结果次数占比。
  • 样本数量:信号数量是否足够参考。
  • 结果曲线:过程是否平稳。

学习者最容易犯的错,是只看最终结果。结果看着不错,但阶段回落较大,稳定性可能并不好。

PROCESS

历史验证框架四步流程

步骤 1

数据输入

导入历史数据,检查字段、时间顺序、缺失值和异常值。

步骤 2

信号记录

按规则逐行检查数据,记录信号时间、记录原因和相关指标。

步骤 3

观察记录

根据信号记录状态变化、结束条件、成本假设和结果变化。

步骤 4

结果输出

输出结果曲线、阶段回落、样本数量、正向样本占比和过程波动指标。

了解课程安排 →教育内容 · 不构成个性化操作建议