如何理解金融数据的复杂性

2024-04-24 08:08:37 来源:上海证券报 作者:

  金融数据有低信噪比的特点,提取有效信号的难度较大,模型如果调整不够得当,就容易学习“噪音”。由于这一特性,量化投资在模型开发和调校时尤其强调避免过拟合。另外,证券交易数据等时间序列有时序性(时间不可倒流),且金融市场时刻存在博弈,规律具有时变特性。量化投资方法论的目的是用历史数据预测未来,所以一定要避免未来信息的引入,并合理评估历史回测。

  若按照数据格式对金融数据进行分类,可分为标准化数据和非标准化数据。标准化数据常见比如交易所原始数据、原始行情等;非标准化数据以文本数据为主,包括财经新闻、财经论坛问答、卖方分析师投资报告、第三方机构提供的特殊数据等,相比标准化数据更复杂。为应用于量化策略开发,必须先进行数据清洗等结构化处理。

  若按照数据来源对金融数据进行分类,可分为价量数据、基本面数据、事件驱动数据和另类数据。

  价量数据包括一切能从市场交易行为中提取的信息,不局限于股票及其他资产的价格,以及衍生的各项技术类指标,如日间量价数据(日K)、日内量价数据(分时数据)、逐笔数据(股票的每笔成交和挂单数据)。

  基本面数据既包括宏观基本面、产业链上下游发展、行业发展趋势,也包括上市公司的财务报表等数据。

  在金融领域,“事件”通常指“可能在短期导致投资者预期发生变化、对公司的基本面或其股票价格产生重大影响的情况”。“事件驱动”指通过预测市场对特定事件的反应不足或过度反应,判断股票价格变化以获取超额回报,如股票回购和股东增持、市场过度炒作。

  另类数据是相对的概念,目前来看,包括所有非传统来源的新型数据,如ESG数据、社交媒体评论、卫星图像等,在海外已拥有较为成熟的应用。

  一般而言,数据点及结构化数据越多,越有利于量化投资进行建模。如果某个大事件历史上没有发生过或仅发生过几次,基于过往总结出的“规律”在这个阶段不一定有效,也很难找到合适的数据来训练,进而影响置信度。