◆自然语言处理
自然语言处理始于年计算机科学之父图灵,在60年的发展过程中,基本可以分为两个阶段,第一阶段研究者采用电脑模拟人脑的过程,至70年代,传统语言学家走到了尽头,研究成果有限;第二阶段贾里尼克和他领导的IBM华生实验室开启利用统计学方法来进行自然语言处理之先河,获得了巨大成就,其实验室团队堪称史上最豪华阵容,后来解散后布朗与达拉皮垂兄弟去了文艺复兴科技公司,在西蒙斯退休后布朗已经出任CEO,该公司创造了投资奇迹,几十年经久不败,本文将采用统计语言模型来识别市场涨跌进而形成交易策略。
◆统计语言模型SLM
语音识别专家要识别一段语言,即选择一组可能性最大的句子,首先将句子分词,然后根据语料库估算一个给定语句的可能性,从而选择可能性最大的语句作为识别结果。股市择时中,我们将历史行情数据进行符号化之后,转化为涨跌符号序列,在给定过去一段时间内的涨跌序列后,我们计算该条件下的未来涨跌的条件概率,较大者为预测结果,相比较而言,我们的语料库为历史数据。
◆实证交易结果
以至年为初始语料库,至年为样本内来寻找最佳模型阶数,根据历史收益最大化原则,确定模型阶数为6。设置1%为止损幅度,该止损幅度的意义在于当日盘中的波动较昨日收盘价的变动幅度在不利方向超过或等于1%时,我们触发止损机制,强制平仓,否则持有到15点,观察次日涨跌信号再进行判断。从交易结果来看,年至年累计收益率.2%,年化收益率80.3%,胜率46.1%,最大回撤-21.5%,样本外、、、年度分别取得9.4%、20.2%、22.5%、32.5%的累计收益率,四个年份对应的最大回撤分别为-11.5%、-6.8%、-11.1%、-11.8%。单纯择时不考虑止损下结果为,年至年累计收益率.2%,年化收益率75%,胜率53.1%,最大回撤-31.7%,样本外、、、年度分别取得6.4%、16%、17.6%、29%的累计收益率,四个年份对应的最大回撤分别为-21.3%、-9.0%、-8.3%、-14.1%。综合考虑,实际运用建议加止损的模式。
◆样本外跟踪结果
本篇报告自年1月发布,样本外跟踪超过七年,风险收益情况良好。
◆风险提示:报告通过历史数据进行建模,但由于市场具有不确定性,模型仅在统计意义下有望获得投资业绩。另外,本报告不构成任何投资建议。
详细内容请参考广发金融工程研究报告:
0114:《基于统计语言模型(SLM)的择时交易研究》
:《量化交易策略月报(年8月2日)》
法律声明:本