使用“扫一扫”即可将网页分享至朋友圈。
吴广奇:主成分分析法在黄金期货量化策略中的应用
我们在研究某些问题时,需要处理带有很多变量的数据。变量和数据虽然很多,但可能存在噪音和冗余。然而,主成分分析法可以用少数变量来代表所有的变量,用来解释研究者所要研究的问题,化繁为简,抓住关键,也就是降维思想。本文以黄金期货为例,通过对其基本面数据进行分析,提取了对黄金影响较大的10个基本面变量,使用主成分分析法对数据进行降维处理,并使用降维后的新变量构建黄金期货的量化择时策略。
主成分分析法的核心思想
我们在研究某些问题时,需要处理带有很多变量的数据。比如,研究房价的影响因素,需要考虑的变量有物价水平、土地价格、利率、就业率等。变量和数据很多,但可能存在噪音和冗余,因为这些变量中有些是相关的,那么就可以从相关的变量中选择一个,或者将几个变量综合为一个变量,作为代表。用少数变量来代表所有的变量,用来解释所要研究的问题,就能化繁为简,抓住关键,这也就是降维的思想。
主成分分析法(Principal Component Analysis,PCA)就是一种运用线性代数的知识来进行数据降维的方法。它将多个变量转换出少数几个不相关的变量来,但转换后的变量能比较全面地反映整个数据集。这是因为数据集中的原始变量之间存在一定的相关关系,可用较少的综合变量来表达各原始变量之间的信息。
具体来看,在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大且和第一变量不相关,称为第二主成分。依次类推,i个变量就有i个主成分。其中,Li为p维正交化向量(Li×Li=1),Zi之间互不相关且按方差由大到小排列,则称Zi为X的第i个主成分。设X的协方差矩阵为Σ,则Σ必为半正定对称矩阵,求特征值λi(按从大到小排序)及其特征向量。可以证明,λi所对应的正交化特征向量,即为第i个主成分Zi所对应的系数向量Li,而Zi的方差贡献率定义为λi/Σλj,通常要求提取的主成分的数量K满足Σλk/Σλj>0.85。
图为相关变量线性转换
主成分分析法的核心思想是降维,而降维的基础是变量之间的相关性。主成分分析法不要求所有变量都相关,但部分变量之间的相关性比较大才能满足降维的条件,否则强制对不相关的变量进行降维,主成分分析法就失去了实际意义。因此,对于价格内在影响因素相关度较强的期货品种,用主成分分析法进行分析研究是比较合适的,而对于影响因素相关度较弱的期货品种不适合。
那么主成分分析法是如何降维的呢?我们从坐标变换的角度来获得一个感性的认识。
图为主成分分析法降维正态分布
在短轴上,观测点数据的变化比较小,如果把这些点垂直地投影到短轴上,那么有很多点的投影会重合,这相当于很多数据点的信息没有被充分利用到。而在长轴上,观测点的数据变化比较大。因此,如果坐标轴和椭圆的长短轴平行,那么代表长轴的变量直接可以从数据集的原始变量中找到,它描述了数据的主要变化。而另一个原始变量就代表短轴的变量,描述的是数据的次要变化。
在极端情况下,短轴退化成一个点,那么就只能用长轴的变量来解释数据点的所有变化,就可以把二维数据降至一维。不过,坐标轴通常并不和椭圆的长短轴平行,就像上图所展示的那样。因此,需要构建新的坐标系,使得新坐标系的坐标轴与椭圆的长短轴重合或平行。这需要用到坐标变换,把观测点在原坐标轴的坐标转换到新坐标系下,同时也把原始变量转换为长轴的变量和短轴的变量,这种转换是通过对原始变量进行线性组合的方式而完成的。
举例来说,一个观测点在原X—Y坐标系中的坐标为(4,5),坐标基为(1,0)和(0,1),如果长轴为斜率是1的线,短轴为斜率是-1的线,新坐标系以长轴和短轴作为坐标轴,那么新坐标基可以取为
和
。我们把两个坐标基按行放置,作为变换矩阵,乘以原坐标,即对原坐标进行线性组合,可以得到该点在新坐标系下的坐标
。可以看到,变换后长轴变量的值远大于短轴变量的值。
如果长轴变量解释了数据集中的大部分变化,那么就可以用长轴变量来代表原来的两个变量,从而把二维数据降至一维。椭圆的长轴和短轴的长度相差越大,这种做法的效果也就越好。本文以黄金期货为例,使用主成分分析法,对影响黄金期货价格的基本面变量数据进行降维,构建其量化交易策略。
影响黄金价格的主要因素
黄金作为一种特殊的大宗商品,具有商品、货币和投资避险的多重属性。本文从黄金的供需、经济数据、金融资产三个维度中,选一些基本面因子对黄金价格的影响进行分析。
首先来看黄金的供需。作为一个大宗商品,黄金的上游供给量受到金矿开采以及废金回收的影响,而主要的下游需求可分为制造业需求(珠宝首饰、工业材料等)和金融投资需求。此外,像央行这样的大型市场参与者的售金、买金行为也会影响市场供需格局。
其次来看经济数据。黄金作为金融投资品,受到所处时期经济周期的影响,比如,经济滞涨时期,黄金的表现通常较好,投资者也更愿意将资金配置在黄金上。经济数据除了描绘当前的经济图景外,也会影响各国央行的货币政策。而以美联储为代表的大国央行的货币政策,也对同时期黄金价格走势产生比较大的影响。
最后来看金融资产。一方面,一些金融资产的变化可以直接影响黄金价格和投资者偏好。比如,在利率较低的时期,黄金的持有成本相对较低,配置价值也相对较高。外汇的波动会直接影响以该货币计价的黄金价格等。另一方面,一些金融资产和黄金受到相同影响因素的影响,价格波动有着较高的相关度,并且能够更好更快地反映当时市场的经济和金融氛围。
根据以上分析,笔者选取了10个与黄金相关度较高的基本面指标进行分析回测,分别是美国10年期国债收益率、美国10年期国债实际收益率、美元指数、VIX恐慌指数、美国失业率、美国新增非农就业人数、美国CPI、美国PPI、美国ISM制造业PMI、各国央行和其他机构黄金需求。
数据处理
数据预处理
商品期货的基本面数据具有种类多、时间离散、公布时间不规律等特点,需要对其进行预处理,预处理的主要目的是将其转化为可以对比分析的数据。对其进行数据公布频率的分类,并将其在时间上进行对齐处理。在数据处理时,要注意美国数据的公布时间和国内数据公布时间的时区差异,以及月度和季度数据公布的滞后性。
Z—Score模型
由于基本面数据量纲不统一,需要将其处理成无量纲且可对比的数据。在基本面分析中,一般采用Z-Score的方法对基本面数据进行处理。Z-score模型是以多变量的统计方法为基础,以破产企业为样本,通过大量的实验,对企业的运行状况、破产与否进行分析、判别的系统。具体处理方法为,将原始数据减去一段时间的均值再除以这段时间数据的标准差。Z-Score数据能够真实地反映一个分数距离平均数的相对标准距离,能确实反映原始数据的波动率信息。
举例来说,假设我们要比较A与B的考试成绩,A的考卷满分是100分(及格60分),B的考卷满分是700分(及格420分)。很显然,A考出的70分与B考出的70分代表着完全不同的意义,但从数值来讲,A与B在数据表中都是用数字70代表各自的成绩。那么如何能够用一个同等的标准来比较A与B的成绩呢?Z-Score就可以解决这一问题。
量化回测
变量选取
首先要确定降维后的变量个数,其次通过对其波动变量方差占比进行分析,最后选出对变量集合波动贡献较大的变量。
图为变量波动方差贡献分布
从波动的贡献来看,波动率贡献最大的前四个变量对数据整体波动率贡献分别为25.24%、16.74%、12.85%和11.76%,均大于10%。考虑到后面两个影响较少和尽量精简模型输入,选取最为重要的两个变量。确定好最终的变量个数后,用主成分分析法对数据进行降维处理,降维后得到两个新的数据序列。
变量分析
为方便识别,降维后的变量序列称为principalcomponent1和principalcomponent2。对原始基本面数据变量进行编码:fx为美国10年期国债收益率;realfx为美国10年期国债实际收益率;dollarindex为美元指数;vixindex为VIX恐慌指数;lossjob为美国失业率;offfarm为美国新增非农就业人数;uscpi为美国CPI环比;usppi为美国PPI环比;uspmi为美国ISM制造业PMI;balancedata为各国央行和其他机构黄金需求量。
图为原始变量和降维后变量关系(绝对值)
从上图可以看出,和降维后数据关系较为密切的变量为美国10年期国债收益率、美国10年期国债实际收益率、美国CPI环比和PPI环比等数据,这说明在这10个基本面的变量中,单个变量对其他的变量影响较大的为以上四个变量。在实际分析中,美国10年期国债收益率、美国10年期国债实际收益具有较高的相关性,CPI和PPI长期走势趋于统一。因此,对基本面影响较大的两个变量可以概括为美国10年期国债收益率和CPI。部分数据,如各国央行和其他机构黄金需求量公布频率较低,经过数据处理后,整体波动不大,弱化了它对其他变量的影响。美元指数和VIX指数尽管公布频率较高,但整体对基本面数据影响较小。
数据回测
对降维后的两个变量进行处理,构建与黄金价格的关系,其较为直接的想法是对两个变量进行赋权,构建成一个包含两个变量的线形变量。
综合变量被设计成一个与黄金期货价格正相关的变量。从原始变量和降维后变量关系图中可以看出,principalcomponent1与美国10年期国债收益率相关度较高,由此可以判断它与黄金价格为负相关关系;principalcomponent2与美国CPI、PPI相关度较高,由此可以判断它与黄金价格为正相关关系。不过,在构建变量时,不能简单地做权重分布,还要考虑方向问题。
图为降维后的变量走势
由于前期做了数据的Z-Score处理,数据本身具有均值回复的特征,类似布林带指标,设定一个阈值,当综合指标低于阈值的反数时,做多黄金期货;在综合指标高于阈值时,做空黄金期货。为充分反映趋势,当做多时,综合指标高于阈值时平仓;当做空时,综合指标低于阈值的反数时平仓,平仓和开仓不同时进行,不做止损和止盈。
数据回测中,采用黄金期货指数,资金不加杠杆,策略的开平仓费率设为0.02%,数据结果仅供投资者参考。用年化波动率对收益净值进行仓位控制,控制目标为年化波动率为10%,其收益走势如下:
图为收益净值和仓位控制后净值
该量化策略近10年时间共交易58次,做多38次,做空20次,持有时间波动较大,最近一次交易为2019年6月10日收盘做多,多单持有至今。策略不经仓位控制的年化收益为8.22%,最大回撤为23.20%;经仓位控制后年化收益为7.15%,最大回撤为10.36%。
总结
本文对黄金期货的基本面数据进行分析,提取了对黄金影响较大的10个基本面变量,使用主成分分析法对数据进行降维处理,并使用降维后的新变量构建黄金期货的量化择时策略。
通过数据回测,笔者发现,基本面数据对黄金的量化择时(利用数量化的方法,通过对各种宏观、微观指标的量化分析,试图找到影响大盘走势的关键信息)起到一定效果,在不加杠杆的情况下,总体年化收益在7%以上。在数据降维后,研究发现,黄金基本面数据较为核心的影响因素为美国10年期国债收益率和CPI,美元指数和VIX指数对基本面数据的整体影响则较弱。
(文章来源:期货日报)
“ETF期权网”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与
我们联系删除或处理,客服邮箱whsxe@qq.com,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同
其观点或证实其内容的真实性。
- 声音提醒
- 60秒后自动更新
中国8月CPI年率2.3%,预期2.1%,前值2.1%。中国8月PPI年率4.1%,预期4.0%,前值4.6%。
08:00【统计局解读8月CPI:主要受食品价格上涨较多影响】从环比看,CPI上涨0.7%,涨幅比上月扩大0.4个百分点,主要受食品价格上涨较多影响。食品价格上涨2.4%,涨幅比上月扩大2.3个百分点,影响CPI上涨约0.46个百分点。从同比看,CPI上涨2.3%,涨幅比上月扩大0.2个百分点。1-8月平均,CPI上涨2.0%,与1-7月平均涨幅相同,表现出稳定态势。
08:00【 统计局:从调查的40个行业大类看,8月价格上涨的有30个 】统计局:从环比看,PPI上涨0.4%,涨幅比上月扩大0.3个百分点。生产资料价格上涨0.5%,涨幅比上月扩大0.4个百分点;生活资料价格上涨0.3%,扩大0.1个百分点。从调查的40个行业大类看,价格上涨的有30个,持平的有4个,下降的有6个。 在主要行业中,涨幅扩大的有黑色金属冶炼和压延加工业,上涨2.1%,比上月扩大1.6个百分点;石油、煤炭及其他燃料加工业,上涨1.7%,扩大0.8个百分点。化学原料和化学制品制造业价格由降转升,上涨0.6%。
08:00【日本经济已重回增长轨道】日本政府公布的数据显示,第二季度经济扩张速度明显快于最初估值,因企业在劳动力严重短缺的情况下支出超预期。第二季度日本经济折合成年率增长3.0%,高于1.9%的初步估计。经济数据证实,该全球第三大经济体已重回增长轨道。(华尔街日报)
08:00工信部:1-7月我国规模以上互联网和相关服务企业完成业务收入4965亿元,同比增长25.9%。
08:00【华泰宏观:通胀短期快速上行风险因素主要在猪价】华泰宏观李超团队点评8月通胀数据称,今年二、三季度全国部分地区的异常天气(霜冻、降雨等)因素触发了粮食、鲜菜和鲜果价格的波动预期,但这些因素对整体通胀影响有限,未来重点关注的通胀风险因素仍然是猪价和油价,短期尤其需要关注生猪疫情的传播情况。中性预测下半年通胀高点可能在+2.5%附近,年底前有望从高点小幅回落。
08:00【中国信通院:8月国内市场手机出货量同比环比均下降】中国信通院公布数据显示:2018年8月,国内手机市场出货量3259.5万部,同比下降20.9%,环比下降11.8%,其中智能手机出货量为3044.8万部,同比下降 17.4%; 2018年1-8月,国内手机市场出货量2.66亿部,同比下降17.7%。
08:00土耳其第二季度经济同比增长5.2%。
08:00乘联会:中国8月份广义乘用车零售销量176万辆,同比减少7.4%。
08:00央行连续第十四个交易日不开展逆回购操作,今日无逆回购到期。
08:00【黑田东彦:日本央行需要维持宽松政策一段时间】日本央行已经做出调整,以灵活地解决副作用和长期收益率的变化。央行在7月政策会议的决定中明确承诺将利率在更长时间内维持在低水平。(日本静冈新闻)
08:00澳洲联储助理主席Bullock:广泛的家庭财务压力并非迫在眉睫,只有少数借贷者发现难以偿还本金和利息贷款。大部分家庭能够偿还债务。
08:00【 美联储罗森格伦:9月很可能加息 】美联储罗森格伦:经济表现强劲,未来或需采取“温和紧缩”的政策。美联储若调高对中性利率的预估,从而调升对利率路径的预估,并不会感到意外。
08:00美联储罗森格伦:经济表现强劲,未来或需采取“温和紧缩”的政策。美联储若调高对中性利率的预估,从而调升对利率路径的预估,并不会感到意外。
08:00美联储罗森格伦:鉴于经济表现强劲,未来或需采取“温和紧缩的”政策。
08:00
热门文章
- 1.万亿市场大消息!场外期权迎来扩容窗口?容量最多可提升80%如何影响A股?这类券商或最受益
- 2.50etf期权分仓软件操作是不是实盘交易
- 3.50etf期权时间价值?50ETF期权时间价值为什么重要?
- 4.场外期权交易商增至41家!场外衍生品规模近1.5万亿元
- 5.中证协发布场外期权管理办法场外期权挂钩个股标的范围扩大
- 6.“最赚钱业务”恢复高增长!场外期权增速超五成,华泰稳居榜首,中信建投增长最快,集中度快速下滑
- 7.50etf期权自己能开户吗?50ETF期权怎么交易?
- 8.场外期权和一般期权的实质性不同在哪?
- 9.熬过50天,四大星座财源滚滚而来,学业大获丰收,禄星化禄
- 10.50ETF期权对投资者有哪些影响?