银万资本

重要提示

在继续浏览本网站前，敬请您仔细阅读本重要提示，并将页面滚动至本页结尾“同意并接受”或“不同意”，根据您的具体情况选择继续浏览或放弃。点击“同意并接受”，视为您已经阅读并认定自己符合合格投资者条件，且愿意遵守本提示内容。

一、私募基金合格投资者认定标准

1、根据《中华人民共和国证券投资基金法》、《私募投资基金监督管理暂行办法》等法律法规规定，私募基金的合格投资者应为具备相应风险识别能力和风险承担能力、投资于单只私募基金产品的金额不低于100万元人民币且符合下列相关标准的单位和个人：

（1）净资产不低于1000 万元的单位；

（2）金融资产不低于300 万元或者最近三年个人年均收入不低于50 万元的个人。

前款所称金融资产包括银行存款、股票、债券、基金份额、资产管理计划、银行理财产品、信托计划、保险产品、期货权益等。

2、下列投资者视为合格投资者：

（一）社会保障基金、企业年金等养老基金，慈善基金等社会公益基金；

（二）依法设立并在基金业协会备案的投资计划；

（三）投资于所管理私募基金的私募基金管理人及其从业人员；

（四）中国证监会规定的其他投资者。

二、市场有风险，投资需谨慎。投资者购买基金，既可能按其持有的份额享受基金投资产生的收益，也可能承担基金投资所带来的损失。管理人过往的业绩数据并不预示其未来的表现，投资者不应依赖本网站所提供的数据做出投资决策。

三、本网站所载的各种信息和数据等仅供参考，并不构成广告或销售要约、不构成任何形式的投资建议。投资者应仔细审阅相关基金产品的合同等文件以了解其风险因素，并自行承担所作出投资决策之相应风险。

四、本网站所载的各种信息和数据等是我们认为合法或已公开的信息，但仅代表本公司于发布当时的分析与判断，可能在您阅读时资料的准确性或完整性已发生变化。本公司网站部分信息内容来源于第三方，但我们不对第三方所提供之有关资料的准确性、充足性或完整性作出任何保证。公司及雇员不对于本网站内第三方所提供之资料的任何错误或遗漏负任何法律责任，敬请投资者审慎鉴别、判断。

五、本网站所刊载的所有资料浙江银万斯特投资管理有限公司可予以更改或修订而毋须前事通知，浙江银万斯特投资管理有限公司并不承诺定期更新本网页。

六、本网站知识产权属于浙江银万斯特投资管理有限公司。未经本公司书面许可，您不得复印、复制或再转发本网站资料的全部或其任何部分。对侵犯本公司合法利益之行为，本公司保留追究相关方责任的权利。

接受并继续访问不同意并放弃

资讯中心

<<银万研究

银万研究：量化交易中的XGBoost算法介绍

2024-01-12

随着ChatGPT应用越来越多，量化基金规模越来越大，机器学习字眼不断冲击投资者眼球，XGBoost算法作为机器学习的一种优秀算法，在数据科学与工业数据方面运用有非常强的鲁棒性，被一部分人运用与喜爱。

一、机器学习简介

机器学习（Machine Learning, ML）是一门涉及多领域交叉学科的学科，包括概率论、统计学、逼近论、凸分析、算法复杂度理论等多个学科。机器学习专注于研究计算机如何模拟或实现人类的学习行为，以获取新的知识或技能，并通过重新组织已有的知识结构来不断改善自身的性能。机器学习被视为人工智能的核心，是使计算机具备智能的基本途径。机器学习算法通常可分为三大类：1）监督学习；2）无监督学习；3）强化学习。

1） 监督学习

在监督学习中，数据包含带标签的输出（或目标）变量。通过建立监督式机器学习模型，其目标是通过发现或近似数据集中的剩余变量（即特征）来进行输出预测。换句话说，监督学习指的是我们向算法提供一个包含正确答案的数据集，并要求机器通过学习数据中的模式和关联来推断正确答案的计算方法。

给照片打的标签就是“正确答案”，机器通过大量学习，就可以学会在新照片中认出猫和狗

2）非监督学习
非监督学习方法的目标是在几乎没有人工干预的情况下，识别具有相同或相似模式的数据子组或集群。这种方法有时被称为聚类分析。一些常见的无监督学习方法包括 k 均值聚类、分层聚类、主成分分析和异常检测。简而言之，在非监督学习中，给定的数据集没有所谓的“正确答案”，所有数据都被视为相同。无监督学习的任务是从提供的数据集中挖掘潜在的结构。与监督学习相比，非监督学习方法依赖于未标记的数据，即没有标记的输出。

把一堆猫和狗的照片给机器，不给这些照片打任何标签，但是希望机器能够将这些照片分分类, 机器可以将猫和狗分开，但是并不知道哪个是猫，哪个是狗。

3）强化学习

最后，强化学习是一种独特的方法，它融合了顺序决策过程，可能在某些方面具有监督学习和无监督学习的共同特征。该方法通过反复试验来教导机器从过去的经验中学习，并根据环境调整其行动，最终产生最大的回报。由于强化学习更贴近生物学习的本质，因此有望实现更高层次的智能。其核心关注点在于智能体如何在环境中采取一系列行为，以获取最大的累积回报。通过强化学习，智能体应该能够了解在何种状态下采取何种行为。

机器学习一般包括7个实践步骤

二、XGBoost算法简介

机器学习中的XGBoost算法，它通常用于监督学习。

XGBoost是极限梯度提升（eXtreme Gradient Boosting）的缩写。顾名思义，XGBoost是一种在梯度提升（Gradient Boosting）框架下实现的机器学习算法。本质上它还是一个梯度提升算法，但是力争把速度和效率发挥到极致，所以叫X (Extreme) GBoosted。它是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT（梯度提升迭代决策树）算法并进行了算法和工程上的许多改进。被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。

在理解XGBoost之前，让我们先了解一下决策树。

决策树： 顾名思义，决策树是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果。比如下图的决策树模型：

XGBoost的核心思想：

XGBoost通过组合多个决策树来构建一个强大的模型，而且它不仅仅是组合，还引入了梯度提升的思想。即不断地进行特征分裂来生长一棵树，每添加一棵树，就是学习一个新函数，去拟合上次预测的残差。

比如下面一个例子：预测一家人对电子游戏的喜好程度

假设我们要预测一家人对电子游戏的喜好程度，考虑到年轻和年老相比，年轻更可能喜欢电子游戏，我们将一个家庭的成员分类为不同的叶子，并在相应的叶子上给他们分配分数。

模型的预测精度由模型的偏差和方差共同决定，损失函数代表了模型的偏差，想要方差小则需要在目标函数中添加正则项，用于防止过拟合。所以目标函数由模型的损失函数L与抑制模型复杂度的正则项Ω组成。

XGBoost的目标函数如下图所示：

XGBoost目标函数是损失函数（红色箭头1）+正则项（红色箭头2）+常数项（红色箭头3）。此外，对于f(x)，XGBoost利用泰勒展开三项，做一个近似目的是预测目标误差越小越好，因为XGBoost将多棵树的得分累加得到最终的预测得分（每一次迭代，都在现有树的基础上，增加一棵树去拟合前面树的预测结果与真实值之间的残差）。

了解了如何优化和计算XGBoost，但是树的具体结构是怎样的呢？一棵树的生成过程是从一个节点开始，不断进行二分裂，最终形成整棵树。在XGBoost的原始论文中，作者提出了一种分裂节点的方法：采用贪心算法枚举所有可能的树结构。通过不断枚举不同树的结构，利用打分函数找到最优结构的树，然后将其加入模型，反复执行这一过程。这个搜索过程采用贪心算法，即选择一个特征进行分裂，计算损失函数的最小值，然后选择另一个特征进行分裂，得到另一个损失函数的最小值……一直枚举完所有可能性后，选择效果最好的分裂方式，将树进行分裂，从而得到小树苗。

知道了XGBoost的工作原理，那XGBoost具体工作可分为模型的训练和预测两个阶段：

训练阶段：

①初始化模型：XGBoost首先初始化一个弱的回归树作为初始模型，将其预测值作为基准。

② 迭代优化：

通过多次迭代，每次迭代都训练一颗新的树来纠正前面模型的错误。具体步骤如下：

计算残差（Residuals）： 计算当前模型对于每个样本的预测值与实际值之间的残差。

构建回归树： 基于残差，训练一颗新的回归树，该树的叶子节点包含了样本的残差的累积。

计算树的输出： 计算新树的输出，将其加到前面模型的输出上。

更新模型： 通过学习率（通常是一个小的正数）乘以新树的输出，得到一个权重，然后将这个权重加到前面模型上。

③正则化：为了防止过拟合，XGBoost在每次迭代时都会引入正则化项，考虑到新树的复杂度。这通过控制每个叶子节点上分数的大小来实现。

④重复迭代：不断重复迭代，每一轮都在之前模型的基础上构建新的树，逐步改善模型的拟合能力，直至达到设定的迭代次数或模型性能收敛。

预测阶段：