登录    注册    忘记密码

专利详细信息

一种基于机器学习的数据库性能预测方法       

文献类型:专利

专利类型:发明专利

是否失效:

是否授权:

申 请 号:CN202411666414.8

申 请 日:20241120

发 明 人:周经森 孙志超

申 请 人:浙江大学 浙江大学软件学院(宁波)管理中心(宁波软件教育中心)

申请人地址:310058 浙江省杭州市西湖区余杭塘路866号

公 开 日:20250509

公 开 号:CN119961110A

代 理 人:潘瑛超

代理机构:宁波奥圣专利代理有限公司

语  种:中文

摘  要:本发明公开了一种基于机器学习的数据库性能预测方法,特点是获取配置参数空间并确定每个配置参数的取值范围;基于机器学习进行特征提取,得到最优特征子集;多次对最优特征子集进行随机采样,得到多个第二样本;使用YCSB获取每个第二样本的数据库响应延迟,作为数据库性能标签;获取多个数据库运行环境,基于性能基准测试工具进行压力测试,得到每个数据库运行环境下的性能评价指标;将所有第二样本、所有性能评价指标以及数据库性能标签输入至基于贝叶斯优化的XGBoost模型中进行拟合,得到性能预测模型;将待测数据库的配置参数空间和性能评价指标输入至性能预测模型中,完成性能预测;优点是提高了数据库性能预测结果的准确性和可靠性。

主 权 项:1.一种基于机器学习的数据库性能预测方法,其特征在于包括以下步骤:步骤①,通过人工筛选将待测数据库中与性能无关的配置参数删除,并将剩余的配置参数组成配置参数空间;步骤②,根据数据库说明文档确定配置参数空间中每个配置参数的取值范围,得到确定取值范围后的配置参数空间;步骤③,基于机器学习对确定取值范围后的配置参数空间进行特征提取,得到最优特征子集,具体操作过程如下:步骤③-1,将确定取值范围后的配置参数空间记为C;步骤③-2,根据每个配置参数的取值范围,对C中每个配置参数进行k次随机采样,得到k个第一样本,将所有第一样本组成样本集;步骤③-3,对样本集进行标注,得到标注后的样本集,具体为:使用YCSB对样本集中的每个第一样本进行性能压力测试,得到每个第一样本的响应延迟,并作为每个第一样本的标签值,将所有带有标签值的第一样本组成标注后的样本集;步骤③-4,构建随机森林模型:步骤③-4-1,采用自助法对标注后的样本集中的第一样本进行多次抽样,将每一次抽样得到的第一样本组成一个子数据集;步骤③-4-2,在每个子数据集中随机选择A个配置参数作为该子数据集的候选特征;步骤③-4-3,根据每个子数据集的候选特征构建对应的决策树,在构建决策树时使用基尼指数作为分裂属性的判断准则;步骤③-4-4,将所有构建的决策树进行组合,得到随机森林模型;步骤③-5,获取随机森林模型中各个配置参数的SHAP值,所述的SHAP值用于量化每个配置参数对随机森林模型预测结果的边际贡献,具体的:将配置参数g对第一样本x预测结果的贡献,即SHAP值记为SHAPg(f,x),

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心