登录    注册    忘记密码

专利详细信息

一种基于主动学习的开放域小样本文本学习方法       

文献类型:专利

专利类型:发明专利

是否失效:

是否授权:

申 请 号:CN202210927182.1

申 请 日:20220803

发 明 人:陈霄鹏

申 请 人:电信科学技术第十研究所有限公司

申请人地址:710061 陕西省西安市雁塔区雁塔西路6号

公 开 日:20250708

公 开 号:CN115344696B

代 理 人:刘涛

代理机构:西安凯多思知识产权代理事务所(普通合伙) 61290

语  种:中文

摘  要:本发明公开了一种基于主动学习的开放域小样本文本学习方法,首先对小样本文本数据特征编码并初始化小样本模型;再采用主动学习算法获取正确数据集与候选集数据,对候选数据集编码;然后对编码后的候选数据集进行聚类分析,得到最优数目的聚类簇;将最优数目的聚类簇重新聚类,判别出最优簇;进行标注后生成新类别的文本数据以及小样本文本增量数据,将主动学习出的正确数据集、新类别的文本数据、小样本文本增量数据添加至小样本文本数据集;重复执行最终得到充分的文本数据集。本发明将主动学习与小样本学习融合,利用小样本学习的优势,经过主动学习的多次迭代,减少人工标注的数量以及次数,从而使得模型能够快速的落地应用。

主 权 项:1.一种基于主动学习的开放域小样本文本学习方法,其特征在于,包括如下步骤:步骤101:小样本文本数据特征编码;将小样本文本数据集的数据编码成特征向量:如果小样本文本数据的分类模型采用存在预训练模型的分类模型,则使用该分类模型的预训练模型进行特征向量编码;如果小样本文本数据的分类模型不存在预训练模型,则随机编码生成特征向量;步骤102:初始化小样本模型;将已经编码的特征向量输入小样本文本数据的分类模型,训练得到小样本模型;步骤103:获取正确数据集与候选集数据;将未标注的文本数据通过步骤101的编码方法编码后,输入至小样本模型,通过投票熵主动学习算法得到正确数据集和需要人工标注的候选数据集;步骤104:候选数据集编码;将候选数据集通过步骤101的编码方法进行编码;步骤105:对编码后的候选数据集进行聚类分析;通过多次迭代计算簇的误差平方和,找到误差平方和的拐点,得到最优数目的聚类簇;步骤106:将最优数目的聚类簇重新聚类,对现有标签的小样本文本数据进行预测,通过寻找预测簇中包含最多已知标签,判别出最优簇;步骤107:对最优簇进行标注;步骤108:对最优簇进行判别和标注后标注数据会生成新类别的文本数据以及小样本文本增量数据,将主动学习出的正确数据集、新类别的文本数据、小样本文本增量数据添加至小样本文本数据集;步骤109:设定重复次数,重复执行步骤101至步骤108;步骤110:步骤109的重复执行结束后,得到充分的文本数据集。

关 键 词:主动学习  开放域  小样本 文本学习 文本数据  特征编码  数据集 数据编码 特征向量  分类模型  训练模型  向量编码  随机编码  生成  初始化  样本模型  输入  正确数据  候选集 标注  数据通过  编码方法编码  投票 学习算法  人工标注  候选数据集  行编码  聚类分析  多次迭代  计算簇  

IPC专利分类号:G06F 16/35;G06F 18/23213;G06N 3/084;G06N 3/045;G06N 3/0464

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心