可左右滑动选省市

基于半监督迁移学习的药物敏感性预测方法和装置-9479威尼斯

更新时间:2024-08-01
基于半监督迁移学习的药物敏感性预测方法和装置 类型:发明专利;
地区:广西-南宁;
源自:南宁高价值专利检索信息库;

专利名称:基于半监督迁移学习的药物敏感性预测方法和装置

专利类型:发明专利

专利申请号:cn202210760776.8

专利申请(专利权)人:广西大学
权利人地址:广西壮族自治区南宁市西乡塘区大学东路100号

专利发明(设计)人:王丽,钟诚,石娟

专利摘要:本发明公开了基于半监督迁移学习的药物敏感性预测方法及装置,该方法包括如下步骤:1)通过预处理获取细胞系数据作为源域样本集,获取临床肿瘤数据作为目标域样本集;2)构建基于半监督迁移学习的药物敏感性预测模型,模型包括特征提取器、预测子网络和对抗学习子网络三个模块;特征提取器使用细胞系和临床数据进行特征提取,并将提取的特征输入到预测子网络和对抗学习子网络中;预测子网络接收特征提取器的特征后进行训练学习,对抗学习子网络通过对抗学习进一步训练特征提取器;3)将细胞系和临床数据样本集划分为训练集和测试集,使用训练集数据训练药物敏感性预测模型,利用训练好的预测模型进行药物敏感性预测。本发明方法结合了迁移学习、半监督学习和对抗学习的优点,建立了有效的预测模型,旨在提高药物反应预测模型在临床上应用的准确度。

主权利要求:
1.基于半监督迁移学习的药物敏感性预测方法,其特征在于,包括如下操作步骤:
步骤1:进行数据预处理,获取细胞系中长非编码rna的基因表达和药物反应数据建立源域样本集,获取临床肿瘤样本中长非编码rna的基因表达和药物反应数据建立目标域样本集;设定源域为ds={(xs,ys)},其中xs表示细胞系的长非编码rna的基因表达,ys表示细胞系的药物反应;目标域dt={(xt,yt)},其中xt表示患者肿瘤样本中长非编码rna的基因表达,yt表示细胞系的药物反应;根据是否具有药物反应数据将目标域dt分为两部分:一部分是已标记目标域dtl,一部分是未标记目标域dtu,即dt=dtl∪dtu;已标记目标域dtl={(xtl,ytl)},其中xtl表示已标记患者肿瘤样本的长非编码rna基因表达,ytl表示已标记患者肿瘤样本的药物反应;未标记目标域为dtu={(xtu)},其中xtu表示未标记患者肿瘤样本的长非编码rna基因表达;
步骤2:构建药物敏感性预测模型,该预测模型包括特征提取器f、预测子网络和对抗学习子网络三个模块;特征提取器f对来自细胞系和临床肿瘤样本的基因表达数据进行特征提取,并将特征输入到预测子网络和对抗学习子网络中;预测子网络是一个多任务学习包括两个部分:一个是源任务的非线性神经网络回归模型,它根据临床前细胞系的基因表达和药物反应数据,进行有监督学习;另一个是目标任务的非线性神经网络分类模型,它根据临床患者肿瘤样本中有标记的基因表达和药物反应数据,进行有监督学习;对抗学习子网络包括一个域判别器d和两个类域判别器c0和c1;
构建预测模型后,将细胞系和临床数据样本集划分为训练集和测试集,使用训练集数据训练药物敏感性预测模型,利用训练好的预测模型对测试集数据进行药物敏感性预测;
药物敏感性预测模型的训练过程如下:
(1)使用细胞系和临床患者肿瘤数据对特征提取器f(·)进行优化;
所述特征提取器f采用自编码神经网络的自编码器模块,包括编码器encoder和解码器decoder两部分,设f为编码器的编码函数,g为解码器的解码函数,自编码器模块通过公式(1)的优化函数进行优化,以使得损失 最小,优化后将编码器encoder作为预测模型的特征提取器f:其中,输入样本集x={x1,x2,…,x|x|},包括细胞系中长非编码rna的基因表达数据xs、已标记的肿瘤样本基因表达数据xtl和未标记的肿瘤样本基因表达数据xtu,即x=xs∪xtl∪xtu,i=1,2,…,|x|;
(2)使用细胞系数据和临床患者肿瘤数据通过半监督学习进一步优化特征提取器f和预测子网络;
为了使特征提取器能够学习到更多的临床数据信息,采用最大最小熵的方法进行半监督学习,并通过如下公式(2)使用无标记的肿瘤样本数据计算条件熵h:其中p(y=k|xtu)表示预测子网络的目标任务将未标记的肿瘤样本xtu预测为类别k的置信度,k={0,1};
优化操作如下:
首先,固定特征提取器f,根据已标记的细胞系数据和临床数据优化预测子网络p(·),以使损失 最小化,同时最大化熵h的损失 优化函数如公式(3)至公式(5)所示;预测子网络p(·)是一个多任务模型,损失函数 包括 和 两部分:其中, 表示使用细胞系数据的回归任务的损失, 表示使用临床肿瘤样本数据的分类任务的损失,xs∈xs,xs是细胞系的基因表达数据集,ys∈ys,ys是细胞系的药物反应数据集,xtl∈xtl,xtl是已标记的患者肿瘤基因表达数据集,ytl∈ytl,yt是患者肿瘤的药物反应标记数据集, 是源任务对输入的细胞系基因表达样本xs的预测值, 是目标任务对输入的患者肿瘤基因表达样本xtl的预测值;
然后,固定预测子网络,根据已标记的细胞系数据和肿瘤样本数据进一步优化特征提取器f(·),以使损失 最小化,同时最小化熵h的损失 优化函数如公式(6)至公式(8)所示,其中, 表示使用细胞系数据的回归任务的损失, 表示使用临床肿瘤样本数据的分类任务的损失;
通过半监督学习,特征提取器和预测子网络的总损失值 如公式(9)所示:
其中 为最小最大熵h的损失;
(3)预测子网络中域判别器d(·)和类域判别器c(·)的优化;
通过域判别器d(·)可以实现细胞系数分布和肿瘤样本数据之间的边缘分布对齐,优化域判别器d(·),以使损失 最小,优化函数如公式(10)所示:通过类域判别器c(·)可以实现细胞系数分布和肿瘤样本数据之间的条件分布对齐,优化类别判别器,使得损失 最小,优化函数如公式(11)所示:其中k=0,1,分别表示两个类域判别器c0(x)和c1(x), 表示药物反应为第k类的细胞系基因表达数据集, 表示药物反应为第k类的患者肿瘤基因表达数据集;
因此,药物敏感性预测算法的总损失为:
其中λi为平衡训练中各项损失的权重系数,且
2.根据权利要求1所述基于半监督迁移学习的药物敏感性预测方法,其特征在于,步骤
1中,所述数据预处理的具体操作是:
(1)获得药物列表drug_list
分别从gdsc数据库和tcga数据库中获得药物名称数据,去掉重复数据,保留gdsc和tcga两个数据集中都包含的药物名称,最后形成药物列表drug_list;
(2)获得lncrnas列表lncrna_list
先从基因数据集文件中提取lncrnas,进行去重、合并,形成包含lncrnas的原始数据集合l_original;然后,将gdsc数据库和tcga数据库中基因表达数据的基因与原始数据集合l_original比较,最终形成包含lncrnas的列表lncrna_list,该列表中的所有lncrnas同时出现在tcga基因表达数据集和gdsc基因表达数据集中;
(3)获得疾病列表disease_list
通过合并tcga数据库和gdsc数据库中的疾病名称,获得疾病列表disease_list;
(4)临床前细胞系数据处理
首先,对从gdsc数据库下载得到的细胞系基因表达和药物反应2个数据集中的细胞系进行合并、去重,形成同时具有细胞系基因表达和药物反应的细胞系集合cellline_list,然后,处理细胞系药物反应数据,得到细胞系集合cellline_list中的细胞系和药物列表drug_list中的药物的药物反应数据;最后,处理细胞系基因表达数据,保留只包含细胞系集合cellline_list中的细胞系和列表lncrna_list中的lncrnas的基因表达数据;
(5)临床患者肿瘤样本数据处理
首先,通过tcgabiolinks工具包,从tcga数据库中下载患者肿瘤样本的药物反应和基因表达的临床数据;然后,处理患者肿瘤的药物反应数据,分别形成每种药物的药物反应数据集;对于药物列表drug_list中的每种药物,根据临床药物反应信息,找到该药物治疗的所有病人的药物反应数据形成临床药物反应数据集;最后,处理患者肿瘤的基因表达数据,根据药物反应数据集中的病人编号,确定该病人样本对应的基因表达数据,最终形成与每种药物的药物反应数据集对应的基因表达数据集。
3.根据权利要求1或2所述基于半监督迁移学习的药物敏感性预测方法采用的装置,其特征在于,包括数据输入模块、特征提取器、预测子网络模块和对抗学习子网络模块,所述预测子网络模块包括并联设置的源任务模块和目标任务模块,对抗学习子网络模块包括并联设置的域判别器和类域判别器;特征提取器的输入端连接数据输入模块,特征提取器的输出端分别连接预测子网络模块和对抗学习子网络模块;所述特征提取器采用自编码神经网络结构,其包括编码器encoder和解码器decoder两部分,通过特征提取器对来自细胞系和临床肿瘤样本的输入数据进行特征提取,并将特征输入到源任务模块、目标任务模块以及域判别器和类域判别器中,预测子网络模块可根据特征进行药物反应预测,对抗学习子网络模块中的域判别器可判别所有特征来自细胞系还是来自临床肿瘤样本,类域判别器可判别属于同一类特征来自细胞系还是来自临床肿瘤样本,同一类特征是指有药物反应的基因表达特征或者无药物反应的基因表达特征,将有反应的基因表达特征数据送入一个类域判别器中,以判别特征是来自细胞系还是患者肿瘤样本;无反应的基因表达特征数据送入另一个类域判别器中,以判别特征是来自细胞系还是患者肿瘤样本。 说明书 : 基于半监督迁移学习的药物敏感性预测方法和装置技术领域[0001] 本发明属于药物敏感性检测与评价技术领域,具体涉及一种基于半监督迁移学习的药物敏感性预测方法和装置。背景技术[0002] 准确预测细胞系或肿瘤细胞对药物的敏感性,是癌症实现精准治疗的关键。出于时间和资金考虑等原因,通过生物学实验筛选所有可能的候选药物或药物组合非常困难。因此,研究、设计和开发预测药物反应的计算方法可以限制搜索空间,指导发现过程,减少实验工作。[0003] 准确预测药物反应需要大量的患者药物反应数据,但是获得真实患者反应数据既耗时又昂贵。现有的临床数据集(如癌症基因组图谱tcga数据集)没有足够的患者记录和药物反应信息,而细胞系相对容易获得,因为它们是从临床肿瘤样本中提取并培养的。这些细胞系数据为研究人员研究药物反应机制提供了有利的数据支持。最近几年来,出现一些基于细胞系数据研究的药物反应预测算法,例如专利申请公开号为cn114255886a的技术方案中公开的一种基于多组学相似度引导的药物敏感性预测方法和装置,基于细胞系的多种组学数据进行药物敏感性预测,专利申请公开号为cn108830040b公开的一种基于细胞系和药物相似性网络的药物敏感性预测方法,也是基于细胞系数据进行药物反应预测。[0004] 上述药物反应预测方法是基于细胞系数据和肿瘤患者数据属于同一分布的考虑,利用细胞系数据对模型进行训练,然后将训练好的预测模型直接转移到肿瘤样本中进行临床应用。但是,癌细胞系是在实验室中生长的,它与患者的肿瘤数据之间存在明显的差异,例如细胞系中缺乏免疫系统。一些在患者肿瘤中没有出现的基因或突变可能会出现在癌细胞系中。此外,肿瘤是细胞类型的复杂混合物,癌细胞系通常仅由一种类型的细胞组成。由于细胞系数据和患者肿瘤数据存在差异,所以将只使用细胞系数据训练得到的预测模型直接应用于预测临床肿瘤样本的药物反应,得到的预测效果较差。因此,一些研究考虑将临床数据引入建模,以提高预测模型临床应用的准确性,但这些方法存在如下不足:(1)只使用tcga临床数据对预测模型中的特征提取器进行预训练,但整个模型的训练仍然使用细胞系数据。(2)采用领域自适应方法,最小化细胞系和临床数据之间的散度准则,获得公共特征表示,使得预测装置能够在细胞系和临床上都获得同样好的预测性能,但缺点是只使用了已标记的细胞系数据,没有使用已标记的临床药物反应数据。(3)采用对抗式迁移学习,学习域不变的特征空间,可将细胞系知识迁移到临床预测任务中,但缺点是只使用已标记(有药物反应的)的临床数据,没有使用到临床中大量存在的未标记(没有药物反应的)数据。[0005] 因此,目前尚未有较好的模型和训练策略可以同时使用细胞系,以及临床中的未标记和已标记数据实现对药物敏感性的预测。发明内容[0006] 本发明所要解决的技术问题是提供一种基于半监督迁移学习的药物敏感性预测方法和装置,以解决细胞系和临床数据存在差异、临床数据相对较少,以及药物敏感性预测装置在临床上应用的准确率低的问题。本发明通过利用迁移学习,将临床前大量已标记过细胞系数据的知识迁移到临床预测任务,以提高临床预测任务的预测精度;通过利用半监督学习,充分利用未标记的临床肿瘤样本数据,以提高特征提取器对于目标域基因表达数据的特征提取能力;通过利用对抗学习,实现临床前细胞系和临床患者样本数据间的边缘分布和条件分布对齐,以使共享特征空间中的联合分布误差最小化。[0007] 本发明以如下技术方案解决上述技术问题:[0008] 本发明基于半监督迁移学习的药物敏感性预测方法,包括如下操作步骤:[0009] 步骤1:进行数据预处理,获取细胞系中长非编码rna的基因表达和药物反应数据建立源域样本集,获取临床肿瘤样本中长非编码rna的基因表达和药物反应数据建立目标域样本集;设定源域为ds={(xs,ys)},其中xs表示细胞系的非编码rna基因表达,ys表示细胞系的药物反应;目标域dt={(xt,yt)},其中xt表示患者肿瘤样本的非编码rna基因表达,yt表示细胞系的药物反应;根据是否具有药物反应数据将目标域dt分为两部分:一部分是已标记目标域dtl,一部分是未标记目标域dtu,即dt=dtl∪dtu;已标记目标域dtl={(xtl,ytl)},其中xtl表示已标记患者肿瘤样本的非编码rna基因表达,ytl表示已标记患者肿瘤样本的药物反应;未标记目标域为dtu={(xtu)},其中xtu表示未标记患者肿瘤样本的非编码rna基因表达;[0010] 步骤2:构建药物敏感性的预测模型,该预测模型包括特征提取器f、预测子网络p以及对抗学习子网络;特征提取器f对来自细胞系和临床肿瘤样本的输入数据进行特征提取,并将特征输入到预测子网络和对抗学习子网络中;预测子网络包括源任务和目标任务两部分:一个是源任务的非线性神经网络回归模型,它根据临床前细胞系的基因表达和药物反应数据,进行有监督学习;另一个是目标任务的非线性神经网络分类模型,它根据临床患者肿瘤样本中有标记的基因表达和药物反应数据,进行有监督学习;对抗学习子网络包括一个域判别器d和两个类域判别器c0和c1,利用特征提取器提取的特征通过对抗学习方式提高特征提取器提取同时适应细胞系和临床肿瘤样本基因表达特征的能力;[0011] 构建预测模型后,将细胞系和临床数据样本集划分为训练集和测试集,使用训练集数据训练药物敏感性预测模型,利用训练好的预测模型对测试集数据进行药物敏感性预测;药物敏感性预测模型的训练过程如下:[0012] (1)使用细胞系和临床患者肿瘤数据对特征提取器f(·)进行优化[0013] 所述特征提取器f采用自编码神经网络的编码器模块,包括编码器encoder和解码器decoder两部分,设f为编码器的编码函数,g为解码器的解码函数,编码器模块通过公式(1)的优化函数进行优化,以使得损失 最小,优化后将编码器encoder作为预测模型的特征提取器f:[0014][0015] 其中,输入样本集x={x1,x2,…,x|x|},包括细胞系中长非编码rna的基因表达数据xs、已标记的肿瘤样本基因表达数据xtl和未标记的肿瘤样本基因表达数据xtu,即x=xs∪xtl∪xtu,i=1,2,…,|x|;[0016] (2)使用细胞系数据和临床患者肿瘤数据通过半监督学习进一步优化特征提取器f和预测子网络p[0017] 为了使特征提取器能够学习到更多的临床数据信息,采用最大最小熵的方法进行半监督学习,并通过如下公式(2)使用无标记的肿瘤样本数据计算条件熵h:[0018][0019] 其中p(y=k|xtu)表示预测子网络的目标任务将未标记的肿瘤样本xtu预测为类别k的置信度,k={0,1}。[0020] 优化操作如下:[0021] 首先,固定特征提取器f,根据已标记的细胞系数据和临床数据优化预测子网络p(·),以使损失 最小化,同时最大化熵h的损失 优化函数如公式(3)至公式(5)所示;预测子网络p(·)是一个多任务模型,损失函数 包括 和 两部分:[0022][0023][0024][0025] 其中, 表示使用细胞系数据的回归任务的损失, 表示使用临床肿瘤样本数据的分类任务的损失,xs∈xs,xs是细胞系的基因表达数据集,ys∈ys,ys是细胞系的药物反应数据集,xtl∈xtl,xtl是已标记的患者肿瘤基因表达数据集,ytl∈ytl,yt是患者肿瘤的药物反应标记数据集, 是源任务对输入的细胞系基因表达样本xs的预测值, 是目标任务对输入的患者肿瘤基因表达样本xtl的预测值;[0026] 然后,固定预测子网络,根据已标记的细胞系数据和肿瘤样本数据进一步优化特征提取器f(·),以使损失 最小化,同时最小化熵h的损失 优化函数如公式(6)至公式(8)所示,[0027][0028][0029][0030] 其中, 表示使用细胞系数据的回归任务的损失, 表示使用临床肿瘤样本数据的分类任务的损失;[0031] 通过半监督学习,特征提取器和预测子网络的总损失值 如公式(9)所示:[0032][0033] 其中 为最小最大熵h的损失;[0034] (3)域判别器d(·)和类域判别器c(·)的优化[0035] 通过域判别器d(·)可以实现细胞系数分布和肿瘤样本数据之间的边缘分布对齐,优化域判别器d(·),以使损失 最小,优化函数如公式(10)所示:[0036][0037] 通过类域判别器c(·)可以实现细胞系数分布和肿瘤样本数据之间的条件分布对齐,优化类别判别器,使得损失 最小,优化函数如公式(11)所示:[0038][0039] 其中k=0,1,分别表示两个类域判别器c0(x)和c1(x), 表示药物反应为第k类的细胞系基因表达数据集, 表示药物反应为第k类的患者肿瘤基因表达数据集;[0040] 所述药物敏感性预测算法的总损失为:[0041][0042] 其中λi为平衡训练中各项损失的权重系数,且[0043] 本发明基于半监督迁移学习的药物敏感性预测方法,在步骤1中,所述数据预处理的具体操作是:[0044] (1)获得药物列表drug_list[0045] 分别从gdsc数据库和tcga数据库中获得药物名称数据,去掉重复数据,保留gdsc和tcga两个数据集中都包含的药物名称,最后形成药物列表drug_list;[0046] (2)获得lncrnas列表lncrna_list[0047] 先从网站http://grch37.ensembl.org/biomart/martview/和http://www.ensembl.org/biomart/martview/上分别下载两个基因数据集文件“mart_export_grch37.txt”和“mart_export_grch38.txt”,再分别从这两个数据集文件中提取lncrnas,进行去重、合并,形成包含lncrnas的原始数据集合l_original;然后,将gdsc数据库和tcga数据库中基因表达数据的基因与原始数据集合l_original比较,最终形成包含lncrnas的列表lncrna_list,lncrnas同时出现在tcga基因表达数据集和gdsc基因表达数据集中;[0048] (3)获得疾病列表disease_list[0049] 通过合并tcga数据库和gdsc数据库中的疾病名称,获得疾病列表disease_list;[0050] (4)临床前细胞系数据处理[0051] 首先,对从gdsc数据库下载得到的细胞系基因表达和药物反应2个数据集中的细胞系进行合并、去重,形成同时具有细胞系基因表达和药物反应的细胞系集合cellline_list,然后,处理细胞系药物反应数据,得到细胞系集合cellline_list中的细胞系和药物列表drug_list中的药物的药物反应数据;最后,处理细胞系基因表达数据,保留只包含细胞系集合cellline_list中的细胞系和列表lncrna_list中的lncrnas的基因表达数据;[0052] (5)临床患者肿瘤样本数据处理[0053] 首先,通过tcgabiolinks工具包,从tcga数据库中下载患者肿瘤样本的药物反应和基因表达的临床数据,然后,处理患者肿瘤的药物反应数据,分别形成每种药物的药物反应数据集;对于药物列表drug_list中的每种药物,根据临床药物反应信息,找到该药物治疗的所有病人的药物反应数据形成临床药物反应数据集;最后,处理患者肿瘤的基因表达数据,根据药物反应数据集中的病人编号,确定该病人样本对应的基因表达数据,最终形成与每种药物的药物反应数据集对应的基因表达数据集。[0054] 本发明基于半监督迁移学习的药物敏感性预测装置包括数据输入模块、特征提取器、预测子网络模块和对抗学习子网络模块,所述预测子网络模块包括并联设置的源任务模块和目标任务模块,对抗学习子网络模块包括并联设置的域判别器和类域判别器;特征提取器的输入端连接数据输入模块,特征提取器的输出端分别连接预测子网络模块和对抗学习子网络模块;所述特征提取器采用自编码神经网络结构,其包括编码器encoder和解码器decoder两部分,通过特征提取器对来自细胞系和临床肿瘤样本的输入数据进行特征提取,并将特征输入到源任务模块、目标任务模块以及域判别器和类域判别器中,预测子网络模块可根据特征进行药物反应预测,对抗学习子网络模块中的域判别器可判别所有特征来自细胞系还是来自临床肿瘤样本,类域判别器可判别属于同一类特征来自细胞系还是来自临床肿瘤样本,同一类特征是指有药物反应的基因表达特征或者无药物反应的基因表达特征,将有反应的基因表达特征数据送入一个类域判别器中,以判别特征是来自细胞系还是患者肿瘤样本;无反应的基因表达特征数据送入另一个类域判别器中,以判别特征是来自细胞系还是患者肿瘤样本。[0055] 本发明具有如下有益效果:[0056] 1)本发明方法结合了迁移学习、半监督学习和对抗学习的优点,建立了有效的预测模型,旨在提高药物反应预测模型在临床上应用的准确度。[0057] 2)本发明方法通过迁移学习将临床前大量标记过的细胞系知识迁移到临床患者肿瘤样本的药物反应预测中,克服了临床药物反应数据不充分的问题;通过半监督学习充分利用未标记过的临床肿瘤样本数据,以提高特征提取器对于患者肿瘤基因表达数据的特征提取能力;通过对抗学习实现细胞系和临床患者肿瘤数据间的边缘分布和条件分布对齐,以使得共享特征空间中的联合分布误差最小化。[0058] 3)通过实验验证了本发明方法能够更充分利用细胞系和临床样本数据,能够提高在临床数据上应用的准确率,为研究人员进行更深入的药物敏感性实验研究分析提供重要的参考价值。附图说明[0059] 图1是本发明基于半监督迁移学习的药物敏感性预测方法的流程图。[0060] 图2是本发明方法(sstl‑lncdr)与传统方法moli、precise和aitl在4种药物上采用评价指标auc对敏感性预测实验的结果比较。[0061] 图3是本发明方法(sstl‑lncdr)与传统方法moli、precise和aitl在4种药物上采用评价指标aupr对敏感性预测实验的结果比较。具体实施方式[0062] 以下结合附图及实施例对本发明的技术方案作进一步的详细说明。[0063] 如图1所示,本发明基于半监督迁移学习的药物敏感性预测方法采用的装置包括数据输入模块、特征提取器f、预测子网络模块和对抗学习子网络模块,所述预测子网络模块包括并联设置的源任务模块和目标任务模块,对抗学习子网络模块包括并联设置的域判别器d和类域判别器c(含两个类域判别器c0和c1);特征提取器f的输入端连接数据输入模块,特征提取器的输出端分别连接预测子网络模块和对抗学习子网络模块;所述特征提取器f采用自编码神经网络结构,其包括编码器encoder和解码器decoder两部分,通过特征提取器f对来自细胞系和临床肿瘤样本的输入数据进行特征提取,并将特征z输入到源任务模块、目标任务模块以及域判别器d和类域判别器c中,预测子网络模块可根据特征进行药物反应预测,对抗学习子网络模块中的域判别器可判别特征来自细胞系还是来自临床肿瘤样本,两个类域判别器可判别属于同一类特征来自细胞系还是来自临床肿瘤样本,同一类特征是指有药物反应的基因表达特征或者无药物反应的基因表达特征,将有反应的基因表达特征数据送入一个类域判别器中,以判别特征是来自细胞系还是患者肿瘤样本;无反应的基因表达特征数据送入另一个类域判别器中,以判别特征是来自细胞系还是患者肿瘤样本。[0064] 以下是本发明的实施例:[0065] 本实施例中所使用的生物数据来自癌症药物敏感性基因组学研究数据库(gdsc)和临床肿瘤信息来自癌症基因组图谱数据库(tcga),主要根据长非编码rna的基因表达数据对药物敏感性进行预测。gcsc数据库主要获取细胞系的基因表达和药物反应数据。tcgs数据库主要获取临床肿瘤样本的基因表达和药物反应数据。[0066] 如图1所示,本发明基于半监督迁移学习的药物敏感性预测方法,具体操作步骤如下:[0067] 步骤1:进行数据预处理,获取细胞系中长非编码rna的基因表达和药物反应数据建立源域样本集,获取临床肿瘤样本中长非编码rna的基因表达和药物反应数据建立目标域样本集;其中源域是指临床前细胞系的基因表达和药物反应数据,目标域是指临床患者肿瘤样本的基因表达和药物反应数据。设定源域为ds={(xs,ys)},其中xs表示细胞系的非编码rna基因表达,ys表示细胞系的药物反应;目标域dt={(xt,yt)},其中xt表示患者肿瘤样本的非编码rna基因表达,yt表示细胞系的药物反应;根据是否具有药物反应数据将目标域dt分为两部分:一部分是已标记目标域dtl,一部分是未标记目标域dtu,即dt=dtl∪dtu;已标记目标域dtl={(xtl,ytl)},其中xtl表示已标记患者肿瘤样本的非编码rna基因表达,ytl表示已标记患者肿瘤样本的药物反应;未标记目标域为dtu={(xtu)},其中xtu表示未标记患者 肿瘤样本的非编码rna基因表达。源域的标签ys∈r是一个连续值,所以源任务属于回归任务,而目标域标签yt∈{0,1}是二元离散值,所以目标任务属于二分类任务。[0068] 数据预处理的具体操作过程如下:[0069] (1)获得药物列表drug_list[0070] 本实施例获取的tcga临床数据中有398种药物,gdsc临床前数据中有192种药物(下载的gdsc原始数据中涉及的药物有198种,去掉重复数据,获得192种不同药物),保留gdsc和tcga两个数据集中都包含的药物,最后形成29种药物的药物列表drug_list。[0071] (2)获得lncrnas列表lncrna_list[0072] 首先,从网站http://grch37.ensembl.org/biomart/martview/和http://www.ensembl.org/biomart/martview/上分别下载两个基因数据集文件“mart_export_grch37.txt”和“mart_export_grch38.txt”,分别从这两个数据集中提取lncrnas,进行去重、合并,形成包含34899个lncrnas的原始数据集合l_original;[0073] 然后,将tcga和gdsc基因表达数据中的基因与lncrnas集合l_original比较,最终形成包含28243个lncrnas的列表lncrna_list,这28243个lncrnas同时出现在tcga基因表达数据集和gdsc基因表达数据集中。[0074] (3)获得疾病列表disease_list[0075] 通过合并tcga临床数据库和gdsc细胞系数据库中的疾病,获得共24种不同的疾病列表disease_list,见表1所示,表1给出了这24种疾病的名称全称和缩写。[0076] 表1疾病名称缩写对照表[0077][0078] (4)临床前细胞系数据处理[0079] 首先,对从gdsc数据库下载得到的细胞系基因表达和药物反应2个数据集中的细胞系进行合并、去重,形成同时具有表达和药物反应的细胞系,共783个;[0080] 然后,处理细胞系药物反应数据,保留只包含783个最终细胞系和24个最终药物的药物反应数据;[0081] 最后,处理细胞系基因表达数据,保留只包含783个最终细胞系和28243个最终lncrnas的基因表达数据。[0082] (5)临床患者肿瘤样本数据处理[0083] 首先,通过tcgabiolinks工具包,从tcga数据库中下载患者肿瘤样本的药物反应和基因表达的临床数据。[0084] 然后,处理患者肿瘤的药物反应数据,分别形成每种药物的药物反应数据集。对于药物列表drug_list中的每种药物,根据临床药物反应信息,找到该药物治疗的所有病人的药物反应数据形成临床药物反应数据集。根据不同的药物反应描述,将病人的药物反应分为两类:如果病人的药物反应为“completeresponse”或“partialresponse”,那么将药物反应的标签设置为1;如果病人的药物反应为“clinicalprogressivedisease”或“stabledisease”,那么将药物反应的标签设置为0。[0085] 最后,处理患者肿瘤的基因表达数据。根据药物反应数据集中的病人编号,确定该病人样本对应的基因表达数据;由于同一个病人可能有多个样本,所以一个病人编号可对应多条基因表达数据,最终形成与每种药物的药物反应数据集对应的基因表达数据集。[0086] 步骤2:构建基于半监督迁移学习的药物敏感性预测模型,如图1所示,该模型包括三个模块:一是细胞系和肿瘤样本数据共享的特征提取器f;二是根据特征进行药物反应预测的预测子网络模块p;三是由域判别器d和类域判别器c组成的对抗学习子网络模块。特征提取器f使用细胞系和临床数据进行特征提取,并将提取的特征z输入到预测子网络和对抗学习子网络中。[0087] 所述特征提取器f采用自编码神经网络结构,自编码神经网络包括编码器encoder和解码器decoder两部分。本发明将自编码神经网络的编码器作为特征提取器f,通过特征提取器f对来自细胞系和临床肿瘤样本的输入数据进行特征提取,并将特征z输入到预测子网络、域判别器d和类域判别器c中。[0088] 所述预测子网络p是一个多任务学习预测网络,包括两个部分:一个是源任务的非线性神经网络回归模型,它根据临床前细胞系的基因表达和药物反应数据,进行有监督学习;另一个是目标任务的非线性神经网络分类模型,它根据临床患者肿瘤样本中有标记的基因表达和药物反应数据,进行有监督学习。为了使用未标记的临床患者肿瘤样本数据进一步训练特征提取器和预测子网络,引入基于最小最大熵概念的半监督学习方式,该学习方式通过未标记患者肿瘤样本数据计算条件熵,然后在训练预测子网络时最大化条件熵,训练特征提取器时最小化条件熵。[0089] 细胞系数据和临床肿瘤样本数据经过同一个特征提取器f处理,得到特征z,将特征z输入给对抗学习子网络,该子网络包括域判别器d和类域判别器c,域判别器d判别该特征来自细胞系还是来自临床肿瘤样本,而类域判别器c包括c0和c1两个,其中有反应的基因表达特征数据送入类域判别器c0,以判别特征是来自细胞系还是患者肿瘤样本;无反应的基因表达特征数据送入类域判别器c1,以判别特征是来自细胞系还是患者肿瘤样本,从而使得特征提取器能够从细胞系和临床肿瘤样本数据中学习到鲁棒性更强的域不变特征。[0090] 构建预测模型后,使用步骤1获得的数据集对该预测模型进行训练,即将细胞系和临床数据样本集划分为训练集和测试集,使用训练集数据训练药物敏感性预测模型,利用训练好的预测模型对测试集数据进行药物敏感性预测。[0091] 药物敏感性预测模型的整个训练过程如下:[0092] (1)使用细胞系和临床患者肿瘤数据对特征提取器f(·)进行优化[0093] 本发明使用自编码神经网络的编码器部分作为预测模型的特征提取器模块。设f为编码器的编码函数,g为解码器的解码函数,特征提取器通过公式(1)的优化函数进行优化,以使得损失 最小,优化后将编码器encoder作为本发明所述预测模型的特征提取器f:[0094][0095] 其中,输入样本集x={x1,x2,…,x|x|},包括细胞系中长非编码rna的基因表达数据xs、已标记的肿瘤样本基因表达数据xtl和未标记的肿瘤样本基因表达数据xtu,即x=xs∪xtl∪xtu,i=1,2,…,|x|。[0096] (2)使用细胞系数据和临床患者肿瘤数据通过半监督学习进一步优化特征提取器和预测子网络。[0097] 通过使用已标记的细胞系和患者肿瘤数据训练特征提取器后,还不能保证特征提取器可以学习到针对整个目标域的特征,这是因为临床中还存在大量无标记的数据,所以本发明方法采用最大最小熵的方法进行半监督学习。这样,可以充分利用细胞系和临床患者肿瘤数据,使特征提取器能够学习到更多的临床数据信息。通过如下公式(2)使用无标记的肿瘤样本数据计算条件熵h:[0098][0099] 其中p(y=k|xtu)表示预测子网络的目标任务将未标记的肿瘤样本xtu预测为类别k的置信度,k={0,1}。[0100] 优化操作如下:[0101] 首先,固定特征提取器,根据已标记的细胞系数据和临床数据优化预测子网络p(·),以使损失 最小化,同时最大化熵h的损失 优化函数如公式(3)至公式(5)所示。预测子网络p(·)是一个多任务模型,损失函数 包括 和 两部分:[0102][0103][0104][0105] 其中, 表示使用细胞系数据的回归任务的损失, 表示使用临床肿瘤样本数据的分类任务的损失,xs∈xs,xs是细胞系的基因表达数据集,ys∈ys,ys是细胞系的药物反应数据集,xtl∈xtl,xtl是已标记的患者肿瘤基因表达数据集,ytl∈ytl,yt是患者肿瘤的药物反应标记数据集, 是源任务对输入的细胞系基因表达样本xs的预测值, 是目标任务对输入的患者肿瘤基因表达样本xtl的预测值。[0106] 然后,固定预测子网络,根据已标记的细胞系数据和肿瘤样本数据进一步优化特[177]征提取器f(·),以使损失 最小化 ,同时最小化熵h的损失 优化函数如公式(6)至公式(8)所示。[0107][0108][0109][0110] 其中, 表示使用细胞系数据的回归任务的损失, 表示使用临床肿瘤样本数据的分类任务的损失。[0111] 因此,通过半监督学习,特征提取器和预测子网络的总损失值 如公式(9)所示:[0112][0113] 其中 为最小最大熵h的损失。[0114] (3)域判别器d(·)和类域判别器c(·)的优化[0115] 通过域判别器d(·)可以实现细胞系数分布和肿瘤样本数据之间的边缘分布对齐,优化域判别器d(·),以使损失 最小,优化函数如公式(10)所示:[0116][0117] 通过类域判别器c(·)可以实现细胞系数分布和肿瘤样本数据之间的条件分布对齐,因为是二分类,有两个类域判别器c0(x)和c1(x)。优化类别判别器,使得损失 最小,优化函数如公式(11)所示:[0118][0119] 其中k=0,1,分别表示两个类域判别器c0(x)和c1(x), 表示药物反应为第k类的细胞系基因表达数据集, 表示药物反应为第k类的患者肿瘤基因表达数据集。[0120] 基于上述各优化函数,本发明基于半监督迁移学习的药物敏感性预测算法的总损失为:[0121][0122] 其中λi为平衡训练中各项损失的权重系数,且[0123] 本发明方法的应用实例:[0124] 为了评估本发明所提出药物敏感性预测方法的有效性,将本发明方法(简称为sstl‑lncdr)与其他三个传统方法moli、precise和aitl进行实验比较。实验采用了五折交叉验证方法,考虑到迁移学习涉及源域和目标域样本集,因此将细胞系数据和未标记的临床肿瘤样本数据都作为训练集,将已标记的肿瘤样本数据集均匀划分为5个子集。在每一折交叉验证中,从5个已标记的肿瘤样本数据子集中依次取1个作为测试集,而其余4个已标记的肿瘤样本数据以及未标记的肿瘤样本数据和细胞系数据组成训练集,通过训练集训练预测模型,通过测试集评估预测模型。[0125] 应用实例的实验分析选择4种具有不同机制且治疗不同癌症的药物进行实验。这4种药物分别为吉西他滨(gemcitabine)、顺铂(cisplatin)、多西他赛(docetaxel)和紫杉醇(paclitaxel)。表2给出了4种药物的细胞系和临床样本的数据集情况,且临床患者肿瘤样本数据包括了已标记样本和未标记样本。[0126] 表2药物治疗的样本集数目[0127][0128] 实验评估使用评价指标auc和aupr对四种方法sstl‑lncdr、moli、precise和aitl进行性能评测。四种方法在cisplatin、docetaxel、gemcitabine和paclitaxel这4种药物上的实验结果,分别如图2和图3所示。与其他3种方法相比,本发明方法sstl‑lncdr在评价指标auc和aupr上均获得更高的值。由于临床前的细胞系数据和临床患者肿瘤数据存在一定差异,所以方法moli通过细胞系数据训练得到的预测模型在预测临床肿瘤样本的药物反应时,表现较差。方法precise采用域适应方法,它考虑了输入空间的不同,通过计算获得了临床前细胞系和肿瘤数据的共享特征,但它仍然只利用临床前数据训练预测模型,没有充分利用患者肿瘤的临床数据,这使得训练好的预测模型不能很好地直接应用于临床预测患者肿瘤样本的药物反应。方法aitl引入迁移学习,同时考虑了输入空间和输出空间的不同,使用有监督的临床前数据和已标记的临床数据训练模型,使得模型中的特征提取器可以同时适应细胞系数据和临床患者肿瘤数据的特征学习,与方法precise和moli相比,方法aitl的性能得到了一定的提升。但是方法aitl忽略了临床肿瘤样本中还存在大量未标记数据的情形。而本发明方法sstl‑lncdr结合上述方法的优点,引入迁移学习、对抗学习和变监督学习的思想,利用迁移学习将临床前数据和临床数据有效结合,使得特征提取器在提取基因表达特征时能够同时适应细胞系数据和临床患者肿瘤数据,将从细胞系学习的特征迁移到临床预测任务中,克服了临床数据相对比较缺乏的缺点;利用对抗学习,可以使特征提取器提取到更恰当的能够同时表示细胞系和肿瘤样本数据的公共特征;利用半监督学习,克服方法moli、precise和aitl只使用未标记肿瘤样本或只使用已标记肿瘤样本数据的缺点,充分使用了临床的未标记和已标记数据,因此特征提取器能够从更多的临床样本中学习到更偏向于临床的特征,这将有助于模型在临床上的准确应用。[0129] 需要强调的是,本发明所述的实例是说明性的,而不是限定性的,因此本发明不限于具体实施方式中所述的实例,凡根据本发明的技术方案得出的其他实施方式,不脱离本发明宗旨和范围的,不论是修改、补充和替换等,均包含在本发明的保护范围之内。

专利地区:广西

专利申请日期:2022-06-29

专利公开日期:2024-07-09

专利公告号:cn115116624b


以上信息来自国家知识产权局,如信息有误请联系我方更正!
电话咨询
读内容
搜本页
回顶部
网站地图