自编码器检测异常值的一种改进方法

发布者:王丹丹发布时间:2022-11-04浏览次数:436

江苏省应用数学(中国矿业大学)中心

卓越大讲堂

报告题目:自编码器检测异常值的一种改进方法

:杨凌苏州大学数学科学学院

报告时间:202211814:30-15:30

报告地点:腾讯会议:317623950

 

报告摘要:由于在处理高维非线性数据集方面的优势,自编码器在异常值检测中得到了广泛的应用。自动编码器的重构过程可以看作是一个复杂的回归过程。而在回归分析中,异常值通常可以分为高杠杆点和高影响点两大类。我们发现尽管自动编码器在识别高影响点方面有天然优势,但在检测高杠杆点时仍然存在一些问题。我们提出了一种新的损失函数,解决了离群点检测中的不足。我们方案的核心思想是,为了更好地检测高杠杆点,我们应该一定程度抑制数据集的完全重构,尽管这样做背离了自编码器设计的初衷。这样可以将高杠杆点转换为影响点。进一步地,我们地损失函数还确保了原始数据集协方差矩阵的特征值与它们在每个主分量方向上的相应重构结果之间的差值均衡,从而能均衡检测异常值。此外,我们通过严格的理论推导解释了这种均衡重构方案的合理性。最后,我们在多个数据集上的实验证明,我们的方案显著提高了异常值检测的准确性。

 

专家简历:杨凌现任苏州大学数学科学学院、系统生物学研究中心教授、博导。长期从事生物系统的数学模型方面工作。主要成果发表在Physical Review Letters, Biophysical   JournalCell Death and DifferentiationNucleic acids research, PLoS GeneticsJournal of Biological Chemistry Top Journal 上。担任国家重点研发计划重点专项课题(774万)负责人,主持四个国家自然科学基金面上项目。担任中国工业与应用数学会理事、中国工业与应用数学会数学生命科学分会常务理事、中国细胞生物学会生物节律专业委员会委员、中国数学会生物数学专业委员会委员等职务。