基于多自编码器的无监督内部威胁检测框架
1. 内部威胁检测现状与挑战
在数据泄露和内网攻击场景中,恶意内部人员的活动往往表现为异常行为或异常网络流量内容。传统的基于规则的方法和估计理论难以应对复杂的内部威胁行为,而且手动收集大量带标签的训练数据既困难又耗时。
许多异常检测应用虽声称采用无监督学习,但本质上仍属于一类分类模型,因为它们依赖先验标签来选择正常数据进行训练。例如,最先进的深度自动编码高斯混合模型也依赖带标签的正常数据进行训练,且其性能对异常数据的污染很敏感,不适用于无标签数据的内部威胁检测。
2. 多自编码器检测框架
2.1 自编码器基础
基本自编码器是一种具有对称结构的深度神经网络,由编码器和解码器两部分全连接层组成,无需监督标签。其目标是在输出层重建输入,基本损失函数定义为输入和输出之间的重建误差。传统上,自编码器用于实现高维数据的非线性降维,但大多数使用自编码器的无监督异常检测应用需要带标签的正常数据进行训练,本质上是半监督的。
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(输入层):::process --> B(编码器):::process
B --> C(编码层):::process
C --> D(解码器):::process
D --> E(输出层):::process
2.2 问题陈述
给定一个无