部署、文档、统计数据和许可证
欢迎使用 PyOD,这是一个用于检测多变量数据异常的多功能 Python 库。无论您要处理小型项目还是大型数据集,PyOD 都提供一系列算法来满足您的需求。
- 对于时间序列异常值检测,请使用TODS。
- 对于图形异常值检测,请使用PyGOD。
- 性能比较和数据集:我们有 45 页的最全面的异常检测基准论文。完全开源的 ADBench在 57 个基准数据集上比较了 30 种异常检测算法。
- 了解有关异常检测的更多信息@异常检测资源
- 分布式系统上的 PyOD:您还可以在 databricks 上运行 PyOD。
PyOD 成立于 2017 年,已成为检测多元数据中异常/异常对象的首选Python 库。这个令人兴奋但具有挑战性的领域通常被称为异常值检测或异常检测。
PyOD 包含 50 多种检测算法,从经典的 LOF (SIGMOD 2000) 到尖端的 ECOD 和 DIF (TKDE 2022 和 2023)。自2017年以来,PyOD已成功应用于众多学术研究和商业产品,下载量超过1700万次。它也得到了机器学习社区的广泛认可,有各种专门的帖子/教程,包括Analytics Vidhya、KDnuggets和Towards Data Science。
PyOD 的特点是:
使用 5 行代码进行异常值检测:
# Example: Training an ECOD detector from pyod.models.ecod import ECOD clf = ECOD() clf.fit(X_train) y_train_scores = clf.decision_scores_ # Outlier scores for training data y_test_scores = clf.decision_function(X_test) # Outlier scores for test data
选择正确的算法: .不确定从哪里开始?考虑这些强大且可解释的选项:
或者,探索MetaOD以获取数据驱动的方法。
引用 PyOD:
PyOD 论文发表在Journal of Machine Learning Research (JMLR)(MLOSS track)上。如果您在科学出版物中使用 PyOD,我们希望引用以下论文:
@article{zhao2019pyod,
author = {Zhao, Yue and Nasrullah, Zain and Li, Zheng},
title = {PyOD: A Python Toolbox for Scalable Outlier Detection},
journal = {Journal of Machine Learning Research},
year = {2019},
volume = {20},
number = {96},
pages = {1-7},
url = {http://jmlr.org/papers/v20/19-011.html}
}或者:
Zhao, Y., Nasrullah, Z. and Li, Z., 2019. PyOD: A Python Toolbox for Scalable Outlier Detection. Journal of machine learning research (JMLR), 20(96), pp.1-7.有关异常检测的更广泛视角,请参阅我们的 NeurIPS 论文ADBench:异常检测基准论文和ADGym:深度异常检测的设计选择:
@article{han2022adbench, title={Adbench: Anomaly detection benchmark}, author={Han, Songqiao and Hu, Xiyang and Huang, Hailiang and Jiang, Minqi and Zhao, Yue}, journal={Advances in Neural Information Processing Systems}, volume={35}, pages={32142--32159}, year={2022} }
@article{jiang2023adgym, title={ADGym: Design Choices for Deep Anomaly Detection}, author={Jiang, Minqi and Hou, Chaochuan and Zheng, Ao and Han, Songqiao and Huang, Hailiang and Wen, Qingsong and Hu, Xiyang and Zhao, Yue}, journal={Advances in Neural Information Processing Systems}, volume={36}, year={2023} }
目录:
PyOD 旨在使用pip或conda轻松安装。由于更新和增强频繁,我们建议使用最新版本的 PyOD:
pip install pyod # normal install pip install --upgrade pyod # or update if needed
conda install -c conda-forge pyod
或者,您可以克隆并运行 setup.py 文件:
git clone https://github.com/yzhao062/pyod.git cd pyod pip install .
所需的依赖项:
- Python 3.8 或更高版本
- 作业库
- 绘图库
- numpy>=1.19
- 数字>=0.51
- scipy>=1.5.1
- scikit_learn>=0.22.0
可选依赖项(请参阅下面的详细信息):
- 组合(可选,models/combination.py和FeatureBagging所需)
- keras/tensorflow(可选,AutoEncoder 和其他深度学习模型所需)
- suod(可选,运行 SUOD 模型所需)
- xgboost(可选,XGBOD 必需)
- pythresh(可选,阈值处理所需)可选
完整的 API 参考可在PyOD 文档中找到。以下是所有探测器的快速备忘单:
- fit(X):安装探测器。在无监督方法中参数 y 被忽略。
- Decision_function(X):使用拟合检测器预测 X 的原始异常分数。
- 预测(X):使用拟合的检测器确定样本是否为异常值作为二进制标签。
- Predict_proba(X):使用拟合检测器估计样本为异常值的概率。
- Predict_confidence(X):基于每个样本评估模型的置信度(适用于predict和predict_proba)2。
拟合模型的关键属性:
- Decision_scores_:训练数据的离群值。分数越高通常表明行为越异常。异常值通常具有较高的分数。
- labels_:训练数据的二进制标签,其中 0 表示正常值,1 表示异常值/异常。
我们刚刚发布了 45 页、最全面的ADBench:异常检测基准3。完全开源的 ADBench在 57 个基准数据集上比较了 30 种异常检测算法。
ADBench的组织结构如下:
为了更简单的可视化,我们通过compare_all_models.py对选定的模型进行比较。
PyOD 在模型持久性方面采用了与 sklearn 类似的方法。有关说明,请参阅模型持久性。
简而言之,我们建议使用 joblib 或 pickle 来保存和加载 PyOD 模型。有关示例,请参阅“examples/save_load_model_example.py” 。简而言之,简单如下:
from joblib import dump, load# save the model dump(clf, 'clf.joblib') # load the model clf = load('clf.joblib')
众所周知,保存神经网络模型存在挑战。检查#328和#88以获取临时解决方法。
快速训练和预测:利用SUOD框架4,可以在PyOD中使用大量检测模型进行训练和预测。请参阅SUOD 论文和SUOD 示例。
from pyod.models.suod import SUOD# initialized a group of outlier detectors for acceleration detector_list = [LOF(n_neighbors=15), LOF(n_neighbors=20), LOF(n_neighbors=25), LOF(n_neighbors=35), COPOD(), IForest(n_estimators=100), IForest(n_estimators=200)]
# decide the number of parallel process, and the combination method # then clf can be used as any outlier detection model clf = SUOD(base_estimators=detector_list, n_jobs=2, combination='average', verbose=False)
设置污染水平时可以采用更多基于数据的方法。通过使用阈值方法,可以用用于分离异常值和异常值的经过测试的技术来代替猜测任意值。请参阅PyThresh以更深入地了解阈值。
from pyod.models.knn import KNN from pyod.models.thresholds import FILTER# Set the outlier detection and thresholding methods clf = KNN(contamination=FILTER())
PyOD 工具包由四个主要功能组组成:
(i) 个体检测算法:
| 类型 | 缩写 | 算法 | 年 | 参考号 |
|---|---|---|---|---|
| 概率论 | ECOD | 使用经验累积分布函数进行无监督离群值检测 | 2022年 | 5 |
| 概率论 | ABOD | 基于角度的异常值检测 | 2008年 | 6 |
| 概率论 | 快速ABOD | 使用近似法进行基于角度的快速异常值检测 | 2008年 | 7 |
| 概率论 | 慢性阻塞性肺病 | COPOD:基于 Copula 的异常值检测 | 2020年 | 8 |
| 概率论 | 疯狂的 | 中值绝对偏差 (MAD) | 1993年 | 9 |
| 概率论 | 求救 | 随机异常值选择 | 2012年 | 10 |
| 概率论 | 质量管理中心 | 准蒙特卡罗差异异常值检测 | 2001年 | 11 |
| 概率论 | 凯德 | 使用核密度函数进行异常值检测 | 2007年 | 12 |
概率概率 |
采样高斯模型 |
通过采样概率混合建模进行异常值分析,进行基于距离的快速异常值检测 |
2013年 |
|
| 线性模型 | 主成分分析 | 主成分分析(到特征向量超平面的加权投影距离之和) | 2003年 | 15 |
| 线性模型 | 关键主成分分析法 | 核主成分分析 | 2007年 | 16 |
| 线性模型 | MCD | 最小协方差行列式(使用马氏距离作为离群值) | 1999年 | 17 18 |
| 线性模型 | 光盘 | 使用库克距离进行异常值检测 | 1977年 | 19 号 |
| 线性模型 | 开放式空间向量机 | 一类支持向量机 | 2001年 | 20 |
| 线性模型 | 低密度脂蛋白 | 基于偏差的异常值检测 (LMDD) | 1996年 | 21 |
| 基于邻近度 | 洛夫 | 局部离群因素 | 2000年 | 22 |
| 基于邻近度 | COF | 基于连接性的异常值因素 | 2002年 | 23 |
| 基于邻近度 | (增量)COF | 基于内存高效连接的离群因素(速度较慢,但降低存储复杂性) | 2002年 | 24 |
| 基于邻近度 | CBLOF | 基于聚类的局部离群因子 | 2003年 | 25 |
| 基于邻近度 | 基因定位 | LOCI:使用局部相关积分进行快速异常值检测 | 2003年 | 26 |
| 基于邻近度 | HBOS | 基于直方图的异常值分数 | 2012年 | 27 |
| 基于邻近度 | kNN | k 最近邻(使用到第 k 个最近邻的距离作为离群值) | 2000年 | 28 |
| 基于邻近度 | 平均KNN | 平均 kNN(使用到 k 个最近邻的平均距离作为离群值) | 2002年 | 29 |
| 基于邻近度 | 医学KNN | 中值 kNN(使用到 k 个最近邻的中值距离作为异常值得分) | 2002年 | 30 |
| 基于邻近度 | 草皮 | 子空间异常值检测 | 2009年 | 31 |
| 基于邻近度 | 杆 | 基于旋转的异常值检测 | 2020年 | 32 |
| 离群值集合 | 爱森林 | 隔离森林 | 2008年 | 33 |
| 离群值集合 | 伊内 | 使用最近邻集成的基于隔离的异常检测 | 2018年 | 34 |
| 离群值集合 | 差值 | 用于异常检测的深度隔离森林 | 2023年 | 35 |
| 离群值集合 | FB | 特征装袋 | 2005年 | 36 |
| 离群值集合 | LSCP | LSCP:并行异常值集合的局部选择性组合 | 2019年 | 37 |
| 离群值集合 | XGBOD | 基于极端增强的异常值检测(监督) | 2018年 | 38 |
| 离群值集合 | 洛达 | 轻量级在线异常检测器 | 2016年 | 39 |
异常值集成神经网络 |
SUOD自动编码器 |
SUOD:加速大规模无监督异构异常值检测(加速)全连接自动编码器(使用重建误差作为异常值得分) |
2021年 |
|
| 神经网络 | VAE | 变分自动编码器(使用重建误差作为离群值) | 2013年 | 42 |
| 神经网络 | β-VAE | 变分自动编码器(所有通过改变伽玛和容量定制的损失项) | 2018年 | 43 |
| 神经网络 | SO_GAAL | 单目标生成对抗主动学习 | 2019年 | 44 |
| 神经网络 | MO_GAAL | 多目标生成对抗主动学习 | 2019年 | 45 |
| 神经网络 | 深SVDD | 深度一类分类 | 2018年 | 46 |
| 神经网络 | 阿诺甘 | 使用生成对抗网络进行异常检测 | 2017年 | 47 |
| 神经网络 | 阿拉德 | 对抗性学习异常检测 | 2018年 | 48 |
| 基于图的 | R图 | 通过 R 图检测异常值 | 2017年 | 49 |
| 基于图的 | 月球 | LUNAR:通过图神经网络统一局部异常值检测方法 | 2022年 | 50 |
(ii) 离群值集合和离群值检测器组合框架:
| 类型 | 缩写 | 算法 | 年 | 参考号 |
|---|---|---|---|---|
| 离群值集合 | FB | 特征装袋 | 2005年 | 51 |
| 离群值集合 | LSCP | LSCP:并行异常值集合的局部选择性组合 | 2019年 | 52 |
| 离群值集合 | XGBOD | 基于极端增强的异常值检测(监督) | 2018年 | 53 |
| 离群值集合 | 洛达 | 轻量级在线异常检测器 | 2016年 | 54 |
| 离群值集合 | 苏奥德 | SUOD:加速大规模无监督异构异常值检测(加速) | 2021年 | 55 |
| 离群值集合 | 伊内 | 使用最近邻集成的基于隔离的异常检测 | 2018年 | 56 |
| 组合 | 平均的 | 通过平均分数进行简单组合 | 2015年 | 57 |
| 组合 | 加权平均 | 通过对分数与检测器权重进行平均来进行简单组合 | 2015年 | 58 |
| 组合 | 最大化 | 通过取最大分数进行简单组合 | 2015年 | 59 |
| 组合 | 澳奥姆 | 最大值的平均值 | 2015年 | 60 |
| 组合 | MOA | 平均值最大化 | 2015年 | 61 |
| 组合 | 中位数 | 通过取分数的中位数进行简单组合 | 2015年 | 62 |
| 组合 | 多数票 | 通过获得标签的多数票进行简单组合(可以使用权重) | 2015年 | 63 |
(iii) 异常值检测分数阈值方法:
| 类型 | 缩写 | 算法 | 文档 |
|---|---|---|---|
| 基于内核的 | AUCP | 曲线下面积百分比 | AUCP |
| 基于统计矩 | 启动 | 自举 | 启动 |
| 基于正态性 | 周 | 肖文内准则 | 周 |
| 线性模型 | CLF | 训练有素的线性分类器 | CLF |
| 基于集群的 | 集群 | 基于聚类 | 集群 |
| 基于内核的 | 持续专业发展 | 变化点检测 | 持续专业发展 |
| 基于转型 | 分解 | 分解 | 分解 |
| 基于正态性 | 数据服务网络 | 与正常距离的偏移 | 数据服务网络 |
| 基于曲线 | EB | 椭圆边界 | EB |
| 基于内核的 | 烟气脱硫 | 固定梯度下降 | 烟气脱硫 |
| 基于过滤器 | 筛选 | 基于过滤 | 筛选 |
| 基于曲线 | 短波频率调制 | 最小全宽 | 短波频率调制 |
| 基于统计测试 | 全球可持续发展 | 广义极端学生化偏差 | 全球可持续发展 |
| 基于过滤器 | 希斯特 | 基于直方图 | 希斯特 |
| 基于分位数 | IQR | 四分位间区域 | IQR |
| 基于统计矩 | 卡奇 | Karcher 均值(黎曼质量中心) | 卡奇 |
| 基于统计矩 | 疯狂的 | 中值绝对偏差 | 疯狂的 |
| 基于统计测试 | MCST | 蒙特卡洛夏皮罗测试 | MCST |
| 基于集成的 | 梅塔 | 元模型训练分类器 | 梅塔 |
| 基于转型 | 摩尔 | 弗里德里希的舒缓剂 | 摩尔 |
| 基于统计测试 | 四甲基偶氮唑盐 | 改良 Thompson Tau 测试 | 四甲基偶氮唑盐 |
| 线性模型 | 开放式空间向量机 | 一类支持向量机 | 开放式空间向量机 |
| 基于分位数 | 质量管理中心 | 准蒙特卡罗差异 | 质量管理中心 |
| 线性模型 | 再生率 | 基于回归 | 再生率 |
| 神经网络 | VAE | 变分自动编码器 | VAE |
| 基于曲线 | 风 | 拓扑绕数 | 风 |
| 基于转型 | YJ | 杨约翰逊转变 | YJ |
| 基于正态性 | 零分数 | Z 分数 | 零分数 |
(四) 实用功能:
| 类型 | 姓名 | 功能 | 文档 |
|---|---|---|---|
| 数据 | 生成数据 | 综合数据生成;正常数据由多元高斯生成,异常值由均匀分布生成 | 生成数据 |
| 数据 | 生成数据簇 | 集群中的综合数据生成;可以使用多个集群创建更复杂的数据模式 | 生成数据簇 |
| 统计数据 | 皮尔森 | 计算两个样本的加权皮尔逊相关性 | 皮尔森 |
| 公用事业 | 获取标签n | 通过将 1 分配给前 n 个异常值分数,将原始异常值分数转换为二进制标签 | 获取标签n |
| 公用事业 | precision_n_scores 精度 | 计算精度@等级n | precision_n_scores 精度 |
PyOD 通过一些特色帖子和教程得到了机器学习社区的广泛认可。
Analytics Vidhya:使用 PyOD 库在 Python 中学习异常值检测的精彩教程
KDnuggets:离群值检测方法的直观可视化,PyOD 离群值检测方法概述
迈向数据科学:傻瓜式异常检测
计算机视觉新闻(2019 年 3 月):用于异常值检测的 Python 开源工具箱
“examples/knn_example.py”演示了使用 kNN 检测器的基本 API。值得注意的是,所有其他算法的 API 都是一致/相似的。
运行示例的更详细说明可以在示例目录中找到。
初始化 kNN 检测器、拟合模型并进行预测。
from pyod.models.knn import KNN # kNN detector
# train kNN detector clf_name = 'KNN' clf = KNN() clf.fit(X_train)
# get the prediction label and outlier scores of the training data y_train_pred = clf.labels_ # binary labels (0: inliers, 1: outliers) y_train_scores = clf.decision_scores_ # raw outlier scores
# get the prediction on the test data y_test_pred = clf.predict(X_test) # outlier labels (0 or 1) y_test_scores = clf.decision_function(X_test) # outlier scores
# it is possible to get the prediction confidence as well y_test_pred, y_test_pred_confidence = clf.predict(X_test, return_confidence=True) # outlier labels (0 or 1) and confidence in the range of [0,1]
通过 ROC 和 Precision @ Rank n ( p@n )评估预测。
from pyod.utils.data import evaluate_print
# evaluate and print the results print("\nOn Training Data:") evaluate_print(clf_name, y_train, y_train_scores) print("\nOn Test Data:") evaluate_print(clf_name, y_test, y_test_scores)
查看示例输出和可视化。
On Training Data: KNN ROC:1.0, precision @ rank n:1.0
On Test Data: KNN ROC:0.9989, precision @ rank n:0.9
<clipboard-copy aria-label="Copy" class="ClipboardButton btn btn-invisible js-clipboard-copy m-2 p-0 tooltipped-no-delay d-flex flex-justify-center flex-items-center" data-copy-feedback="Copied!" data-tooltip-direction="w" value="On Training Data: KNN ROC:1.0, precision @ rank n:1.0On Test Data: KNN ROC:0.9989, precision @ rank n:0.9" tabindex="0" role="button">
visualize(clf_name, X_train, y_train, X_test, y_test, y_train_pred, y_test_pred, show_figure=True, save_figure=False)
可视化(knn_figure):
赵Y.,胡X.,程成C.,王成C.,万成.,王文.,杨J.,白红.,李Z.,肖成., Wang, Y.、Qiao, Z.、Sun, J. 和 Akoglu, L. (2021)。 SUOD:加速大规模无监督异构异常值检测。机器学习和系统会议(MLSys)。↩
Perini, L.、Vercruyssen, V.、Davis, J. 量化异常检测器在示例预测中的置信度。欧洲机器学习和数据库知识发现联合会议 (ECML-PKDD),2020 年。↩
Han, S.、Hu, X.、Huang, H.、Jiang, M. 和 Zhu, Y.,2022。ADBench:异常检测基准。 arXiv 预印本 arXiv:2206.09426。↩
赵Y.,胡X.,程成C.,王成C.,万成.,王文.,杨J.,白红.,李Z.,肖成., Wang, Y.、Qiao, Z.、Sun, J. 和 Akoglu, L. (2021)。 SUOD:加速大规模无监督异构异常值检测。机器学习和系统会议(MLSys)。↩
Li, Z.、Zhao, Y.、Hu, X.、Botta, N.、Ionescu, C. 和 Chen, HG ECOD:使用经验累积分布函数的无监督离群值检测。IEEE 知识与数据工程汇刊 (TKDE),2022 年。↩
Kriegel, HP 和 Zimek, A.,2008 年 8 月。高维数据中基于角度的异常值检测。在KDD '08,第 444-452 页。 ACM。↩
Kriegel, HP 和 Zimek, A.,2008 年 8 月。高维数据中基于角度的异常值检测。在KDD '08,第 444-452 页。 ACM。↩
Li, Z.、Zhao, Y.、Botta, N.、Ionescu, C. 和 Hu, X. COPOD:基于 Copula 的异常值检测。IEEE 国际数据挖掘会议 (ICDM),2020。↩
Iglewicz, B. 和 Hoaglin, DC,1993。如何检测和处理异常值(第 16 卷)。阿斯克出版社。↩
Janssens, JHM、Huszár, F.、Postma, EO 和 van den Herik, HJ, 2012。随机异常值选择。技术报告 TiCC TR 2012-001,蒂尔堡大学蒂尔堡认知与交流中心,荷兰蒂尔堡。↩
Fang, KT 和 Ma, CX, 2001。随机抽样、拉丁超立方体和均匀设计的环绕式 L2 差异。复杂性杂志,17(4),第 608-624 页。↩
Latecki, LJ、Lazarevic, A. 和 Pokrajac, D.,2007 年 7 月。使用核密度函数进行离群值检测。在模式识别中的机器学习和数据挖掘国际研讨会(第 61-75 页)。施普林格、柏林、海德堡。↩
Sugiyama, M. 和 Borgwardt, K.,2013。通过采样进行基于距离的快速异常值检测。神经信息处理系统的进展,26。↩
Aggarwal, CC, 2015。异常值分析。数据挖掘(第 237-263 页)。施普林格、查姆. ↩
Shyu, ML, Chen, SC, Sarinnapakorn, K. 和 Chang, L., 2003。一种基于主成分分类器的新颖异常检测方案。佛罗里达州科勒尔盖布尔斯迈阿密大学电气与计算机工程系。↩
Hoffmann, H., 2007。用于新颖性检测的内核 PCA。模式识别,40(3),第 863-874 页。↩
Hardin, J. 和 Rocke, DM,2004。使用最小协方差行列式估计器在多聚类设置中进行异常值检测。计算统计与数据分析,44(4),第 625-638 页。↩
Rousseeuw, PJ 和 Driessen, KV,1999。最小协方差行列式估计器的快速算法。技术计量学,41(3),第 212-223 页。↩
Cook, RD, 1977。线性回归中影响观察的检测。技术计量学,19(1),第 15-18 页。↩
Scholkopf, B.、Platt, JC、Shawe-Taylor, J.、Smola, AJ 和 Williamson, RC,2001。估计高维分布的支持。神经计算,13(7),第 1443-1471 页。↩
Arning, A.、Agrawal, R. 和 Raghavan, P.,1996 年 8 月。大型数据库中偏差检测的线性方法。在KDD(第 1141 卷,第 50 期,第 972-981 页)中。↩
Breunig, MM、Kriegel, HP、Ng, RT 和 Sander, J.,2000 年 5 月。 LOF:识别基于密度的局部异常值。ACM Sigmod 记录,29(2),第 93-104 页。↩
Tang, J.、Chen, Z.、Fu, AWC 和 Cheung, DW,2002 年 5 月。增强低密度模式异常值检测的有效性。载于亚太知识发现和数据挖掘会议,第 535-548 页。施普林格、柏林、海德堡。↩
Tang, J.、Chen, Z.、Fu, AWC 和 Cheung, DW,2002 年 5 月。增强低密度模式异常值检测的有效性。载于亚太知识发现和数据挖掘会议,第 535-548 页。施普林格、柏林、海德堡。↩
He, Z.、Xu, X. 和 Deng, S.,2003。发现基于集群的局部异常值。模式识别字母,24(9-10),第 1641-1650 页。↩
Papadimitriou, S.、Kitakawa, H.、Gibbons, PB 和 Faloutsos, C.,2003 年 3 月。 LOCI:使用局部相关积分进行快速异常值检测。 ICDE '03,第 315-326 页。 IEEE。↩
Goldstein, M. 和 Dengel, A.,2012。基于直方图的离群值评分 (hbos):一种快速无监督异常检测算法。在KI-2012:海报和演示轨道,第 59-63 页。↩
Ramaswamy, S.、Rastogi, R. 和 Shim, K.,2000 年 5 月。从大型数据集中挖掘异常值的有效算法。ACM Sigmod 记录,29(2),第 427-438 页。↩
Angiulli, F. 和 Pizzuti, C.,2002 年 8 月。高维空间中的快速异常值检测。欧洲数据挖掘和知识发现原理会议,第 15-27 页。↩
Angiulli, F. 和 Pizzuti, C.,2002 年 8 月。高维空间中的快速异常值检测。欧洲数据挖掘和知识发现原理会议,第 15-27 页。↩
Kriegel, HP、Kröger, P.、Schubert, E. 和 Zimek, A.,2009 年 4 月。高维数据轴平行子空间中的异常值检测。载于亚太知识发现和数据挖掘会议,第 831-838 页。施普林格、柏林、海德堡。↩
Almardeny, Y.、Boujnah, N. 和 Cleary, F.,2020。一种新颖的多元数据异常值检测方法。IEEE 知识与数据工程汇刊。↩
刘 FT、丁 KM 和周 ZH,2008 年 12 月。隔离森林。国际数据挖掘会议,第 413-422 页。 IEEE。↩
Bandaragoda, TR、Ting, KM、Albrecht, D.、Liu, FT、Zhu, Y. 和 Wells, JR,2018,使用最近邻集成的基于隔离的异常检测。计算智能,34(4),第 968-998 页。↩
Xu, H., Pang, G., Wang, Y., Wang, Y., 2023。用于异常检测的深度隔离森林。IEEE 知识与数据工程汇刊。↩
Lazarevic, A. 和 Kumar, V.,2005 年 8 月。用于异常值检测的特征装袋。在KDD '05中。 2005. ↩
赵 Y.、纳斯鲁拉 Z.、Hryniewicki, MK 和李 Z.,2019 年 5 月。 LSCP:并行异常值集合中的局部选择性组合。2019 年 SIAM 国际数据挖掘会议 (SDM) 论文集,第 585-593 页。工业与应用数学学会。↩
赵,Y. 和 Hryniewicki,MK XGBOD:通过无监督表示学习改进有监督异常值检测。IEEE 国际神经网络联合会议,2018 。 ↩
Pevný, T., 2016。Loda:轻量级在线异常检测器。机器学习,102(2),第 275-304 页。↩
赵Y.,胡X.,程成C.,王成C.,万成.,王文.,杨J.,白红.,李Z.,肖成., Wang, Y.、Qiao, Z.、Sun, J. 和 Akoglu, L. (2021)。 SUOD:加速大规模无监督异构异常值检测。机器学习和系统会议(MLSys)。↩
Aggarwal, CC, 2015。异常值分析。数据挖掘(第 237-263 页)。施普林格、查姆. ↩
Kingma, DP 和 Welling, M.,2013。自动编码变分贝叶斯。 arXiv 预印本 arXiv:1312.6114。↩
伯吉斯,克里斯托弗·P.,等人。 “了解 beta-VAE 中的解缠结。” arXiv 预印本 arXiv:1804.03599 (2018)。↩
Liu, Y., Li, Z., Zhou, C., Jiang, Y., Sun, J., Wang, M. and He, X., 2019。用于无监督异常值检测的生成对抗主动学习。IEEE 知识与数据工程汇刊。↩
Liu, Y., Li, Z., Zhou, C., Jiang, Y., Sun, J., Wang, M. and He, X., 2019。用于无监督异常值检测的生成对抗主动学习。IEEE 知识与数据工程汇刊。↩
Ruff, L.、Vandereulen, R.、Goernitz, N.、Deecke, L.、Siddiqui, SA、Binder, A.、Müller, E. 和 Kloft, M.,2018 年 7 月。深度一类分类。国际机器学习会议(第 4393-4402 页)。 PMLR。↩
Schlegl, T.、Seeböck, P.、Waldstein, SM、Schmidt-Erfurth, U. 和 Langs, G.,2017 年 6 月。使用生成对抗网络进行无监督异常检测,以指导标记发现。医学影像信息处理国际会议(第 146-157 页)。施普林格、查姆. ↩
Zenati, H.、Romain, M.、Foo, CS、Lecouat, B. 和 Chandrasekhar, V.,2018 年 11 月。对抗性学习异常检测。 2018 年 IEEE 国际数据挖掘会议 (ICDM)(第 727-736 页)。 IEEE。↩
You, C.、Robinson, DP 和 Vidal, R.,2017。子空间并集中基于可证明的自我表示的异常值检测。 IEEE 计算机视觉和模式识别会议论文集。↩
Goodge, A.、Hooi, B.、Ng, SK 和 Ng, WS,2022 年 6 月。 Lunar:通过图神经网络统一局部异常值检测方法。 AAAI 人工智能会议论文集。↩
Lazarevic, A. 和 Kumar, V.,2005 年 8 月。用于异常值检测的特征装袋。在KDD '05中。 2005. ↩
赵 Y.、纳斯鲁拉 Z.、Hryniewicki, MK 和李 Z.,2019 年 5 月。 LSCP:并行异常值集合中的局部选择性组合。2019 年 SIAM 国际数据挖掘会议 (SDM) 论文集,第 585-593 页。工业与应用数学学会。↩
赵,Y. 和 Hryniewicki,MK XGBOD:通过无监督表示学习改进有监督异常值检测。IEEE 国际神经网络联合会议,2018 。 ↩
Pevný, T., 2016。Loda:轻量级在线异常检测器。机器学习,102(2),第 275-304 页。↩
赵Y.,胡X.,程成C.,王成C.,万成.,王文.,杨J.,白红.,李Z.,肖成., Wang, Y.、Qiao, Z.、Sun, J. 和 Akoglu, L. (2021)。 SUOD:加速大规模无监督异构异常值检测。机器学习和系统会议(MLSys)。↩
Bandaragoda, TR、Ting, KM、Albrecht, D.、Liu, FT、Zhu, Y. 和 Wells, JR,2018,使用最近邻集成的基于隔离的异常检测。计算智能,34(4),第 968-998 页。↩
Aggarwal, CC 和 Sathe, S.,2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯,17(1),第 24-47 页。↩
Aggarwal, CC 和 Sathe, S.,2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯,17(1),第 24-47 页。↩
Aggarwal, CC 和 Sathe, S.,2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯,17(1),第 24-47 页。↩
Aggarwal, CC 和 Sathe, S.,2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯,17(1),第 24-47 页。↩
Aggarwal, CC 和 Sathe, S.,2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯,17(1),第 24-47 页。↩
Aggarwal, CC 和 Sathe, S.,2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯,17(1),第 24-47 页。↩
Aggarwal, CC 和 Sathe, S.,2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯,17(1),第 24-47 页。↩