Skip to content

yuanzhongqiao/pyod

 
 

Repository files navigation

Python 异常值检测 (PyOD)

部署、文档、统计数据和许可证

PyPI版本

水蟒版本

文件状态

GitHub 星星

GitHub 分叉

下载

测试

覆盖状态

可维护性

执照

基准


先读我的内容

欢迎使用 PyOD,这是一个用于检测多变量数据异常的多功能 Python 库。无论您要处理小型项目还是大型数据集,PyOD 都提供一系列算法来满足您的需求。


关于PyOD

PyOD 成立于 2017 年,已成为检测多元数据中异常/异常对象的首选Python 库。这个令人兴奋但具有挑战性的领域通常被称为异常值检测异常检测

PyOD 包含 50 多种检测算法,从经典的 LOF (SIGMOD 2000) 到尖端的 ECOD 和 DIF (TKDE 2022 和 2023)。自2017年以来,PyOD已成功应用于众多学术研究和商业产品,下载量超过1700万次。它也得到了机器学习社区的广泛认可,有各种专门的帖子/教程,包括Analytics VidhyaKDnuggetsTowards Data Science

PyOD 的特点是

  • 统一、用户友好的界面
  • 多种型号,从经典技术到最新的深度学习方法。
  • 高性能和高效率,利用numbajoblib进行 JIT 编译和并行处理。
  • 通过SUOD 框架实现快速训练和预测1

使用 5 行代码进行异常值检测

# Example: Training an ECOD detector
from pyod.models.ecod import ECOD
clf = ECOD()
clf.fit(X_train)
y_train_scores = clf.decision_scores_  # Outlier scores for training data
y_test_scores = clf.decision_function(X_test)  # Outlier scores for test data

选择正确的算法: .不确定从哪里开始?考虑这些强大且可解释的选项:

  • ECOD:使用 ECOD 进行异常值检测的示例
  • 隔离森林:使用隔离森林进行异常值检测的示例

或者,探索MetaOD以获取数据驱动的方法。

引用 PyOD

PyOD 论文发表在Journal of Machine Learning Research (JMLR)(MLOSS track)上。如果您在科学出版物中使用 PyOD,我们希望引用以下论文:

@article{zhao2019pyod,
    author  = {Zhao, Yue and Nasrullah, Zain and Li, Zheng},
    title   = {PyOD: A Python Toolbox for Scalable Outlier Detection},
    journal = {Journal of Machine Learning Research},
    year    = {2019},
    volume  = {20},
    number  = {96},
    pages   = {1-7},
    url     = {http://jmlr.org/papers/v20/19-011.html}
}

或者:

Zhao, Y., Nasrullah, Z. and Li, Z., 2019. PyOD: A Python Toolbox for Scalable Outlier Detection. Journal of machine learning research (JMLR), 20(96), pp.1-7.

有关异常检测的更广泛视角,请参阅我们的 NeurIPS 论文ADBench:异常检测基准论文ADGym:深度异常检测的设计选择

@article{han2022adbench,
    title={Adbench: Anomaly detection benchmark},
    author={Han, Songqiao and Hu, Xiyang and Huang, Hailiang and Jiang, Minqi and Zhao, Yue},
    journal={Advances in Neural Information Processing Systems},
    volume={35},
    pages={32142--32159},
    year={2022}
}

@article{jiang2023adgym, title={ADGym: Design Choices for Deep Anomaly Detection}, author={Jiang, Minqi and Hou, Chaochuan and Zheng, Ao and Han, Songqiao and Huang, Hailiang and Wen, Qingsong and Hu, Xiyang and Zhao, Yue}, journal={Advances in Neural Information Processing Systems}, volume={36}, year={2023} }

目录


安装

PyOD 旨在使用pipconda轻松安装。由于更新和增强频繁,我们建议使用最新版本的 PyOD:

pip install pyod            # normal install
pip install --upgrade pyod  # or update if needed
conda install -c conda-forge pyod

或者,您可以克隆并运行 setup.py 文件:

git clone https://github.com/yzhao062/pyod.git
cd pyod
pip install .

所需的依赖项

  • Python 3.8 或更高版本
  • 作业库
  • 绘图库
  • numpy>=1.19
  • 数字>=0.51
  • scipy>=1.5.1
  • scikit_learn>=0.22.0

可选依赖项(请参阅下面的详细信息)

  • 组合(可选,models/combination.py和FeatureBagging所需)
  • keras/tensorflow(可选,AutoEncoder 和其他深度学习模型所需)
  • suod(可选,运行 SUOD 模型所需)
  • xgboost(可选,XGBOD 必需)
  • pythresh(可选,阈值处理所需)可选

API 备忘单和参考

完整的 API 参考可在PyOD 文档中找到。以下是所有探测器的快速备忘单:

  • fit(X):安装探测器。在无监督方法中参数 y 被忽略。
  • Decision_function(X):使用拟合检测器预测 X 的原始异常分数。
  • 预测(X):使用拟合的检测器确定样本是否为异常值作为二进制标签。
  • Predict_proba(X):使用拟合检测器估计样本为异常值的概率。
  • Predict_confidence(X):基于每个样本评估模型的置信度(适用于predict和predict_proba)2

拟合模型的关键属性

  • Decision_scores_:训练数据的离群值。分数越高通常表明行为越异常。异常值通常具有较高的分数。
  • labels_:训练数据的二进制标签,其中 0 表示正常值,1 表示异常值/异常。

ADBench 基准测试和数据集

我们刚刚发布了 45 页、最全面的ADBench:异常检测基准3。完全开源的 ADBench在 57 个基准数据集上比较了 30 种异常检测算法。

ADBench的组织结构如下:

基准图

为了更简单的可视化,我们通过compare_all_models.py对选定的模型进行比较

全部比较


模型保存和加载

PyOD 在模型持久性方面采用了与 sklearn 类似的方法。有关说明,请参阅模型持久性。

简而言之,我们建议使用 joblib 或 pickle 来保存和加载 PyOD 模型。有关示例,请参阅“examples/save_load_model_example.py” 。简而言之,简单如下:

from joblib import dump, load

# save the model dump(clf, 'clf.joblib') # load the model clf = load('clf.joblib')

众所周知,保存神经网络模型存在挑战。检查#328#88以获取临时解决方法。


SUOD 快速列车

快速训练和预测:利用SUOD框架4,可以在PyOD中使用大量检测模型进行训练和预测。请参阅SUOD 论文SUOD 示例

from pyod.models.suod import SUOD

# initialized a group of outlier detectors for acceleration detector_list = [LOF(n_neighbors=15), LOF(n_neighbors=20), LOF(n_neighbors=25), LOF(n_neighbors=35), COPOD(), IForest(n_estimators=100), IForest(n_estimators=200)]

# decide the number of parallel process, and the combination method # then clf can be used as any outlier detection model clf = SUOD(base_estimators=detector_list, n_jobs=2, combination='average', verbose=False)


异常值阈值

设置污染水平时可以采用更多基于数据的方法。通过使用阈值方法,可以用用于分离异常值和异常值的经过测试的技术来代替猜测任意值。请参阅PyThresh以更深入地了解阈值。

from pyod.models.knn import KNN
from pyod.models.thresholds import FILTER

# Set the outlier detection and thresholding methods clf = KNN(contamination=FILTER())


实现的算法

PyOD 工具包由四个主要功能组组成:

(i) 个体检测算法

类型 缩写 算法 参考号
概率论 ECOD 使用经验累积分布函数进行无监督离群值检测 2022年 5
概率论 ABOD 基于角度的异常值检测 2008年 6
概率论 快速ABOD 使用近似法进行基于角度的快速异常值检测 2008年 7
概率论 慢性阻塞性肺病 COPOD:基于 Copula 的异常值检测 2020年 8
概率论 疯狂的 中值绝对偏差 (MAD) 1993年 9
概率论 求救 随机异常值选择 2012年 10
概率论 质量管理中心 准蒙特卡罗差异异常值检测 2001年 11
概率论 凯德 使用核密度函数进行异常值检测 2007年 12

概率概率

采样高斯模型

通过采样概率混合建模进行异常值分析,进行基于距离的快速异常值检测

2013年

13 14 [第2章]

线性模型 主成分分析 主成分分析(到特征向量超平面的加权投影距离之和) 2003年 15
线性模型 关键主成分分析法 核主成分分析 2007年 16
线性模型 MCD 最小协方差行列式(使用马氏距离作为离群值) 1999年 17 18
线性模型 光盘 使用库克距离进行异常值检测 1977年 19 号
线性模型 开放式空间向量机 一类支持向量机 2001年 20
线性模型 低密度脂蛋白 基于偏差的异常值检测 (LMDD) 1996年 21
基于邻近度 洛夫 局部离群因素 2000年 22
基于邻近度 COF 基于连接性的异常值因素 2002年 23
基于邻近度 (增量)COF 基于内存高效连接的离群因素(速度较慢,但​​降低存储复杂性) 2002年 24
基于邻近度 CBLOF 基于聚类的局部离群因子 2003年 25
基于邻近度 基因定位 LOCI:使用局部相关积分进行快速异常值检测 2003年 26
基于邻近度 HBOS 基于直方图的异常值分数 2012年 27
基于邻近度 kNN k 最近邻(使用到第 k 个最近邻的距离作为离群值) 2000年 28
基于邻近度 平均KNN 平均 kNN(使用到 k 个最近邻的平均距离作为离群值) 2002年 29
基于邻近度 医学KNN 中值 kNN(使用到 k 个最近邻的中值距离作为异常值得分) 2002年 30
基于邻近度 草皮 子空间异常值检测 2009年 31
基于邻近度 基于旋转的异常值检测 2020年 32
离群值集合 爱森林 隔离森林 2008年 33
离群值集合 伊内 使用最近邻集成的基于隔离的异常检测 2018年 34
离群值集合 差值 用于异常检测的深度隔离森林 2023年 35
离群值集合 FB 特征装袋 2005年 36
离群值集合 LSCP LSCP:并行异常值集合的局部选择性组合 2019年 37
离群值集合 XGBOD 基于极端增强的异常值检测(监督) 2018年 38
离群值集合 洛达 轻量级在线异常检测器 2016年 39

异常值集成神经网络

SUOD自动编码器

SUOD:加速大规模无监督异构异常值检测(加速)全连接自动编码器(使用重建误差作为异常值得分)

2021年

40 41 [第3章]

神经网络 VAE 变分自动编码器(使用重建误差作为离群值) 2013年 42
神经网络 β-VAE 变分自动编码器(所有通过改变伽玛和容量定制的损失项) 2018年 43
神经网络 SO_GAAL 单目标生成对抗主动学习 2019年 44
神经网络 MO_GAAL 多目标生成对抗主动学习 2019年 45
神经网络 深SVDD 深度一类分类 2018年 46
神经网络 阿诺甘 使用生成对抗网络进行异常检测 2017年 47
神经网络 阿拉德 对抗性学习异常检测 2018年 48
基于图的 R图 通过 R 图检测异常值 2017年 49
基于图的 月球 LUNAR:通过图神经网络统一局部异常值检测方法 2022年 50

(ii) 离群值集合和离群值检测器组合框架

类型 缩写 算法 参考号
离群值集合 FB 特征装袋 2005年 51
离群值集合 LSCP LSCP:并行异常值集合的局部选择性组合 2019年 52
离群值集合 XGBOD 基于极端增强的异常值检测(监督) 2018年 53
离群值集合 洛达 轻量级在线异常检测器 2016年 54
离群值集合 苏奥德 SUOD:加速大规模无监督异构异常值检测(加速) 2021年 55
离群值集合 伊内 使用最近邻集成的基于隔离的异常检测 2018年 56
组合 平均的 通过平均分数进行简单组合 2015年 57
组合 加权平均 通过对分数与检测器权重进行平均来进行简单组合 2015年 58
组合 最大化 通过取最大分数进行简单组合 2015年 59
组合 澳奥姆 最大值的平均值 2015年 60
组合 MOA 平均值最大化 2015年 61
组合 中位数 通过取分数的中位数进行简单组合 2015年 62
组合 多数票 通过获得标签的多数票进行简单组合(可以使用权重) 2015年 63

(iii) 异常值检测分数阈值方法

类型 缩写 算法 文档
基于内核的 AUCP 曲线下面积百分比 AUCP
基于统计矩 启动 自举 启动
基于正态性 肖文内准则
线性模型 CLF 训练有素的线性分类器 CLF
基于集群的 集群 基于聚类 集群
基于内核的 持续专业发展 变化点检测 持续专业发展
基于转型 分解 分解 分解
基于正态性 数据服务网络 与正常距离的偏移 数据服务网络
基于曲线 EB 椭圆边界 EB
基于内核的 烟气脱硫 固定梯度下降 烟气脱硫
基于过滤器 筛选 基于过滤 筛选
基于曲线 短波频率调制 最小全宽 短波频率调制
基于统计测试 全球可持续发展 广义极端学生化偏差 全球可持续发展
基于过滤器 希斯特 基于直方图 希斯特
基于分位数 IQR 四分位间区域 IQR
基于统计矩 卡奇 Karcher 均值(黎曼质量中心) 卡奇
基于统计矩 疯狂的 中值绝对偏差 疯狂的
基于统计测试 MCST 蒙特卡洛夏皮罗测试 MCST
基于集成的 梅塔 元模型训练分类器 梅塔
基于转型 摩尔 弗里德里希的舒缓剂 摩尔
基于统计测试 四甲基偶氮唑盐 改良 Thompson Tau 测试 四甲基偶氮唑盐
线性模型 开放式空间向量机 一类支持向量机 开放式空间向量机
基于分位数 质量管理中心 准蒙特卡罗差异 质量管理中心
线性模型 再生率 基于回归 再生率
神经网络 VAE 变分自动编码器 VAE
基于曲线 拓扑绕数
基于转型 YJ 杨约翰逊转变 YJ
基于正态性 零分数 Z 分数 零分数

(四) 实用功能

类型 姓名 功能 文档
数据 生成数据 综合数据生成;正常数据由多元高斯生成,异常值由均匀分布生成 生成数据
数据 生成数据簇 集群中的综合数据生成;可以使用多个集群创建更复杂的数据模式 生成数据簇
统计数据 皮尔森 计算两个样本的加权皮尔逊相关性 皮尔森
公用事业 获取标签n 通过将 1 分配给前 n 个异常值分数,将原始异常值分数转换为二进制标签 获取标签n
公用事业 precision_n_scores 精度 计算精度@等级n precision_n_scores 精度

异常值检测快速入门

PyOD 通过一些特色帖子和教程得到了机器学习社区的广泛认可。

Analytics Vidhya使用 PyOD 库在 Python 中学习异常值检测的精彩教程

KDnuggets离群值检测方法的直观可视化PyOD 离群值检测方法概述

迈向数据科学傻瓜式异常检测

计算机视觉新闻(2019 年 3 月)用于异常值检测的 Python 开源工具箱

“examples/knn_example.py”演示了使用 kNN 检测器的基本 API。值得注意的是,所有其他算法的 API 都是一致/相似的

运行示例的更详细说明可以在示例目录中找到。

  1. 初始化 kNN 检测器、拟合模型并进行预测。

    from pyod.models.knn import KNN   # kNN detector
    

    # train kNN detector clf_name = 'KNN' clf = KNN() clf.fit(X_train)

    # get the prediction label and outlier scores of the training data y_train_pred = clf.labels_ # binary labels (0: inliers, 1: outliers) y_train_scores = clf.decision_scores_ # raw outlier scores

    # get the prediction on the test data y_test_pred = clf.predict(X_test) # outlier labels (0 or 1) y_test_scores = clf.decision_function(X_test) # outlier scores

    # it is possible to get the prediction confidence as well y_test_pred, y_test_pred_confidence = clf.predict(X_test, return_confidence=True) # outlier labels (0 or 1) and confidence in the range of [0,1]

  2. 通过 ROC 和 Precision @ Rank n ( p@n )评估预测。

    from pyod.utils.data import evaluate_print
    

    # evaluate and print the results print("\nOn Training Data:") evaluate_print(clf_name, y_train, y_train_scores) print("\nOn Test Data:") evaluate_print(clf_name, y_test, y_test_scores)

  3. 查看示例输出和可视化。

    On Training Data:
    KNN ROC:1.0, precision @ rank n:1.0
    

    On Test Data: KNN ROC:0.9989, precision @ rank n:0.9

    <clipboard-copy aria-label="Copy" class="ClipboardButton btn btn-invisible js-clipboard-copy m-2 p-0 tooltipped-no-delay d-flex flex-justify-center flex-items-center" data-copy-feedback="Copied!" data-tooltip-direction="w" value="On Training Data: KNN ROC:1.0, precision @ rank n:1.0

    On Test Data: KNN ROC:0.9989, precision @ rank n:0.9" tabindex="0" role="button">

    visualize(clf_name, X_train, y_train, X_test, y_test, y_train_pred,
        y_test_pred, show_figure=True, save_figure=False)

可视化(knn_figure):

kNN 示例图


参考


  1. 赵Y.,胡X.,程成C.,王成C.,万成.,王文.,杨J.,白红.,李Z.,肖成., Wang, Y.、Qiao, Z.、Sun, J. 和 Akoglu, L. (2021)。 SUOD:加速大规模无监督异构异常值检测。机器学习和系统会议(MLSys)

  2. Perini, L.、Vercruyssen, V.、Davis, J. 量化异常检测器在示例预测中的置信度。欧洲机器学习和数据库知识发现联合会议 (ECML-PKDD),2020 年。

  3. Han, S.、Hu, X.、Huang, H.、Jiang, M. 和 Zhu, Y.,2022。ADBench:异常检测基准。 arXiv 预印本 arXiv:2206.09426。

  4. 赵Y.,胡X.,程成C.,王成C.,万成.,王文.,杨J.,白红.,李Z.,肖成., Wang, Y.、Qiao, Z.、Sun, J. 和 Akoglu, L. (2021)。 SUOD:加速大规模无监督异构异常值检测。机器学习和系统会议(MLSys)

  5. Li, Z.、Zhao, Y.、Hu, X.、Botta, N.、Ionescu, C. 和 Chen, HG ECOD:使用经验累积分布函数的无监督离群值检测。IEEE 知识与数据工程汇刊 (TKDE),2022 年。↩

  6. Kriegel, HP 和 Zimek, A.,2008 年 8 月。高维数据中基于角度的异常值检测。在KDD '08,第 444-452 页。 ACM。

  7. Kriegel, HP 和 Zimek, A.,2008 年 8 月。高维数据中基于角度的异常值检测。在KDD '08,第 444-452 页。 ACM。

  8. Li, Z.、Zhao, Y.、Botta, N.、Ionescu, C. 和 Hu, X. COPOD:基于 Copula 的异常值检测。IEEE 国际数据挖掘会议 (ICDM),2020。

  9. Iglewicz, B. 和 Hoaglin, DC,1993。如何检测和处理异常值(第 16 卷)。阿斯克出版社。

  10. Janssens, JHM、Huszár, F.、Postma, EO 和 van den Herik, HJ, 2012。随机异常值选择。技术报告 TiCC TR 2012-001,蒂尔堡大学蒂尔堡认知与交流中心,荷兰蒂尔堡。

  11. Fang, KT 和 Ma, CX, 2001。随机抽样、拉丁超立方体和均匀设计的环绕式 L2 差异。复杂性杂志,17(4),第 608-624 页。

  12. Latecki, LJ、Lazarevic, A. 和 Pokrajac, D.,2007 年 7 月。使用核密度函数进行离群值检测。在模式识别中的机器学习和数据挖掘国际研讨会(第 61-75 页)。施普林格、柏林、海德堡。

  13. Sugiyama, M. 和 Borgwardt, K.,2013。通过采样进行基于距离的快速异常值检测。神经信息处理系统的进展,26。

  14. Aggarwal, CC, 2015。异常值分析。数据挖掘(第 237-263 页)。施普林格、查姆.

  15. Shyu, ML, Chen, SC, Sarinnapakorn, K. 和 Chang, L., 2003。一种基于主成分分类器的新颖异常检测方案。佛罗里达州科勒尔盖布尔斯迈阿密大学电气与计算机工程系

  16. Hoffmann, H., 2007。用于新颖性检测的内核 PCA。模式识别,40(3),第 863-874 页。

  17. Hardin, J. 和 Rocke, DM,2004。使用最小协方差行列式估计器在多聚类设置中进行异常值检测。计算统计与数据分析,44(4),第 625-638 页。

  18. Rousseeuw, PJ 和 Driessen, KV,1999。最小协方差行列式估计器的快速算法。技术计量学,41(3),第 212-223 页。

  19. Cook, RD, 1977。线性回归中影响观察的检测。技术计量学,19(1),第 15-18 页。

  20. Scholkopf, B.、Platt, JC、Shawe-Taylor, J.、Smola, AJ 和 Williamson, RC,2001。估计高维分布的支持。神经计算,13(7),第 1443-1471 页。

  21. Arning, A.、Agrawal, R. 和 Raghavan, P.,1996 年 8 月。大型数据库中偏差检测的线性方法。在KDD(第 1141 卷,第 50 期,第 972-981 页)中。

  22. Breunig, MM、Kriegel, HP、Ng, RT 和 Sander, J.,2000 年 5 月。 LOF:识别基于密度的局部异常值。ACM Sigmod 记录,29(2),第 93-104 页。

  23. Tang, J.、Chen, Z.、Fu, AWC 和 Cheung, DW,2002 年 5 月。增强低密度模式异常值检测的有效性。载于亚太知识发现和数据挖掘会议,第 535-548 页。施普林格、柏林、海德堡。

  24. Tang, J.、Chen, Z.、Fu, AWC 和 Cheung, DW,2002 年 5 月。增强低密度模式异常值检测的有效性。载于亚太知识发现和数据挖掘会议,第 535-548 页。施普林格、柏林、海德堡。

  25. He, Z.、Xu, X. 和 Deng, S.,2003。发现基于集群的局部异常值。模式识别字母,24(9-10),第 1641-1650 页。

  26. Papadimitriou, S.、Kitakawa, H.、Gibbons, PB 和 Faloutsos, C.,2003 年 3 月。 LOCI:使用局部相关积分进行快速异常值检测。 ICDE '03,第 315-326 页。 IEEE。

  27. Goldstein, M. 和 Dengel, A.,2012。基于直方图的离群值评分 (hbos):一种快速无监督异常检测算法。在KI-2012:海报和演示轨道,第 59-63 页。

  28. Ramaswamy, S.、Rastogi, R. 和 Shim, K.,2000 年 5 月。从大型数据集中挖掘异常值的有效算法。ACM Sigmod 记录,29(2),第 427-438 页。

  29. Angiulli, F. 和 Pizzuti, C.,2002 年 8 月。高维空间中的快速异常值检测。欧洲数据挖掘和知识发现原理会议,第 15-27 页。

  30. Angiulli, F. 和 Pizzuti, C.,2002 年 8 月。高维空间中的快速异常值检测。欧洲数据挖掘和知识发现原理会议,第 15-27 页。

  31. Kriegel, HP、Kröger, P.、Schubert, E. 和 Zimek, A.,2009 年 4 月。高维数据轴平行子空间中的异常值检测。载于亚太知识发现和数据挖掘会议,第 831-838 页。施普林格、柏林、海德堡。

  32. Almardeny, Y.、Boujnah, N. 和 Cleary, F.,2020。一种新颖的多元数据异常值检测方法。IEEE 知识与数据工程汇刊

  33. 刘 FT、丁 KM 和周 ZH,2008 年 12 月。隔离森林。国际数据挖掘会议,第 413-422 页。 IEEE。

  34. Bandaragoda, TR、Ting, KM、Albrecht, D.、Liu, FT、Zhu, Y. 和 Wells, JR,2018,使用最近邻集成的基于隔离的异常检测。计算智能,34(4),第 968-998 页。

  35. Xu, H., Pang, G., Wang, Y., Wang, Y., 2023。用于异常检测的深度隔离森林。IEEE 知识与数据工程汇刊

  36. Lazarevic, A. 和 Kumar, V.,2005 年 8 月。用于异常值检测的特征装袋。在KDD '05中。 2005.

  37. 赵 Y.、纳斯鲁拉 Z.、Hryniewicki, MK 和李 Z.,2019 年 5 月。 LSCP:并行异常值集合中的局部选择性组合。2019 年 SIAM 国际数据挖掘会议 (SDM) 论文集,第 585-593 页。工业与应用数学学会。

  38. 赵,Y. 和 Hryniewicki,MK XGBOD:通过无监督表示学习改进有监督异常值检测。IEEE 国际神经网络联合会议,2018 。 ↩

  39. Pevný, T., 2016。Loda:轻量级在线异常检测器。机器学习,102(2),第 275-304 页。

  40. 赵Y.,胡X.,程成C.,王成C.,万成.,王文.,杨J.,白红.,李Z.,肖成., Wang, Y.、Qiao, Z.、Sun, J. 和 Akoglu, L. (2021)。 SUOD:加速大规模无监督异构异常值检测。机器学习和系统会议(MLSys)

  41. Aggarwal, CC, 2015。异常值分析。数据挖掘(第 237-263 页)。施普林格、查姆.

  42. Kingma, DP 和 Welling, M.,2013。自动编码变分贝叶斯。 arXiv 预印本 arXiv:1312.6114。

  43. 伯吉斯,克里斯托弗·P.,等人。 “了解 beta-VAE 中的解缠结。” arXiv 预印本 arXiv:1804.03599 (2018)。

  44. Liu, Y., Li, Z., Zhou, C., Jiang, Y., Sun, J., Wang, M. and He, X., 2019。用于无监督异常值检测的生成对抗主动学习。IEEE 知识与数据工程汇刊

  45. Liu, Y., Li, Z., Zhou, C., Jiang, Y., Sun, J., Wang, M. and He, X., 2019。用于无监督异常值检测的生成对抗主动学习。IEEE 知识与数据工程汇刊

  46. Ruff, L.、Vandereulen, R.、Goernitz, N.、Deecke, L.、Siddiqui, SA、Binder, A.、Müller, E. 和 Kloft, M.,2018 年 7 月。深度一类分类。国际机器学习会议(第 4393-4402 页)。 PMLR。

  47. Schlegl, T.、Seeböck, P.、Waldstein, SM、Schmidt-Erfurth, U. 和 Langs, G.,2017 年 6 月。使用生成对抗网络进行无监督异常检测,以指导标记发现。医学影像信息处理国际会议(第 146-157 页)。施普林格、查姆.

  48. Zenati, H.、Romain, M.、Foo, CS、Lecouat, B. 和 Chandrasekhar, V.,2018 年 11 月。对抗性学习异常检测。 2018 年 IEEE 国际数据挖掘会议 (ICDM)(第 727-736 页)。 IEEE。

  49. You, C.、Robinson, DP 和 Vidal, R.,2017。子空间并集中基于可证明的自我表示的异常值检测。 IEEE 计算机视觉和模式识别会议论文集。

  50. Goodge, A.、Hooi, B.、Ng, SK 和 Ng, WS,2022 年 6 月。 Lunar:通过图神经网络统一局部异常值检测方法。 AAAI 人工智能会议论文集。

  51. Lazarevic, A. 和 Kumar, V.,2005 年 8 月。用于异常值检测的特征装袋。在KDD '05中。 2005.

  52. 赵 Y.、纳斯鲁拉 Z.、Hryniewicki, MK 和李 Z.,2019 年 5 月。 LSCP:并行异常值集合中的局部选择性组合。2019 年 SIAM 国际数据挖掘会议 (SDM) 论文集,第 585-593 页。工业与应用数学学会。

  53. 赵,Y. 和 Hryniewicki,MK XGBOD:通过无监督表示学习改进有监督异常值检测。IEEE 国际神经网络联合会议,2018 。 ↩

  54. Pevný, T., 2016。Loda:轻量级在线异常检测器。机器学习,102(2),第 275-304 页。

  55. 赵Y.,胡X.,程成C.,王成C.,万成.,王文.,杨J.,白红.,李Z.,肖成., Wang, Y.、Qiao, Z.、Sun, J. 和 Akoglu, L. (2021)。 SUOD:加速大规模无监督异构异常值检测。机器学习和系统会议(MLSys)

  56. Bandaragoda, TR、Ting, KM、Albrecht, D.、Liu, FT、Zhu, Y. 和 Wells, JR,2018,使用最近邻集成的基于隔离的异常检测。计算智能,34(4),第 968-998 页。

  57. Aggarwal, CC 和 Sathe, S.,2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯,17(1),第 24-47 页。

  58. Aggarwal, CC 和 Sathe, S.,2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯,17(1),第 24-47 页。

  59. Aggarwal, CC 和 Sathe, S.,2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯,17(1),第 24-47 页。

  60. Aggarwal, CC 和 Sathe, S.,2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯,17(1),第 24-47 页。

  61. Aggarwal, CC 和 Sathe, S.,2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯,17(1),第 24-47 页。

  62. Aggarwal, CC 和 Sathe, S.,2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯,17(1),第 24-47 页。

  63. Aggarwal, CC 和 Sathe, S.,2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯,17(1),第 24-47 页。

About

用于异常值检测(异常检测)的全面且可扩展的 Python 库

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 86.6%
  • Jupyter Notebook 13.4%