Python 异常值检测 (PyOD)

部署、文档、统计数据和许可证

先读我的内容

欢迎使用 PyOD，这是一个用于检测多变量数据异常的多功能 Python 库。无论您要处理小型项目还是大型数据集，PyOD 都提供一系列算法来满足您的需求。

对于时间序列异常值检测，请使用TODS。
对于图形异常值检测，请使用PyGOD。
性能比较和数据集：我们有 45 页的最全面的异常检测基准论文。完全开源的 ADBench在 57 个基准数据集上比较了 30 种异常检测算法。
了解有关异常检测的更多信息@异常检测资源
分布式系统上的 PyOD：您还可以在 databricks 上运行 PyOD。

关于PyOD

PyOD 成立于 2017 年，已成为检测多元数据中异常/异常对象的首选Python 库。这个令人兴奋但具有挑战性的领域通常被称为异常值检测或异常检测。

PyOD 包含 50 多种检测算法，从经典的 LOF (SIGMOD 2000) 到尖端的 ECOD 和 DIF (TKDE 2022 和 2023)。自2017年以来，PyOD已成功应用于众多学术研究和商业产品，下载量超过1700万次。它也得到了机器学习社区的广泛认可，有各种专门的帖子/教程，包括Analytics Vidhya、KDnuggets和Towards Data Science。

PyOD 的特点是：

统一、用户友好的界面。
多种型号，从经典技术到最新的深度学习方法。
高性能和高效率，利用numba和joblib进行 JIT 编译和并行处理。
通过SUOD 框架实现快速训练和预测¹。

使用 5 行代码进行异常值检测：

# Example: Training an ECOD detector
from pyod.models.ecod import ECOD
clf = ECOD()
clf.fit(X_train)
y_train_scores = clf.decision_scores_  # Outlier scores for training data
y_test_scores = clf.decision_function(X_test)  # Outlier scores for test data

选择正确的算法： .不确定从哪里开始？考虑这些强大且可解释的选项：

ECOD：使用 ECOD 进行异常值检测的示例
隔离森林：使用隔离森林进行异常值检测的示例

或者，探索MetaOD以获取数据驱动的方法。

引用 PyOD：

PyOD 论文发表在Journal of Machine Learning Research (JMLR)（MLOSS track）上。如果您在科学出版物中使用 PyOD，我们希望引用以下论文：

@article{zhao2019pyod,
    author  = {Zhao, Yue and Nasrullah, Zain and Li, Zheng},
    title   = {PyOD: A Python Toolbox for Scalable Outlier Detection},
    journal = {Journal of Machine Learning Research},
    year    = {2019},
    volume  = {20},
    number  = {96},
    pages   = {1-7},
    url     = {http://jmlr.org/papers/v20/19-011.html}
}

或者：

Zhao, Y., Nasrullah, Z. and Li, Z., 2019. PyOD: A Python Toolbox for Scalable Outlier Detection. Journal of machine learning research (JMLR), 20(96), pp.1-7.

有关异常检测的更广泛视角，请参阅我们的 NeurIPS 论文ADBench：异常检测基准论文和ADGym：深度异常检测的设计选择：

@article{han2022adbench,
    title={Adbench: Anomaly detection benchmark},
    author={Han, Songqiao and Hu, Xiyang and Huang, Hailiang and Jiang, Minqi and Zhao, Yue},
    journal={Advances in Neural Information Processing Systems},
    volume={35},
    pages={32142--32159},
    year={2022}
}
@article{jiang2023adgym,
title={ADGym: Design Choices for Deep Anomaly Detection},
author={Jiang, Minqi and Hou, Chaochuan and Zheng, Ao and Han, Songqiao and Huang, Hailiang and Wen, Qingsong and Hu, Xiyang and Zhao, Yue},
journal={Advances in Neural Information Processing Systems},
volume={36},
year={2023}
}

安装

PyOD 旨在使用pip或conda轻松安装。由于更新和增强频繁，我们建议使用最新版本的 PyOD：

pip install pyod            # normal install
pip install --upgrade pyod  # or update if needed

conda install -c conda-forge pyod

或者，您可以克隆并运行 setup.py 文件：

git clone https://github.com/yzhao062/pyod.git
cd pyod
pip install .

所需的依赖项：

Python 3.8 或更高版本
作业库
绘图库
numpy>=1.19
数字>=0.51
scipy>=1.5.1
scikit_learn>=0.22.0

可选依赖项（请参阅下面的详细信息）：

组合（可选，models/combination.py和FeatureBagging所需）
keras/tensorflow（可选，AutoEncoder 和其他深度学习模型所需）
suod（可选，运行 SUOD 模型所需）
xgboost（可选，XGBOD 必需）
pythresh（可选，阈值处理所需）可选

API 备忘单和参考

完整的 API 参考可在PyOD 文档中找到。以下是所有探测器的快速备忘单：

fit(X)：安装探测器。在无监督方法中参数 y 被忽略。
Decision_function(X)：使用拟合检测器预测 X 的原始异常分数。
预测（X）：使用拟合的检测器确定样本是否为异常值作为二进制标签。
Predict_proba(X)：使用拟合检测器估计样本为异常值的概率。
Predict_confidence(X)：基于每个样本评估模型的置信度（适用于predict和predict_proba）²。

拟合模型的关键属性：

Decision_scores_：训练数据的离群值。分数越高通常表明行为越异常。异常值通常具有较高的分数。
labels_：训练数据的二进制标签，其中 0 表示正常值，1 表示异常值/异常。

ADBench 基准测试和数据集

我们刚刚发布了 45 页、最全面的ADBench：异常检测基准 ³。完全开源的 ADBench在 57 个基准数据集上比较了 30 种异常检测算法。

ADBench的组织结构如下：

为了更简单的可视化，我们通过compare_all_models.py对选定的模型进行比较。

模型保存和加载

PyOD 在模型持久性方面采用了与 sklearn 类似的方法。有关说明，请参阅模型持久性。

简而言之，我们建议使用 joblib 或 pickle 来保存和加载 PyOD 模型。有关示例，请参阅“examples/save_load_model_example.py” 。简而言之，简单如下：

from joblib import dump, load
# save the model
dump(clf, 'clf.joblib')
# load the model
clf = load('clf.joblib')

众所周知，保存神经网络模型存在挑战。检查#328和#88以获取临时解决方法。

SUOD 快速列车

快速训练和预测：利用SUOD框架^4，可以在PyOD中使用大量检测模型进行训练和预测。请参阅SUOD 论文和SUOD 示例。

from pyod.models.suod import SUOD
# initialized a group of outlier detectors for acceleration
detector_list = [LOF(n_neighbors=15), LOF(n_neighbors=20),
LOF(n_neighbors=25), LOF(n_neighbors=35),
COPOD(), IForest(n_estimators=100),
IForest(n_estimators=200)]
# decide the number of parallel process, and the combination method
# then clf can be used as any outlier detection model
clf = SUOD(base_estimators=detector_list, n_jobs=2, combination='average',
verbose=False)

异常值阈值

设置污染水平时可以采用更多基于数据的方法。通过使用阈值方法，可以用用于分离异常值和异常值的经过测试的技术来代替猜测任意值。请参阅PyThresh以更深入地了解阈值。

from pyod.models.knn import KNN
from pyod.models.thresholds import FILTER
# Set the outlier detection and thresholding methods
clf = KNN(contamination=FILTER())

实现的算法

PyOD 工具包由四个主要功能组组成：

(i) 个体检测算法：

类型	缩写	算法	年	参考号
概率论	ECOD	使用经验累积分布函数进行无监督离群值检测	2022年	⁵
概率论	ABOD	基于角度的异常值检测	2008年	⁶
概率论	快速ABOD	使用近似法进行基于角度的快速异常值检测	2008年	⁷
概率论	慢性阻塞性肺病	COPOD：基于 Copula 的异常值检测	2020年	⁸
概率论	疯狂的	中值绝对偏差 (MAD)	1993年	⁹
概率论	求救	随机异常值选择	2012年	¹⁰
概率论	质量管理中心	准蒙特卡罗差异异常值检测	2001年	¹¹
概率论	凯德	使用核密度函数进行异常值检测	2007年	¹²
概率概率	采样高斯模型	通过采样概率混合建模进行异常值分析，进行基于距离的快速异常值检测	2013年	¹³ ¹⁴ [第2章]
线性模型	主成分分析	主成分分析（到特征向量超平面的加权投影距离之和）	2003年	¹⁵
线性模型	关键主成分分析法	核主成分分析	2007年	¹⁶
线性模型	MCD	最小协方差行列式（使用马氏距离作为离群值）	1999年	¹⁷ ¹⁸
线性模型	光盘	使用库克距离进行异常值检测	1977年	^{19 号}
线性模型	开放式空间向量机	一类支持向量机	2001年	²⁰
线性模型	低密度脂蛋白	基于偏差的异常值检测 (LMDD)	1996年	²¹
基于邻近度	洛夫	局部离群因素	2000年	²²
基于邻近度	COF	基于连接性的异常值因素	2002年	²³
基于邻近度	（增量）COF	基于内存高效连接的离群因素（速度较慢，但降低存储复杂性）	2002年	²⁴
基于邻近度	CBLOF	基于聚类的局部离群因子	2003年	²⁵
基于邻近度	基因定位	LOCI：使用局部相关积分进行快速异常值检测	2003年	²⁶
基于邻近度	HBOS	基于直方图的异常值分数	2012年	²⁷
基于邻近度	kNN	k 最近邻（使用到第 k 个最近邻的距离作为离群值）	2000年	²⁸
基于邻近度	平均KNN	平均 kNN（使用到 k 个最近邻的平均距离作为离群值）	2002年	²⁹
基于邻近度	医学KNN	中值 kNN（使用到 k 个最近邻的中值距离作为异常值得分）	2002年	³⁰
基于邻近度	草皮	子空间异常值检测	2009年	³¹
基于邻近度	杆	基于旋转的异常值检测	2020年	³²
离群值集合	爱森林	隔离森林	2008年	³³
离群值集合	伊内	使用最近邻集成的基于隔离的异常检测	2018年	³⁴
离群值集合	差值	用于异常检测的深度隔离森林	2023年	³⁵
离群值集合	FB	特征装袋	2005年	³⁶
离群值集合	LSCP	LSCP：并行异常值集合的局部选择性组合	2019年	³⁷
离群值集合	XGBOD	基于极端增强的异常值检测（监督）	2018年	³⁸
离群值集合	洛达	轻量级在线异常检测器	2016年	³⁹
异常值集成神经网络	SUOD自动编码器	SUOD：加速大规模无监督异构异常值检测（加速）全连接自动编码器（使用重建误差作为异常值得分）	2021年	⁴⁰ ⁴¹ [第3章]
神经网络	VAE	变分自动编码器（使用重建误差作为离群值）	2013年	⁴²
神经网络	β-VAE	变分自动编码器（所有通过改变伽玛和容量定制的损失项）	2018年	⁴³
神经网络	SO_GAAL	单目标生成对抗主动学习	2019年	⁴⁴
神经网络	MO_GAAL	多目标生成对抗主动学习	2019年	⁴⁵
神经网络	深SVDD	深度一类分类	2018年	⁴⁶
神经网络	阿诺甘	使用生成对抗网络进行异常检测	2017年	⁴⁷
神经网络	阿拉德	对抗性学习异常检测	2018年	⁴⁸
基于图的	R图	通过 R 图检测异常值	2017年	⁴⁹
基于图的	月球	LUNAR：通过图神经网络统一局部异常值检测方法	2022年	⁵⁰

(ii) 离群值集合和离群值检测器组合框架：

类型	缩写	算法	年	参考号
离群值集合	FB	特征装袋	2005年	⁵¹
离群值集合	LSCP	LSCP：并行异常值集合的局部选择性组合	2019年	⁵²
离群值集合	XGBOD	基于极端增强的异常值检测（监督）	2018年	⁵³
离群值集合	洛达	轻量级在线异常检测器	2016年	⁵⁴
离群值集合	苏奥德	SUOD：加速大规模无监督异构异常值检测（加速）	2021年	⁵⁵
离群值集合	伊内	使用最近邻集成的基于隔离的异常检测	2018年	⁵⁶
组合	平均的	通过平均分数进行简单组合	2015年	⁵⁷
组合	加权平均	通过对分数与检测器权重进行平均来进行简单组合	2015年	⁵⁸
组合	最大化	通过取最大分数进行简单组合	2015年	⁵⁹
组合	澳奥姆	最大值的平均值	2015年	⁶⁰
组合	MOA	平均值最大化	2015年	⁶¹
组合	中位数	通过取分数的中位数进行简单组合	2015年	⁶²
组合	多数票	通过获得标签的多数票进行简单组合（可以使用权重）	2015年	⁶³

(iii) 异常值检测分数阈值方法：

类型	缩写	算法	文档
基于内核的	AUCP	曲线下面积百分比	AUCP
基于统计矩	启动	自举	启动
基于正态性	周	肖文内准则	周
线性模型	CLF	训练有素的线性分类器	CLF
基于集群的	集群	基于聚类	集群
基于内核的	持续专业发展	变化点检测	持续专业发展
基于转型	分解	分解	分解
基于正态性	数据服务网络	与正常距离的偏移	数据服务网络
基于曲线	EB	椭圆边界	EB
基于内核的	烟气脱硫	固定梯度下降	烟气脱硫
基于过滤器	筛选	基于过滤	筛选
基于曲线	短波频率调制	最小全宽	短波频率调制
基于统计测试	全球可持续发展	广义极端学生化偏差	全球可持续发展
基于过滤器	希斯特	基于直方图	希斯特
基于分位数	IQR	四分位间区域	IQR
基于统计矩	卡奇	Karcher 均值（黎曼质量中心）	卡奇
基于统计矩	疯狂的	中值绝对偏差	疯狂的
基于统计测试	MCST	蒙特卡洛夏皮罗测试	MCST
基于集成的	梅塔	元模型训练分类器	梅塔
基于转型	摩尔	弗里德里希的舒缓剂	摩尔
基于统计测试	四甲基偶氮唑盐	改良 Thompson Tau 测试	四甲基偶氮唑盐
线性模型	开放式空间向量机	一类支持向量机	开放式空间向量机
基于分位数	质量管理中心	准蒙特卡罗差异	质量管理中心
线性模型	再生率	基于回归	再生率
神经网络	VAE	变分自动编码器	VAE
基于曲线	风	拓扑绕数	风
基于转型	YJ	杨约翰逊转变	YJ
基于正态性	零分数	Z 分数	零分数

(四) 实用功能：

类型	姓名	功能	文档
数据	生成数据	综合数据生成；正常数据由多元高斯生成，异常值由均匀分布生成	生成数据
数据	生成数据簇	集群中的综合数据生成；可以使用多个集群创建更复杂的数据模式	生成数据簇
统计数据	皮尔森	计算两个样本的加权皮尔逊相关性	皮尔森
公用事业	获取标签n	通过将 1 分配给前 n 个异常值分数，将原始异常值分数转换为二进制标签	获取标签n
公用事业	precision_n_scores 精度	计算精度@等级n	precision_n_scores 精度

异常值检测快速入门

PyOD 通过一些特色帖子和教程得到了机器学习社区的广泛认可。

Analytics Vidhya：使用 PyOD 库在 Python 中学习异常值检测的精彩教程

KDnuggets：离群值检测方法的直观可视化，PyOD 离群值检测方法概述

迈向数据科学：傻瓜式异常检测

计算机视觉新闻（2019 年 3 月）：用于异常值检测的 Python 开源工具箱

“examples/knn_example.py”演示了使用 kNN 检测器的基本 API。值得注意的是，所有其他算法的 API 都是一致/相似的。

运行示例的更详细说明可以在示例目录中找到。

初始化 kNN 检测器、拟合模型并进行预测。

from pyod.models.knn import KNN   # kNN detector
# train kNN detector
clf_name = 'KNN'
clf = KNN()
clf.fit(X_train)
# get the prediction label and outlier scores of the training data
y_train_pred = clf.labels_  # binary labels (0: inliers, 1: outliers)
y_train_scores = clf.decision_scores_  # raw outlier scores
# get the prediction on the test data
y_test_pred = clf.predict(X_test)  # outlier labels (0 or 1)
y_test_scores = clf.decision_function(X_test)  # outlier scores
# it is possible to get the prediction confidence as well
y_test_pred, y_test_pred_confidence = clf.predict(X_test, return_confidence=True)  # outlier labels (0 or 1) and confidence in the range of [0,1]

通过 ROC 和 Precision @ Rank n ( p@n )评估预测。

from pyod.utils.data import evaluate_print
# evaluate and print the results
print("\nOn Training Data:")
evaluate_print(clf_name, y_train, y_train_scores)
print("\nOn Test Data:")
evaluate_print(clf_name, y_test, y_test_scores)

查看示例输出和可视化。
```
On Training Data:
KNN ROC:1.0, precision @ rank n:1.0
On Test Data:
KNN ROC:0.9989, precision @ rank n:0.9
```
<clipboard-copy aria-label="Copy" class="ClipboardButton btn btn-invisible js-clipboard-copy m-2 p-0 tooltipped-no-delay d-flex flex-justify-center flex-items-center" data-copy-feedback="Copied!" data-tooltip-direction="w" value="On Training Data: KNN ROC:1.0, precision @ rank n:1.0

On Test Data: KNN ROC:0.9989, precision @ rank n:0.9" tabindex="0" role="button">
```
visualize(clf_name, X_train, y_train, X_test, y_test, y_train_pred,
    y_test_pred, show_figure=True, save_figure=False)
```

可视化（knn_figure）：

参考

赵Y.，胡X.，程成C.，王成C.，万成.，王文.，杨J.，白红.，李Z.，肖成.， Wang, Y.、Qiao, Z.、Sun, J. 和 Akoglu, L. (2021)。 SUOD：加速大规模无监督异构异常值检测。机器学习和系统会议（MLSys）。↩
Perini, L.、Vercruyssen, V.、Davis, J. 量化异常检测器在示例预测中的置信度。欧洲机器学习和数据库知识发现联合会议 (ECML-PKDD)，2020 年。↩
Han, S.、Hu, X.、Huang, H.、Jiang, M. 和 Zhu, Y.，2022。ADBench：异常检测基准。 arXiv 预印本 arXiv：2206.09426。↩
赵Y.，胡X.，程成C.，王成C.，万成.，王文.，杨J.，白红.，李Z.，肖成.， Wang, Y.、Qiao, Z.、Sun, J. 和 Akoglu, L. (2021)。 SUOD：加速大规模无监督异构异常值检测。机器学习和系统会议（MLSys）。↩
Li, Z.、Zhao, Y.、Hu, X.、Botta, N.、Ionescu, C. 和 Chen, HG ECOD：使用经验累积分布函数的无监督离群值检测。IEEE 知识与数据工程汇刊 (TKDE)，2022 年。↩
Kriegel, HP 和 Zimek, A.，2008 年 8 月。高维数据中基于角度的异常值检测。在KDD '08，第 444-452 页。 ACM。↩
Kriegel, HP 和 Zimek, A.，2008 年 8 月。高维数据中基于角度的异常值检测。在KDD '08，第 444-452 页。 ACM。↩
Li, Z.、Zhao, Y.、Botta, N.、Ionescu, C. 和 Hu, X. COPOD：基于 Copula 的异常值检测。IEEE 国际数据挖掘会议 (ICDM)，2020。↩
Iglewicz, B. 和 Hoaglin, DC，1993。如何检测和处理异常值（第 16 卷）。阿斯克出版社。↩
Janssens, JHM、Huszár, F.、Postma, EO 和 van den Herik, HJ, 2012。随机异常值选择。技术报告 TiCC TR 2012-001，蒂尔堡大学蒂尔堡认知与交流中心，荷兰蒂尔堡。↩
Fang, KT 和 Ma, CX, 2001。随机抽样、拉丁超立方体和均匀设计的环绕式 L2 差异。复杂性杂志，17(4)，第 608-624 页。↩
Latecki, LJ、Lazarevic, A. 和 Pokrajac, D.，2007 年 7 月。使用核密度函数进行离群值检测。在模式识别中的机器学习和数据挖掘国际研讨会（第 61-75 页）。施普林格、柏林、海德堡。↩
Sugiyama, M. 和 Borgwardt, K.，2013。通过采样进行基于距离的快速异常值检测。神经信息处理系统的进展，26。↩
Aggarwal, CC, 2015。异常值分析。数据挖掘（第 237-263 页）。施普林格、查姆. ↩
Shyu, ML, Chen, SC, Sarinnapakorn, K. 和 Chang, L., 2003。一种基于主成分分类器的新颖异常检测方案。佛罗里达州科勒尔盖布尔斯迈阿密大学电气与计算机工程系。↩
Hoffmann, H., 2007。用于新颖性检测的内核 PCA。模式识别，40(3)，第 863-874 页。↩
Hardin, J. 和 Rocke, DM，2004。使用最小协方差行列式估计器在多聚类设置中进行异常值检测。计算统计与数据分析，44(4)，第 625-638 页。↩
Rousseeuw, PJ 和 Driessen, KV，1999。最小协方差行列式估计器的快速算法。技术计量学，41(3)，第 212-223 页。↩
Cook, RD, 1977。线性回归中影响观察的检测。技术计量学，19(1)，第 15-18 页。↩
Scholkopf, B.、Platt, JC、Shawe-Taylor, J.、Smola, AJ 和 Williamson, RC，2001。估计高维分布的支持。神经计算，13(7)，第 1443-1471 页。↩
Arning, A.、Agrawal, R. 和 Raghavan, P.，1996 年 8 月。大型数据库中偏差检测的线性方法。在KDD（第 1141 卷，第 50 期，第 972-981 页）中。↩
Breunig, MM、Kriegel, HP、Ng, RT 和 Sander, J.，2000 年 5 月。 LOF：识别基于密度的局部异常值。ACM Sigmod 记录，29(2)，第 93-104 页。↩
Tang, J.、Chen, Z.、Fu, AWC 和 Cheung, DW，2002 年 5 月。增强低密度模式异常值检测的有效性。载于亚太知识发现和数据挖掘会议，第 535-548 页。施普林格、柏林、海德堡。↩
Tang, J.、Chen, Z.、Fu, AWC 和 Cheung, DW，2002 年 5 月。增强低密度模式异常值检测的有效性。载于亚太知识发现和数据挖掘会议，第 535-548 页。施普林格、柏林、海德堡。↩
He, Z.、Xu, X. 和 Deng, S.，2003。发现基于集群的局部异常值。模式识别字母，24(9-10)，第 1641-1650 页。↩
Papadimitriou, S.、Kitakawa, H.、Gibbons, PB 和 Faloutsos, C.，2003 年 3 月。 LOCI：使用局部相关积分进行快速异常值检测。 ICDE '03，第 315-326 页。 IEEE。↩
Goldstein, M. 和 Dengel, A.，2012。基于直方图的离群值评分 (hbos)：一种快速无监督异常检测算法。在KI-2012：海报和演示轨道，第 59-63 页。↩
Ramaswamy, S.、Rastogi, R. 和 Shim, K.，2000 年 5 月。从大型数据集中挖掘异常值的有效算法。ACM Sigmod 记录，29(2)，第 427-438 页。↩
Angiulli, F. 和 Pizzuti, C.，2002 年 8 月。高维空间中的快速异常值检测。欧洲数据挖掘和知识发现原理会议，第 15-27 页。↩
Angiulli, F. 和 Pizzuti, C.，2002 年 8 月。高维空间中的快速异常值检测。欧洲数据挖掘和知识发现原理会议，第 15-27 页。↩
Kriegel, HP、Kröger, P.、Schubert, E. 和 Zimek, A.，2009 年 4 月。高维数据轴平行子空间中的异常值检测。载于亚太知识发现和数据挖掘会议，第 831-838 页。施普林格、柏林、海德堡。↩
Almardeny, Y.、Boujnah, N. 和 Cleary, F.，2020。一种新颖的多元数据异常值检测方法。IEEE 知识与数据工程汇刊。↩
刘 FT、丁 KM 和周 ZH，2008 年 12 月。隔离森林。国际数据挖掘会议，第 413-422 页。 IEEE。↩
Bandaragoda, TR、Ting, KM、Albrecht, D.、Liu, FT、Zhu, Y. 和 Wells, JR，2018，使用最近邻集成的基于隔离的异常检测。计算智能，34(4)，第 968-998 页。↩
Xu, H., Pang, G., Wang, Y., Wang, Y., 2023。用于异常检测的深度隔离森林。IEEE 知识与数据工程汇刊。↩
Lazarevic, A. 和 Kumar, V.，2005 年 8 月。用于异常值检测的特征装袋。在KDD '05中。 2005. ↩
赵 Y.、纳斯鲁拉 Z.、Hryniewicki, MK 和李 Z.，2019 年 5 月。 LSCP：并行异常值集合中的局部选择性组合。2019 年 SIAM 国际数据挖掘会议 (SDM) 论文集，第 585-593 页。工业与应用数学学会。↩
赵，Y. 和 Hryniewicki，MK XGBOD：通过无监督表示学习改进有监督异常值检测。IEEE 国际神经网络联合会议，2018 。 ↩
Pevný, T., 2016。Loda：轻量级在线异常检测器。机器学习，102(2)，第 275-304 页。↩
赵Y.，胡X.，程成C.，王成C.，万成.，王文.，杨J.，白红.，李Z.，肖成.， Wang, Y.、Qiao, Z.、Sun, J. 和 Akoglu, L. (2021)。 SUOD：加速大规模无监督异构异常值检测。机器学习和系统会议（MLSys）。↩
Aggarwal, CC, 2015。异常值分析。数据挖掘（第 237-263 页）。施普林格、查姆. ↩
Kingma, DP 和 Welling, M.，2013。自动编码变分贝叶斯。 arXiv 预印本 arXiv：1312.6114。↩
伯吉斯，克里斯托弗·P.，等人。 “了解 beta-VAE 中的解缠结。” arXiv 预印本 arXiv:1804.03599 (2018)。↩
Liu, Y., Li, Z., Zhou, C., Jiang, Y., Sun, J., Wang, M. and He, X., 2019。用于无监督异常值检测的生成对抗主动学习。IEEE 知识与数据工程汇刊。↩
Liu, Y., Li, Z., Zhou, C., Jiang, Y., Sun, J., Wang, M. and He, X., 2019。用于无监督异常值检测的生成对抗主动学习。IEEE 知识与数据工程汇刊。↩
Ruff, L.、Vandereulen, R.、Goernitz, N.、Deecke, L.、Siddiqui, SA、Binder, A.、Müller, E. 和 Kloft, M.，2018 年 7 月。深度一类分类。国际机器学习会议（第 4393-4402 页）。 PMLR。↩
Schlegl, T.、Seeböck, P.、Waldstein, SM、Schmidt-Erfurth, U. 和 Langs, G.，2017 年 6 月。使用生成对抗网络进行无监督异常检测，以指导标记发现。医学影像信息处理国际会议（第 146-157 页）。施普林格、查姆. ↩
Zenati, H.、Romain, M.、Foo, CS、Lecouat, B. 和 Chandrasekhar, V.，2018 年 11 月。对抗性学习异常检测。 2018 年 IEEE 国际数据挖掘会议 (ICDM)（第 727-736 页）。 IEEE。↩
You, C.、Robinson, DP 和 Vidal, R.，2017。子空间并集中基于可证明的自我表示的异常值检测。 IEEE 计算机视觉和模式识别会议论文集。↩
Goodge, A.、Hooi, B.、Ng, SK 和 Ng, WS，2022 年 6 月。 Lunar：通过图神经网络统一局部异常值检测方法。 AAAI 人工智能会议论文集。↩
Lazarevic, A. 和 Kumar, V.，2005 年 8 月。用于异常值检测的特征装袋。在KDD '05中。 2005. ↩
赵 Y.、纳斯鲁拉 Z.、Hryniewicki, MK 和李 Z.，2019 年 5 月。 LSCP：并行异常值集合中的局部选择性组合。2019 年 SIAM 国际数据挖掘会议 (SDM) 论文集，第 585-593 页。工业与应用数学学会。↩
赵，Y. 和 Hryniewicki，MK XGBOD：通过无监督表示学习改进有监督异常值检测。IEEE 国际神经网络联合会议，2018 。 ↩
Pevný, T., 2016。Loda：轻量级在线异常检测器。机器学习，102(2)，第 275-304 页。↩
赵Y.，胡X.，程成C.，王成C.，万成.，王文.，杨J.，白红.，李Z.，肖成.， Wang, Y.、Qiao, Z.、Sun, J. 和 Akoglu, L. (2021)。 SUOD：加速大规模无监督异构异常值检测。机器学习和系统会议（MLSys）。↩
Bandaragoda, TR、Ting, KM、Albrecht, D.、Liu, FT、Zhu, Y. 和 Wells, JR，2018，使用最近邻集成的基于隔离的异常检测。计算智能，34(4)，第 968-998 页。↩
Aggarwal, CC 和 Sathe, S.，2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯，17(1)，第 24-47 页。↩
Aggarwal, CC 和 Sathe, S.，2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯，17(1)，第 24-47 页。↩
Aggarwal, CC 和 Sathe, S.，2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯，17(1)，第 24-47 页。↩
Aggarwal, CC 和 Sathe, S.，2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯，17(1)，第 24-47 页。↩
Aggarwal, CC 和 Sathe, S.，2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯，17(1)，第 24-47 页。↩
Aggarwal, CC 和 Sathe, S.，2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯，17(1)，第 24-47 页。↩
Aggarwal, CC 和 Sathe, S.，2015。离群值集合的理论基础和算法。ACM SIGKDD 探索通讯，17(1)，第 24-47 页。↩

Name		Name	Last commit message	Last commit date
Latest commit History 1,735 Commits
.github/workflows		.github/workflows
docs		docs
examples		examples
notebooks		notebooks
pyod		pyod
.gitattributes		.gitattributes
.gitignore		.gitignore
.readthedocs.yaml		.readthedocs.yaml
CHANGES.txt		CHANGES.txt
LICENSE		LICENSE
MANIFEST.in		MANIFEST.in
PULL_REQUEST_TEMPLATE.md		PULL_REQUEST_TEMPLATE.md
README.md		README.md
TODO.txt		TODO.txt
Threshold.rst		Threshold.rst
environment.yml		environment.yml
pypi_build_commands.txt		pypi_build_commands.txt
requirements.txt		requirements.txt
setup.cfg		setup.cfg
setup.py		setup.py
temp_text.txt		temp_text.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Python 异常值检测 (PyOD)

先读我的内容

关于PyOD

安装

API 备忘单和参考

ADBench 基准测试和数据集

模型保存和加载

SUOD 快速列车

异常值阈值

实现的算法

异常值检测快速入门

参考

About

Uh oh!

Releases

Packages

Languages

License

yuanzhongqiao/pyod

Folders and files

Latest commit

History

Repository files navigation

Python 异常值检测 (PyOD)

先读我的内容

关于PyOD

安装

API 备忘单和参考

ADBench 基准测试和数据集

模型保存和加载

SUOD 快速列车

异常值阈值

实现的算法

异常值检测快速入门

参考

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages