data中大部分是normal,有少量的anomaly。但都是unlabelled,不哪个是anomaly。
为什么跳过Case 2?因为实际场景都case 3,即使你认为是data都是clear的,但也有可能其实是polluted,只是你不知道而已。

1. 方法一:概率统计

  1. 定义概率密度函数fθ(x)f_\theta(x)
    这个函数由参数θ\theta决定f(x)的形状。
    θ\theta可以是一个值或一个向量,是向量代表有多个参数。
    θ\theta未知,要根据x求出θ\theta,从而决定了f(x)的形状。
    fθ(x)f_\theta(x)通常使用多维高斯分布
  2. 定义对数似然函数
    L(θ)=log[fθ(x1)fθ(x2)fθ(xN)] L(\theta) = \log \left[ f_\theta(x^1)f_\theta(x^2)\cdots f_\theta(x^N) \right]

  3. 求得到最大对数似然的θ\theta
    θ=argmaxθL(θ) \theta^* = \arg\max_\theta L(\theta)

2. 方法二:auto-encoder

auto-encoder

把x转成code再还原成x^\hat x
x与x^\hat x越接近,说明x越正常

3. 其它方法

one-class SVM, isolated forest

results matching ""

    No results matching ""