程序员人生 网站导航

机器学习实战――Logistic回归

栏目:综合技术时间:2015-05-21 07:56:33

回归概述(个人理解的总结)

回归是数学中的1种摹拟离散数据点的数学模型的方法,拟合1个连续的函数从而可以对未知的离散数据点进行分类或预测。这类方法有1个统1的情势,给定n维特点的数据集合,对任意1个数据点Xi={x(1)ix(2)i...,x(n)i}的每一个维度都有1个回归系数wi与之对应,全部模型就存在1个系数向量w={w1,w2...wn}。如果是系数向量w与特点Xi的线性组合,那末就是1个n空间下的超平面,如果对应分类问题,那末这个超平面就是分类器的决策平面(分类超平面)。由于线性组合存在常数项,1般为了情势统1,将常数项b通过1个x0=1加进系数向量成为w0
Lotistic回归是经典分类方法,与感知机算法、SVM算法等都是上述的对每一个维度的特点进行线性组合,找出决策平面,从而也都是辨别式方法。这些方法在训练数据下分别使用不同的决策函数,然后归结为最优化问题,1般使用迭代方法进行,经常使用的有梯度降落法、牛顿法、拟牛顿法等。

Logistic回归模型

Sigmoid函数

在之前的博客中感知机方法使用的是符号函数f(x)=sign(x),Logistic回归方法使用的是阶跃函数,函数输出的是的两个不同种别的几率值{0,1},中断的阶跃函数使用最多的就是Heaviside Step函数,但是不连续的特性对最优化求解中的求导数不方便。因此使用的是连续的具有阶跃函数类似性质Sigmoid函数:

Sigmoid(z)=11+e?z

该函数定义域为全实数域,任意次连续可微,以点0,0.5为对称点。当任意1个输入z很大时函数值趋于1,反之趋于0,在z=0时为0.5代表对输入值在两个种别的可能性相当,这些性质是的它非常合适作为分类决策函数。因此,1般当输出值大于或等于0.5时就分类到正类,否则就分到负类。

2分类Logistic模型

分类模型由条件几率P(Y|X)表示,其中Y{0,1}代表两个种别,对给定输入X=x

P(Y=1|X=x)=11+e?wx

P(Y=0|X=x)=1?11+e?wx=11+ewx

其中w={w0,w1.....wn},w0代表常数项,x={x0,x1...xn},x0=1。对给定的输入,可以分别求得上述两个几率值,通过比较上述哪一个几率值更大,就将输入分到相应种别。也就是Logistic回归模型将特点的线性组合转换为两个种别的几率,线性组合的值越接近于正无穷,几率值越接近1;线性组合的值越接近负无穷,几率值越接近0。
另外,1个事件产生的几率与不产生的几率比值称为概率(odds ratio),取对数以后称为log-odds-ratio,而Logistic回归模型对正类(事件产生)几率和负类(事件不产生)几率的比值以下:
logP(Y=1|X)P(Y=0|X)
------分隔线----------------------------
------分隔线----------------------------

最新技术推荐