朴素贝叶斯(Naive Bayes)是基于贝叶斯定理与特征条件独立假设的分类方法。它非常适用于大量维度的数据集,尤其在文本分类问题中表现良好。朴素贝叶斯简单、有效,并且易于实现。
贝叶斯定理描述了条件概率,即给定事件B发生时,事件A发生的概率:
[ P(A|B) = \frac{P(B|A) \times P(A)}{P(B)} ]
其中:
在朴素贝叶斯分类器中,( A ) 通常是类别变量,( B ) 是要分类的数据实例。假设特征条件独立,我们可以将联合概率写成每个特征的概率乘积。因此,对于一个有n个特征的数据点 ( x = (x_1, x_2, ..., x_n) ),类别为 ( c ) 的概率可以表示为:
[ P(c|x) = \frac{P(x|c) \times P(c)}{P(x)} ]
由于在分类时分母 ( P(x) ) 对所有类别都是相同的,因此通常会忽略它,只关注分子部分。如果让 ( c ) 遍历所有可能的类,那么最终数据点 ( x ) 的分类就是使得后验概率 ( P(c|x) ) 最大的类 ( c )。
根据特征条件独立假设,( P(x|c) ) 可以分解为特征单独出现的概率的乘积:
[ P(x|c) = \prod_{i=1}^n P(x_i|c) ]
将这个关系代入到后验概率的计算中,我们得到了朴素贝叶斯分类器的决策规则:
[ P(c|x) \propto P(c) \prod_{i=1}^n P(x_i|c) ]
为了得到 ( P(x_i|c) ) 和 ( P(c) ),通常需要通过从训练数据中统计频率和相对频率来估计。对于连续值特征,可以假设它们符合某种分布(例如正态分布),然后根据样本的均值和方差估计参数。
在实际应用中,朴素贝叶斯还需要考虑数值稳定性和适应性,比如使用拉普拉斯平滑(Laplace smoothing)来处理零概率问题。