建立knn分类模型后使用sklearn库中的cross_val_score方法进行交叉验证并对模型性能评估

发布于 2024-06-04 14:12:43

要使用K近邻（KNN）分类模型并进行交叉验证，你可以使用 sklearn 库中的 KNeighborsClassifier 类以及 cross_val_score 函数。以下是如何进行此操作的示例代码：

from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score

# 假设你已经有了处理过的文本数据特征X_train和标签y_train

# 创建KNN分类器实例，这里设置n_neighbors=5作为示例
knn_clf = KNeighborsClassifier(n_neighbors=5)

# 使用cross_val_score进行交叉验证
# cv=5表示5折交叉验证，scoring='accuracy'表示评分标准为准确率
scores = cross_val_score(knn_clf, X_train, y_train, cv=5, scoring='accuracy')

# 输出交叉验证结果的平均值和标准差
print(f"KNN CV average score: {scores.mean():.3f} (+/- {scores.std() * 2:.3f})")

这段代码创建了一个KNN分类器，并设置了默认的邻居数为5。然后，它使用 cross_val_score 对模型进行5折交叉验证，并以准确率作为评价标准。最后，打印出交叉验证的平均得分和两倍标准误差。

在将此代码插入到之前总结的总代码中时，你可以将其放在感知机分类模型之后，如下所示：

# ...
# 导入必要的库和数据预处理步骤
# 数据划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 感知机分类模型
# ...（之前的感知机代码）

# K近邻分类模型
print("训练K近邻分类器...")
knn_clf = KNeighborsClassifier(n_neighbors=5)
scores = cross_val_score(knn_clf, X_train, y_train, cv=5, scoring='accuracy')
print(f"KNN CV平均得分: {scores.mean():.3f} (+/- {scores.std() * 2:.3f})")

# 朴素贝叶斯分类模型
# ...（之后的代码）

# 决策树分类模型
# ...（之后的代码）

# 逻辑回归分类模型
# ...（之后的代码）

请确保在运行此代码之前，你已经完成了数据导入、预处理、特征提取等步骤，并成功划分了训练集和测试集。此外，根据你的数据集特性，你可能需要调整 n_neighbors 参数或其他KNN模型参数以获得最佳性能。