基于NLP的恶意网页识别
作者:mmseoamin日期:2024-01-21
基于NLP的恶意网页识别
- 基于NLP的恶意网页识别
- 引言
- 项目目录回顾
- 优化HTML标签提取结果
- 使用预训练模型Fine-tune
- 数据处理和模型训练
- 模型训练与评估
- 模型导出
- 部署与预测
- 总结
基于NLP的恶意网页识别
引言
欢迎阅读《 基于NLP的恶意网页识别》,在前三篇中,我们已经使用PaddleNLP进行了恶意网页的分类,包括使用文本分类模型和预训练模型Fine-tune。本篇文章将着重优化模型,处理HTML标签提取结果不理想的情况,并最终将训练好的模型部署成可用的Python应用程序。
项目目录回顾
在前三篇文章中,我们已经完成了以下内容:
- 使用PaddleNLP的文本分类模型进行简单的正常网页与被黑网页的二分类。
- 使用PaddleNLP的预训练模型Fine-tune,提高HTML网页内容处理结果的判断准确率。
- 进行正常网页与恶意网页的二分类,提取HTML标签信息判断网页是否正常。
本篇文章将以第四篇为基础,继续优化HTML标签提取结果,训练并评估模型,并最终将模型部署成可用的Python应用程序。
优化HTML标签提取结果
在之前的训练中,我们发现有些样本的HTML标签提取结果不够理想,主要集中在