金睛云华带您探索大模型是否适合网络安全行业？

新闻

1年前

一、万金油是否存在？

对于大语言模型，一方面带给我们很多惊喜，在很多问题上得到了“非常惊艳”的效果；而另一方面，大模型拥有接近“地球百科”级别的知识，在解决很多问题时体现了很强的“无监督”特性，从而给大家带来了很高的预期。但对于具体行业以及行业内的业务场景，大模型在尝试解决这些具体的业务问题时表现的却又并不如我们预想的那么优秀。

需要强调的是，没有任何技术是万能的，需要因地制宜针对性的为不同问题提供合适的解决方案。对于大模型，可以当做一个具备基础能力且不断自我演进的工具，并且业务越聚焦实现和演进成本越低，结合行业内其他工具，能够极大提高从业人员的工作效率，极大降低成本。最关键的是，大模型能够实现知识积累和迭代，彻底解决了“知识随着人才流动而消失的痛点”。

图1. 安全厂商能够提供的四类AI能力

二、网络安全行业现实需求？

以网络安全行业为例，检测和响应是核心，安全厂商能够提供四大类能力，包括渗透测试、威胁检测、安全运营以及保密区域的知识获取。具体描述如下：

1、渗透测试

渗透测试时网络安全领域中用来识别和评估安全漏洞的方法，通常由经验丰富的渗透测试分析师使用渗透测试工具进行定期大规模覆盖扫描，然后根据扫描结果提供更为详细和具有解决建议的报告。传统的渗透测试往往时间消耗较大、强依赖分析师经验，不适合大型网络和多应用覆盖场景；

2、威胁检测

特征检测技术是传统网络安全的检测基础，被广泛用于防火墙、IDS、NDR、EDR等威胁检测类设备中。安全研究员基于已知的攻击载核提取特征签名，并在多个客户据点进行验证和迭代，最后发布到知识库中。该技术依赖人工分析攻击载核，缺少足够的白样本验证，故存在开发和维护成本高、误报高的缺点；

3、安全运营

SOC需要基于AI的重建。传统SIEM围绕人类分析师构建(93%的soc处理需要人工流程)大量信息存在孤岛管理问题，且依赖人的处理;同时，安全工程师和架构师深陷于集成单点产品和数据源，以此进行检测和响应。最终导致传统SIEM以警报、日志为核心保障安全运营，但收效甚微。而AI是实现实时攻击检测和修复的唯一选择，因此要实现自动化处理,代SOC必须以AI视角重建；

4、知识获取

对于网络安全管理严格的用户或涉密业务场景，知识获取流程非常繁琐，需要独立的连接互联网的机房，对于依赖互联网的知识获取需求，往往需要外网访问行为备案、进入机房、数据检索、数据光盘刻录、进入办公区、数据导入等不断循环的过程，效率极低。

三、大语言模型优势和劣势

1、优势

(1) 不需要再进行针对性预训练和精调，就能获取海量开放域知识支撑；
(2) 大部分具体的行业简单问题的无监督性，简单的分类、提取等，只要足够明确，大模型能做到比较高的下限；
(3) 良好的指令执行能力，即在输入中提供指令，常用指令在模型层面能够识别和体现，并且借助Langchain技术能够执行指令并获取上下文信息；
(4) 通用良好的生成能力，语言回复基本能通顺，满足各类语言（自然语言和程序语言）的语法要求；
(5) 技术演进速度很快，目前看还没有遇到难以解决的问题。

2、劣势

(1) 幻觉问题：即模型生成的文本不遵循原文（Faithfulness）或者不符合事实（Factualness）。引发大模型幻觉的原因主要来自数据层面和模型层面。对于数据层面，众包/爬虫获取的数据可能包含虚假的信息导致模型记忆力错误的知识。此外，过多的重复信息也可能导致模型的知识记忆出现偏见；对于模型层面，模型结构、解码算法、暴漏偏差和参数等都可能导致幻觉。不过，随着大模型的技术演进，幻觉问题已经持续下降，变得可控；
(2) 领域内回复不稳定：行业知识的缺失导致特定领域内的回复不稳定，需要针对行业需求利用行业业务数据对模型进行持续预训练和精调；
(3) 任务型多轮对话：即根据上下文内容，进行连续的、以达到解决某一类特定任务为目的的对话。当前，对于任务型多轮对话策略的定制存在一定困难，需要同时满足多轮、连续性和封闭性三个要素；

(4) 性能、耗时、成本问题：对于大模型在企业落地的成本主要包括前期训练成本和后期与业务结合的推理成本。从目前实践评估，网络安全领域大模型的前期训练成本大概在5000万左右。在推理过程中，需要额外的比CPU成本更高的推理计算卡，而且单台设备的大模型生成性能是以秒为单位，性能偏低。

四、网络安全行业大模型选型

对于网络安全厂商提供的四大能力，即渗透测试、威胁检测、安全运营以及保密区域的知识获取，是否适合使用大模型，可以从以下几个角度进行评估：

1、一票否决条件

(1) 时延：需求对任务的响应时延要求很低，例如毫秒级；

(2) 资源：私有化部署预算缺乏，难以购买GPU服务器；SaaS/MaaS服务，数据安全要求高。

2、任务的复杂性

一般而言，越复杂的任务，越充裕的资源，应该是各自用更加专业的方案/专家来做各自的上限才会比较高。而大模型能提供的，是一个基础的、快速的、zero shot或者few shot的基线方案，他的通用性和海量知识的支撑让他对简单的东西能快速反应并且做对，但是复杂的、行业细分业务，到达边缘瓶颈的问题，需要二次预训练和精调，并且需要Langchain等技术的支持，存在一定的投入成本和风险；

3、基础工作辅助

除了大模型本身的投入，包括基模型预训练、二次预训练、精调和强化等，围绕大模型产品化还需要大量基础工作，这些工作是支撑大模型解决行业业务问题的关键，例如检索增强模块、推理加速模块、训练和推理硬件选型、多级多卡能力、模型推理部署、与任务匹配的Prompts等等。

从以上3个角度进行评估，渗透测试、安全运营以及保密区域的知识获取比较适合使用大模型进行辅助解决。对于威胁检测，特别是对实时检测性能要求较高的领域，参数较小的大模型、小模型、特征签名和情报更适合。

五、安全运营案例

为了更清晰表达选型时需要考虑的问题以及角度，从不能用到万金油之间找寻大模型提高网络安全行业效率之路。对于网络安全运营领域，其最终目标是实现自动化智能安全运营，即AISecOps。进而解决安全运营领域的三大痛点问题，告警疲劳、人才缺口和繁琐的工具。对此，需要考虑以下几点：

(1) 是否存在大量重复性的、行为模式相对固定、知识密集型但对创新要求较低的业务场景？

通识能力是大模型的优势，而涌现的创新能力是大模型的短板。对于安全运营的分析过程，从事件解读、资产分析、数据包分析、文件分析、攻击意图判定、处置建议等，对通识能力的需求远超过涌现能力，大模型做的更好；

(2) 是否存在泛化能力的需求？

泛化能力是大模型的优势，例如定时任务就无需使用大模型，脚本类规则做的更好；

(3) 边界是否能比较简单、相对明确地陈述？

大模型的分类能力依赖指令和few-shot样本，对于“可意会不可言传”的场景，语言其实很难描述场景边界，大模型也难以适应这类场景；

(4) 模型训练初期，数据不足时，结合使用few-shot和上下文学习（in-context learning）也可以取得不错的效果。

随着数据量的增加，结合大模型召回合适的样本再结合上下文学习（in-context learning），效果会更好。

在安全运营大模型安心「CyberGPT」实践过程中，对于简单任务大模型确实能够得到更高的下限。不过，随着后续的调优，甚至参数压缩，未来可以预见能够分离出参数更低的小模型适应简单任务的需求。对于复杂任务，大模型需要理解复杂指令，并且需要与Langchain等技术配合，将复杂指令分解为相对简单的步骤，进而实现业务过程。

对于安全运营类产品，其目标是实现自动化智能运营。安心「CyberGPT」大模型结合安全知识库首先可以形成CyberCopilot 助手类产品，提供中级安全分析师的能力，减轻告警疲劳和人才缺口。安心「CyberGPT」大模型也能和XDR、SOC、态势感知等结合，形成自动化日志事件的外理能力大幅提升运营效率。此外，安心「CyberGPT」大模型能够减少组织的安全工具和控制手段，并且能够学习安全工具的使用文档并自动化使用安全工具，分析安全工具的返回结果并给出相应的措施方案。

未来，下一代安全运营产品（SIEM/SOC/态势感知/…）需要基于大模型重建。传统的安全运营产品围绕人类分析师构建（接近90%以上处理需要人工流程），大量信息存在孤岛管理问题，且依赖人的处理。同时，安全工程师和架构师深陷于集成单点产品和数据源，以此进行检测和响应。最终导致传统安全运营产品以警报、日志为核心保障安全，但收效甚微。而大模型是实现攻击检测、自动化运营和响应的唯一选择，因此要实现自动化处理，下一代安全运营产品必定以大模型的视角重建。

。