智能体驱动的漏洞挖掘实践

前言：

本文聚焦于将资深安全专家的实操经验与领域先验知识，转化为AI可理解、可学习、可泛化的特征逻辑，构建一套可复制、可持续迭代的AI智能漏洞挖掘技术体系，推动安全分析范式的关键演变，使AI不仅“懂代码”，更能像专家一样“懂如何挖洞”。

AI驱动的漏洞挖掘新范式

近两年，业界对“AI能否挖掘漏洞”经历了从质疑、观望到探索，再到逐步落地实践的完整过程。随着以Anthropic Claude、OpenAI GPT 系列、Google Gemini为代表的前沿大模型在大模型推理、长上下文窗口、代码理解与工具调用能力等方面的飞速迭代，传统漏洞挖掘行业正在经历颠覆性变革，智能化漏洞挖掘已从早期简单的“依靠大模型阅读片段代码、辅助提示”的浅层探索，演进为全流程自动化漏洞挖掘体系的技术探索与闭环验证。

简单来说，在安全专家专业经验和知识体系的赋能与引导下，AI漏洞挖掘智能体能够复刻专业审计思路与逻辑，自主完成攻击面梳理、关键数据流追踪、候选漏洞初步验证，并输出标准化审计报告。漏洞挖掘已经从“大模型当助手”，迈入到“智能体负责主力执行、专家负责经验引领与决策把控”的新阶段。

漏洞挖掘领域并无“一招制胜”的通用方法。静态分析能扫出语法层面的瑕疵，但抓不住跨组件的逻辑漏洞；模糊测试擅长路径覆盖，但无法理解深层语义；协议建模能梳理攻击面，但规则编写门槛高、周期（883436）长。资深漏洞专家在审计代码时，往往凭直觉就能闻到“危险”的味道，凭经验就能够迅速识别出高风险代码段和潜在的逻辑漏洞；但这种“嗅觉”，往往与个体高度绑定，难以通过传统自动化工（850102）具复刻。

如今，通过Skills 技能单元化思路，可以将专家的分析思维链路、漏洞研判方法，沉淀为智能体可编排、可调度、可复用的能力组件，实现经验的结构化迁移。

从无序盲审到编排协同作战

常见误区认为，AI漏洞挖掘只是靠精妙的提示词跑跑大模型。然而实际落地表明，直接使用大模型进行代码审计，普遍存在着覆盖度不足、模型幻觉突出、分析逻辑碎片化、误报居高不下等痛点，无法满足工业级安全检测的需求。

基于此，启明星辰（002439）ADLab依托长期的实战积累和专业技术能力，构建了一套可复制、可持续迭代进化的AI智能漏洞挖掘的技术体系。该体系核心思路是为大模型嵌入一套资深安全专家的标准化工（850102）作流框架，让审计流程从无序走向有序：从“AI无序盲审”进化到“多智能体编排协同作战”。

具体而言，将漏洞挖掘全流程拆解为若干职责清晰、任务独立的智能体角色，按环节拆分复杂工作；通过工作流统一编排，完成任务拆解、链路联动、动态提示词生成、工具自主调用及策略自适应调整。每个智能体设定明确的输入输出规范与质量验收标准，依托文件系统实现任务状态流转与数据同步。

一套成熟的AI漏洞挖掘流水线，需要能够复刻安全专家的完整工作思路，覆盖攻击面识别、漏洞初筛、可利用性研判、漏洞动态验证、报告生成等关键环节。运行流程可拆解为三大核心阶段：全局侦察收集、双线审计分析、攻击路径验证，各阶段环环相扣。

1、全局侦察收集：让AI看清“整张地图”

代码审计最易陷入“只见树木，不见森林”的困境。跨组件调用、微服务交互极易形成分析盲区，导致大量隐性漏洞被忽略。事实上，挖洞的第一步从来不是看代码，而是看清楚目标长什么样，摸清目标的整体架构。一个程序可能有数千个二进制函数、上百条HTTP路由、十几个权限层级，如果让模型直接扎进函数里看细节，无异于盲人摸象。

要让AI真正看清程序的整张地图，核心在于依托大模型超强的长上下文承载与代码语义理解能力，将整套程序工程完整载入模型上下文窗口，打破单文件、单模块的分析局限，消除跨文件、跨模块、跨组件的分析壁垒，从底层赋予 AI全局认知能力。

在此基础上，梳理系统核心架构、解析组件与服务的交互逻辑、界定数据流转边界、识别入口函数和高危函数，最终构建出全局视角的系统架构知识图谱。

该图谱即为后续深度分析的“地图”，也作为初始安全风险基线，能够告诉后续的智能体：危险地带在哪里、数据从何而来、又会流向何处。

2、双线审计分析：在海量路径里识别隐藏的漏洞路径

一个完整的程序往往存在成千上万条可行的执行路径，但绝大多数都是无风险的正常业务流，真正隐藏漏洞的高危路径占比极低。如何在海量路径中高效筛选、精准定位漏洞触发链路，是漏洞挖掘的核心难题。让AI像人一样做“取舍”，在有限的计算预算内，将分析重点集中在高价值路径上，摒弃无效分析，更是一个值得探索的技术问题。其本质上是一种博弈——它要权衡：哪条路径上的输入是可控的？哪个Sink点（危险函数）是真的危险？哪些约束条件是攻击者可以构造绕过的？

在这个阶段，智能体扮演的角色，相当于一名路径规划师：首先精准识别Source点与Sink点；然后基于两类节点，对程序执行路径开展智能检索与筛选，并逐条评估各条路径的风险等级。

Source点：通常是程序中的外部输入点，主要包括用户输入、网络请求、文件读取、环境变量等数据来源。

Sink点：通常是执行敏感操作的位置，包含系统命令执行、数据库读写、敏感文件操作等。

在路径检索上，采用正向数据源追踪+反向风险点溯源相结合的双线审计分析：

正向分析过程：以Source输入点为分析起点，完整追踪数据在程序内部的传输、处理、流转全流程，精准定位数据最终落地的各类Sink风险点，实现从风险入口到风险落点的全链路分析。

反向分析过程：以Sink点为分析锚点，逆向追溯参数的来源及其控制路径，校验数据在流转过程中，是否存在被外部输入篡改、内部逻辑处理失效等安全问题。

仅依靠正向或反向的单线审计链路，存在检测盲区，无法覆盖全部安全检测场景。结合双线审计机制，既能从源头全面梳理数据流转链路，又能从敏感操作环节逆向排查安全风险。通过双重维度的互补校验，有效提升高危漏洞路径的识别效率与精准度。

3、攻击路径验证：从漏洞发现到可行性确认

代码审计阶段结束后，得到的是一批潜在漏洞，哪些真实存在、哪些只是误报，光靠静态分析很难给出定论；对于漏洞的核验，往往需要耗费大量的人力和时间成本。最直接有效的方式是引入动态环境校验——由智能体在受控隔离沙箱中，自动开展漏洞路径实测验证，对每一条漏洞路径执行真实的PoC验证，以实际运行结果判定漏洞真伪。

第一步：测试环境自动化部署。自动解析项目结构、识别开发语言与程序类型，还原漏洞触发条件，生成适配的环境搭建方案；然后根据方案自动执行部署，直至目标服务正常运行。

第二步：验证脚本智能生成。按不同漏洞类型，匹配对应的验证逻辑与判定规则，自动构造PoC脚本并在沙箱内运行；通过标记注入、文件状态检测、网络流量捕获、运行日志分析等方式，采集实时响应结果。

第三步：审计报告智能生成。经动态环境实测校验后，输出可直接交付厂商修复的正式报告，包含完整污点传播路径、调用链、漏洞复现条件、影响范围及可落地修复建议。

针对部分无法搭建动态运行环境的固件或闭源程序，可采用大模型双向交叉验证。

红队视角——站在攻击者角度，研判漏洞是否可外部利用、前置依赖条件、能否稳定复现。

蓝队视角——站在防御与研发角度，评估漏洞影响范围、相关组件以及修复方案。

这种基于多角色协同、全流程编排的技术范式，可通用适配源码审计、二进制固件审计主流场景，底层核心逻辑统一，仅需轻量化适配工具链即可快速复用，具备极强的通用性与工程实用价值。

IoT场景下的智能化漏洞挖掘实践

全球联网IoT设备存量达数百亿级别，行业安全痼疾突出：设备普遍缺乏常态化固件升级通道、供应链管控薄弱、硬件架构高度异构，导致全网攻击面持续扩张，安全风险逐年加剧。同时，IoT固件多以闭源形式交付，二进制程序是其主要的分发载体，相较于常规的源码审计，这直接拉高了逆向分析门槛，也让漏洞挖掘的技术复杂度大大提升。

IoT固件代码体量适中、攻击面极其复杂、历史漏洞密度高、现实业务影响显著，具备天然的标杆测评属性，是检验 AI 智能漏挖能力的理想场景。简言之，IoT场景足够脏、乱、真，如果智能漏洞挖掘体系在此场景下表现不错，才真正具备落地实战的可能性。

为实测智能漏洞挖掘技术体系的工业级适配能力，选取IoT设备固件作为核心测试场景，基于真实设备与原生固件，全面评估智能漏洞挖掘体系的漏洞检测能力和审计效率。

1、面向IoT固件的智能化漏洞挖掘体系

依托多智能体编排框架，成功搭建了面向IoT固件的智能化漏洞挖掘体系，实现了从固件解析到漏洞研判的全流程自动化漏洞挖掘。

多智能体协同的漏洞挖掘体系

整体架构以三类职责边界清晰的智能体为核心，各司其职、协同作业：

Recon Agent——负责侦察，反编译、提函数、识别接口指纹、还原架构语义。

Analysis Agent——负责分析，正向污点追踪、反向溯源分析。

Verification Agent——负责验证，红蓝双视角研判、可利用性确认、影响范围评估。

架构上层部署Pipeline 工作流编排器，统一负责任务拆解流转、全流程状态管控与最终研判决策；底层对接一套MCP 工具链，集成反编译引擎、实时数据查询等核心能力。

2、漏洞挖掘实践

通过选取市面上主流厂商的路由器、监控摄像头、录像机、NAS存储设备等多款设备的原生固件作为测试样本，开展了全流程自动化漏洞挖掘实测，成功挖掘出系统命令注入、栈溢出、堆溢出、目录遍历、内存越界访问、信息泄露等经典漏洞类型，覆盖了IoT固件最核心、最易被利用的安全风险点。

针对某NAS存储设备的实战审计：部分高危漏洞列表

审计任务完成后，能够自动生成结构化的漏洞报告，清晰呈现污点传播路径、攻击调用链路、漏洞复现步骤及专业修复建议。从用户输入到Source函数到Sink点，再到最终【RCE / 任意命令执行】——这套报告，几乎可以直接拿去交厂商。

单个漏洞的结构化详细分析（含污点路径与调用链）

实践表明，在现有AI大模型能力支撑与安全专家知识经验的深度赋能下，智能化漏洞挖掘效果已实现显著提升，在漏洞覆盖范围、挖掘效率及审计结果质量等核心维度均表现不错。

多设备类型：覆盖多数嵌入式固件场景，如摄像头、录像机、路由器、光猫、NAS等。

全漏洞类型：命令注入、缓冲区溢出、目录遍历、越界访问、信息泄露、拒绝服务等主流漏洞类型，均可准确检出。

高挖掘效率：从"上传固件"到"导出报告"，全流程平均耗时 2-5小时；在同等覆盖率下，传统人工审计通常需要 1-2周。

低误报率：通过人工复核确认，系统审计出的漏洞中，73%为真实漏洞，误报率相对传统审计工具大幅降低。

经过人工复核，我们发现审计结果存在漏判：部分漏洞未被识别检出，主要包含高度耦合的业务逻辑漏洞和复杂条件竞争漏洞。究其原因，是选用的大模型在推理与二进制分析方面的能力有限，导致智能体在这些漏洞类型上出现漏判。后续随着大模型的持续演化，这方面的检测能力有望得到提升，从而减少漏判。

整体而言，通过工程化编排静态分析、模式匹配与动态验证等能力，可对海量代码开展智能化扫描与初步审计工作，能够显著提升固件基础漏洞的挖掘效率，有效缩减审计周期（883436）、节约人力成本。但需要指出的是，AI 技术仍存在固有局限：

在面向业务逻辑漏洞、权限绕过等需要"语义级理解"的场景时，仍存在能力短板，深度推理仍有局限。

全量深度分析对算力及大模型上下文资源消耗偏高，落地应用时需在审计覆盖广度与算力成本之间做合理取舍。

误报与漏报问题依然存在，尤其是在调用链错综复杂、代码上下文跨度较大、业务逻辑高度耦合的场景中，检测准确性会有所下降，结果审计仍需专家评判，而漏洞评级、披露策略、修复优先级等关键决策环节也依然需要依赖人工。

人机协同新格局与安全生态演进

AI可大幅降低安全人员的重复劳作成本，让研究员从基础繁琐的工作中解脱，聚焦更高价值的安全研究——发现新型漏洞模式、研判系统性风险、推动行业级安全方法论演进。因此，AI带来的不是替代，而是价值上限的提升。

在深度创新层面，人类研究员仍具备无可替代的核心价值：

一是从零到一发现全新漏洞模式。AI擅长匹配已知，对于无历史特征可参考的新型侧信道漏洞、独创权限绕过逻辑、协议时序竞争条件等，无法依赖模型匹配，只能依靠研究员攻防思维推演、假设验证与经验洞察完成原创挖掘。

二是设计跨语义层的新型攻击链路。 AI在已知漏洞类型的利用链自动化构造上已具备一定能力，但真实场景的高危攻击链路，往往需要跨越多层技术抽象、融合复杂业务语义才能成型，在现阶段，这仍然是AI的核心短板。

三是全局研判系统性安全风险。专业安全研判不局限于单点代码漏洞，而是立足系统架构、业务场景与威胁模型，全局梳理攻击暴露面与连锁风险；主动构建威胁模型、深度拆解业务语义、做体系化风险研判，仍是人类资深研究员的核心能力。

对整个安全生态而言，更值得期待的几个方向是：

设备厂商在产品出厂前能够进行一轮智能审计，把绝大多数低级漏洞拦截在出厂前。

安全社区可以将更多精力投入到真正的未知威胁研究中。

攻防双方的能力都会被放大，但放大的红利，最终应该让守方获益更多。

本文仅为在智能化漏洞挖掘方向的初步探索。未来，启明星辰（002439）将持续演进技术框架、沉淀专家经验，不断完善智能漏洞挖掘体系，拓展更多实战应用场景。

问财摘要