谈话实录：网安三人行——威胁检测与响应（TDR）

新闻

3年前

　　2021年8月28日下午，「把酒话网安」系列活动之“网安三人行——威胁检测与响应（TDR）”直播活动在“网安小酒馆”成功举办。

　　兰云科技联合创始人及CTO周宏斌做客直播间，与长城汽车安全专家刘涛、情报分析师马壮，主办方数世咨询创始人李少鹏，分别以技术供给侧、技术需求侧，围绕“TDR的大猫小猫是什么？”，“T、D、R哪个环节发挥的作用更大？”，“TDR 值多少钱？”，“TDR 的最短板在哪里？”，“如果你是攻击者，TDR如何突破？”五个话题展开深度探讨。

　　以下文字是对话重点内容，分享给关注TDR的同行和用户，期待共同交流、进步。

Summary

　　一、我们过去态势感知没有落地，或者说效果不理想，现在聚焦于解决实际问题，因此TDR是一个必然的产物。

　　二、TDR的核心能力：全流量检测与分析、资产梳理、日志分析、还有专家服务等等。

　　三、甲乙双方各自的短板，各自的痛处：乙方的痛点除了标准化的东西，如何给甲方提供规模化的服务是它的难点；前期建设、基础建设等等关键的问题是甲方的痛点，就是乙方的机会。

部分对话实录

数世咨询：

　　威胁检测这个词，我们可以把它理解为，是以全流量分析或者是以NDR技术为基本支撑，聚焦于检测和响应能力的态势感知。我们知道态势感知之前一直没有很好的落地这个概念，其实这个词被炒坏了，举一个极端的例子，有一个做漏扫的，他说我是做态势态势感知的，有一个做摄像头安全的，他也说是做态势感知的。实际上态势感知它是一个安全运营的闭环，T、D、R这几个环节都要有，正因为它需要大数据平台对接各种日志，分析，溯源，取证，响应等等，这些过程就会造成态势感知非常难落地，那么有的用户花了几百万、上千万去购买了一个态势感知，结果也没用起来，也就遭到业界诟病，其实主要是它的概念太大，我们很难把一切东西都统一起来。我们会发现在大型演练活动，在HW当中，出现一种很好的东西叫做全流量分析，还有密罐，它聚焦与检测的响应，马上就能起作用，马上就能得分，甲方乙方也好，攻击方和防守方也好，都能取得很好效果的，这个技术我们把它集合成一个名词，就是TDR威胁检测与响应。

话题1 TDR的大猫小猫是什么？

兰云科技：

　　真正最核心的，我个人理解，是专家服务，就是说它对疑难杂症的处理能力，这才是它的核心。其实那也是可以流程化、规范化、自动化的，就目前来看，专家资源是最稀缺的，就像人生病一样，在一个偏远地区也可能得非常复杂的病，当地的医生是看不了的，怎么样把北京的专家给他赋能过去？如果有这样一个机制的话，那才是效果最大化的，因为病人是真正遇到了真正的问题，这个时候只有一个办法，远程专家服务，要有这样的体系，还得有诊断病的平台，否则有专家没有平台也没用，要有平台，而且这个平台是能高效去调度的。另外，专家上来以后，你在本地要有能够全量的信息能够获取出来，给专家提供支撑，因为专家也不能凭空做出诊断，必须要能够给到他足够的信息，让他做出正确的判断，因此说，我认为大猫是专家服务，小猫是全流量。

　　而AI的话，关系可以反过来用，我们先去监测它，发现可疑点（出现的异常），这个可疑点不像传统的方式，因为不是基于攻击去检测，而是基于可疑点，发现的时候不依赖于攻击者是不是利用0day进来或绕过了我的防护防线，我即使看不到攻击，也没关系，只要我发现有异常，有可疑点，就可以了。就像人的身体，比如说有一些异常指标出现了，至少可能是有问题的，然后我再去找专家去看，这样会更合适一点。AI的价值就是说发现这种可疑点，发现这些可疑线索，但真正要去做处置的时候不能基于AI的检测结果去做处置，它只是给了一些线索。可以基于这些线索，需要后面再补上一个环节，就是人跟它去交互，就是专家的介入，这样结合起来是一个大的环节，然后后面去做响应。

　　关于响应，我个人的观点是可以简单一点，我们前面检测和分析完后，相当于医生给病人看病一样，确诊后直接把药方给你，然后你直接去药房拿药，按期吃药就可以了。最后的动作，不论是网络阻断，还是隔离或者说把账号禁掉，类似这样的方式，其实可以轻松处理。

　　这是一个整体的响应过程，无论自动化部分是五个动作也好，两个动作也好，或者一个动作也好，其实这些都是确定的，而中间的专家介入处理这部分是存在最大不确定性的，网络安全这些年最难的，其实就在这中间那个不确定性的东西。因为不确定的东西，如果说我们希望它去做它的自动化，那一定会带来非常大的风险。企业的各种场景比较复杂，没有可以通过单纯方式就能搞定的事情，我不觉得它可以自动化去响应，“破案”这个过程是非常复杂的，类似朝阳大妈报案这种情况，是绝对不可以直接自动化去处置的。自动化处置最核心的点，就是在如何把这个playbook写好，但是由于现实环境太复杂，各种情况太复杂，所以不可能标准化，我觉得这是要深入思考的。

长城汽车：

　　关于专家服务我不太认同您的那个点，我觉得把“服务”俩字儿给去了比较好，怎么理解呢？这个理解的话，“专家”就代表他是甲方的人，“专家服务”就代表是乙方的人。我们更希望有安全专家在我们自己的团队里边儿，而且不希望是那种比较高端的。说的稍微可能有点片面了，我们其实更希望去储备自己的能力，关键是专家服务有一个问题点，就是你们是针对一个事件（而不是整个业务流程）。就比如说我们碰见什么事儿处理不了了，这时候才去找专家服务，对吧？然后呢，你们对甲方情况都不知道，只是在我们这边儿留存了一些数据，是业务什么都不太清楚，比如说勒索软件，你们只是解决勒索软件这个事儿就ok了，你们做不了特别全的一些东西，所以我觉得TDR的话我们在迫不得已的话可能会用这个专家服务，但是我们更多的可能是希望用专家去做这个事儿。

　　我认为大猫的话是日志分析——首先得有数据。例如对系统日志，包括业务服务做一些应用层的攻击检测，然后后边再转到响应，我们还可以做一些针对注入或者越权的数据库日志分析，我们拿到了日志以后这些东西都可以去做，当然这块儿前提条件就是我们的基础建设比较完备，所有的日志节点我们想要的他们都能留存，而且分段给我们做好，其实这日志分析后边儿衍生出来能做好多东西，应用，服务，系统都可以去做了，但是网络那边儿还是去靠流量做的，所以说小猫的话，我们看好全流量检测与分析，相当于把网络策略也弄过来，而且这两个产品也可以做一些用户的行为建模，出现问题的话都可以及时告警，由专家去介入。

　　这里要稍微注意一下，其实要网络镜像是一个非常困难的一个事情，因为网络基础架构肯定是在信息化最初建好的，但是安全介入可能在五年、十年之后，这个时候一是设备比较老化，你如果跟他要一份镜像的话，对他来说，风险是很高的，因为它本身这个消耗性能是非常大的。

　　（少鹏：那就做旁路镜像。）

　　对，他设备可能还有一种方案，比如说用一些分光设备，但是大家都知道这个设备是非常昂贵，所以我觉得可能日志恰恰比这个要容易一些，要转移的更容易。

　　最最关键的一点问题就是说的专家要去确认这个事情，我要确定这个性质的时候，我的信息是不全的，就说我要完成这个事件分析，就得像公安一样。我的证据链要构建全，这个过程是不能缺失的，那无论是流量也好日志也好，一定要支撑100%流量，不能说90%~95%。

　　（少鹏：对，可能这个是真的是一个特别理想的状态，往往企业发展做到这个状态太少了，这个配合度有多高，我一直就有疑问，你知道流量有多大吗？即使有工具来分析，怎么从全流量中分析出问题呢？）

　　（兰云科技：我觉得这是一个策略的问题，就像我刚才提到的，比如说我们去取并不是说所有的，如果要存的话也是按需存，而且是有时效的，比如说存一天或者存一周，因为你看正常我们1Gbps的实时流量，如果说所有的都存在1G的流量，实时流量一天就是10个T，那确实是无法支撑的。所以说我们这里取的是元数据，元数据基本上在实时流量的5%以内，这个是可承受的范围，然后当我确实发现有可疑的点以后，针对那个目标再去找那个流量，当你你基本上可以判定它确实有问题的情况下，再让设备自动存指定目标的全部流量，也可以由专家来记录，也可以结合起来。）

话题二：T、D、R哪个环节发挥的作用更大？

长城汽车：

　　我认为不管前面做任何检测也好，威胁情报也好，我们最终的目的是要消除威胁，消除威胁肯定是在最后一个环节的动作，在消除威胁的过程中，我可能也会发现前面的一些不足，包括我的规则写的好不好，误报高不高，然后反过来反哺，比如说第二个环节，检测环节，然后把规则优化掉。就是说不管我们做什么工作，最后的闭环才是最重要，假如说前面你检测结果没人去看，没有运营人员去跟，就是你立了案了，最后你不抓人也不行，医生你最后开了处方，他不做手术，不打针、不吃药也不行，就是最后这些话题做的不好的话，前面肯定也会出问题，比如案子会越来越多，你可能到一个时间点，这整个就会要崩了，要崩了，所以我认为是最后一个环节，是最重要发挥也是作用最大的一个环节。

兰云科技：

　　我觉得应该是“D（检测）”是比较重要的。因为安全有一句话就是我无法保护看不到的东西，所以说我必须得所有东西都要能看得到。比如你发现了一个漏洞，其实发现有点儿像检测这个动作，就是我挖掘了一个漏洞，然后给研发报过去。我一定看清楚问题，我检测出来问题我得我得知道它是啥情况，这也非常重要。

　　（少鹏：专家服务呢？不重要吗？）

兰云科技：

　　因为专家的成本是极其昂贵的，但是专家又不是每时每刻它的价值都能够发充分发挥出来的，就举个例子来说吧，一个顶尖专家可以七八百万甚至近千万年薪的一个待遇，那个专家是很厉害，对不对？但是比如说我们把他挖过来，他能时时刻刻发挥作用吗？其实不是的，他这种专家其实应该大家共享，真正的顶尖者应该大家共享，要让最高能力者解决真正最难的问题。

　　（长城汽车：另一方面，那个专家可能擅长解决某个技术点，但是他可能解决不了所有根本问题，大部分场景下，我甲方的专家，要对自己的业务十分了解。举个例子，比如说误报这个概念，要是你们乙方可能就不知道怎么回事儿，但我们自己的事件分析师一看就知道这是误报，因为误报就是安全专家去提规则的时候一定是基于我的安全场景来提的。）

　　安全专家是基于攻击的样本，而且是能收集到的样本来做判断的，不可能把所有的客户场景都能去试一遍。可能它检测有效的，但再你的场景下，规则和业务系统的某些行为冲突，冲突的情况下，是应该质疑这个误报，直接把这个规则删了，或者说是怎样的一种机制，能让这个误报以后在我这个场景下产生告警了，因为我已经确定了它是冲突而已。

　　应该建这样一个机制，误报消除机制，但不是说去删规则，因为规则安全人员他提出来一定是有道理，一定有很多场景它是有效的。类似误报这种场景，如果能处理好，其实很多问题就解决了了，慢慢的经过一段时间以后，安全专家和业务专家结合起来以后，慢慢就进入理想状态，处理需要的时间可能不用一天，只要几次短时间就行了，那我就可以喝茶了。真正出现的威胁，其实没那么多。一年几次，一二十次，那我就可以喝着茶然后再处理就行了，悠哉悠哉。

话题3 TDR 值多少钱？用户愿意花多少钱买？厂商想卖多少钱？

长城汽车：

　　用户愿意花多少钱买，然后呢这个具体多少钱我也没法儿说，然后我只能跟你说一个就是百分比。工信部三年网络安全发展规划中明确，安全投入要提升到10%，上海已经提到10%。我之前也在金融公司，基本上金融公司的话整个投入应该在6%左右，还算是一个比较高的一个点，然后在长城的话只能说我们现在投入还是比较大的。

兰云科技：

　　安全公司肯定要挣钱，但是我觉得最关键的一点就是，从我的角度来说，我们还是要卖工具，就真正赋能给甲方。然后刚才说到卖能力这一块，其实实践中我们把它做了拆分，分为一线，二线、三线，真正的三线事务，最高端的专家服务，是我们来承担最后端你们处理不了的问题，但是一线、二线能力其实就是你们自己的，就是说技术运维人员，还有你们自己的专家。一线、二线可以通过我们去培训等方式培养，建立起来这个能力以后，我们工具再帮助提升你们效率，因为你们自己去开发这些东西是不划算的，我们可以降低这些成本，其实工具也好，情报也好，这是我们应该去做的，包括最上面那一层我们来做其实就可以了。至于说卖整体解决方案，我们肯定是想，但是我觉得最关键的是能否解决问题，结合你这个场景解决问题，中间我们不管说卖一个工具好，两个工具也好，三个工具也好，结合你们的场景，能发挥价值，这个也跟多少钱没关系了，反正尽量赚的越多越好（笑）

　　（碰杯喝酒）

话题4 TDR 的最短板在哪里？

兰云科技：

　　我要提供能力，需要你们能够给予我的工具开展工作，进而为你们的人赋能。这就是说我的产品也许现在不能100%解决问题，但是其实我就是奔着100%这个目标去的，70%~80%可以达到的，剩下的20%~30%就说真得结合场景的，只有几个行业一聊或不同的客户一聊以后，那可能会有共同的部分需要定制化，但定制化更多的是由我们自己主导的。

　　（少鹏：我有一个点，就是如果我要想象有一个短板，不知道您那边儿有没有什么体会，就是在讲在和供应侧对接这点，比如说TDR里边有的产品，其实有很多厂商很多产品留有接口来对接，把整个链条跑通，然后你们存不存在着个别的厂商不去给你们提供，肯定会有。你觉得这个算不算你的一个短板？）

　　这是厂商的一个痛点，但是现在我觉得厂商跟以前不一样，十年前的厂商这些接口不开放的，比如说以前的防火墙，因为大厂肯定是想所有东西我都自己做完了。我一开放了，那你也可以抢一杯羹了，对不对？但现在不一样了，像NGFW中这些标准接口其实都提供了，因为像我们现在很多客户，响应那一块的防火墙也好，网管也好，或者是其他的平台也好，我们就跟他对接，他其实会愿意开放这些接口的。

　　还有一个短板就是“跟IT部门打交道”。我们CSO们的地位低呀，上面是IT，再上面是业务，我们地位低，这就回到刚才说的，为什么说我们要去接流量，因为你插装到应用中去，比如说你要记什么日志，还要去应用部门协调，对不对？包括要采用哪些关键行为都要去登记，因为要看业务系统那些关键行为是不是必要的，大量无效的东西都记得话，你也损失性能嘛，对吧？

　　业务系统肯定会有性能损失，所以说为什么我们要基于流量直接去分析。是想在流量里直接去解析，解析出来以后那个字段我都有了，然后我在平台里面我就有了，这样的话你分析起来就方便。所以你看我们做的思路，对我们厂商而言，我需要理解你每一个业务系统，这是我做不到的。当然我可以给一个插装的标准模式，比如说我这个插装给到你，然后你们交给业务说，你这到什么环节你觉得需要调的时候你调这几个函数，然后那几个字段给过去，但这个东西需要应用部门配合才行，如果他做不到，咱就没有办法了。当然如果他能给，就是最有效的，因为给了以后不管什么样的攻击，0day漏洞也好或者其他的攻击，攻进来以后，造成业务的异常以后，第一时间就能发现了。

　　为什么说我们想要把分析过程变成一个标准化流程？比如说误报过多，就是过度依赖安全分析人员的经验，这个就是我们着力去发力的点，把经验标准化化，固化下来形成标准流程。举个例子，针对勒索软件这一类的，专家分析过一遍以后，他是不是在传播？它会造成什么影响？我会定几个环节，标准化的流程，定完以后，分析人员只要按照这个流程去做就可以了，中间还有很多交互过程，但这个交互就比较简单，比如说你点点选选就行了，我希望在一个平台或者一个机子上能够完成大部分的工作，尤其是对于威胁事件产生以后，情况是比较紧急的。

长城汽车：

　　没错。对于“R响应”来说，事件处置的过程需要去联通各个部门，这时候必须得有一个标准的一个手册出来，这个手册需要说清楚哪个部门做什么工作，大家全都认同了，在那个很急的时间点他可以去配合你，而不能说去拖着你。在TDR里边儿处置的关键是在这个点，一旦出什么事儿，所有人都去积极去响应这个事情，这个还可以延伸出去。比如说就像有如果说就一个钓鱼邮件进来吧，我们检测到了，我们的标准流程是我给这个接收者我要发份邮件告诉他这是一个钓鱼邮件，当然也可以阻断，但是这个过程中从安全的角度，安全企业可以给出来在哪个环节应该做什么样的处理，比如说防火墙，做诊断，或者说业务系统应该进入什么账号，能做什么事情，不能做什么事情，需要做什么事情。

话题5 如果你是攻击者，TDR如何突破？

　　该部分谈话实录略，总结四点：

　　第一，社会工程学。

　　第二，就是比如说结合内鬼或者间谍的方式

　　第三，声东击西

　　第四，钓鱼邮件