【情报】机器人在情报分析中的应用

释放双眼,带上耳机,听听看~!

 

2015 年 12 月,美国中情局的《情报研究》 杂志刊登了Puong Fei Yeh 的一篇文章《 The Case for Using Robots in Intelligence Analysis》,从若干个实例出发,介绍了自动分析技术 ( 特别是自然语言生成技术) 在情报分析领域的应用情况,并对未来自动分析技术发展面临的机遇和挑战进行了展望。

 

作者 Puong Fei Yeh毕业于卫斯理大学和耶鲁大学,从2007年至今是美国国防情报局的分析师。

原文PDF下载地址: 

https://www.cia.gov/search?q=Yeh+Puong+Fei%29&site=CIA&output=xml_no_dtd&client=CIA&myAction=%2Fsearch&proxystylesheet=CIA&submitMethod=get

从音乐到汽车,自动化的趋势在不断加速情报分析工作能否也随之自动化。

2015 年 3 月,电商巨头亚马逊获准开展无人机物流递送服务。同年,特斯拉也宣布将推出自动驾驶技术。微软创始人比尔·盖茨曾表示,软件的替补作用最终将波及各种职业,人的工作逐渐会被机器替补。

 

那么,情报分析师的工作能否自动化呢?

事实上自动分析无处不在,自动分析在当今已有广泛应用。例如,信用卡常会因异地异常消费而被暂时冻结,以防止盗刷行为。要做到这一点,信用卡公司必须能定位并分析购买行为,并得出 “消费行为异常”的结论。

 

华尔街的自动股票交易建立在对新闻实时分析的基础上。2013 年 4 月 23 日,股票市场在两分钟内下跌了 100 点,随后才恢复,起因是黑客攻破了美联社的推特账户之后,发布了一条假消息称白宫遭到了攻击。这一事件也反映出公司企业通过分析实时新闻掌控市场动向的能力。

 

Dataminr 公司是社交媒体实时分析服务市场中的佼佼者,他们向金融机构提供服务,每天分析数亿条推文,并以此揭示市场的动向。

 

“开源指标”“开源指标”( Open Source Indicators,OSI) 是情报高新研究计划局 ( IARPA) 赞助的项目,旨在发展连续的、自动化的方法,通过对开源数据的分析来预测或监测社会重大事件,例如政治危机、人道主义危机、大规模的暴力、骚乱、大规模迁移、疾病爆发、经济不稳定、资源短缺及自然灾害等。2014 年初,OSI 宣称他们在拉丁美洲成功预测到疾病的爆发,比官方报告早两个星期。

 

机器记者的崛起

2014 年 5 月 17 日,《洛杉矶时报》发表了一则150字的地震余震报道。让人感兴趣的不是文章的内容,而是它生成的方法。文章的信息来自于美国地质勘探局 ( USGS) ,而撰写则是由肯恩·施文克 ( K. Schwencke) 设计的算法完成的,虽然报纸在文末写上了施文克的名字,但是文章的实际作者是他设计的程序———地震机器人。

 

从公司业绩报告到体育新闻,自然语言生成技术逐渐显露锋芒。雅虎就曾与 AutomatedInsights 公司合作,在雅虎的一款足球游戏中实现了球队状态信息的自动生成和推送。

 

2014 年,美联社与Automated Insights 公司合作,实现了公司业绩报告的自动生成。同年 3 月份,美联社宣布将自动化技术运用到大学体育报道中。自动化技术使美联社每季度新闻报道的产出提高了近10倍。

 

2013年,情报界的风投公司In-Q-Tel 与芝加哥 Narrative Sciences 公司建立战略合作伙伴关系,同时签署的还有自动分析软件 Quill的技术开发协议。Narrative Sciences 公司随后开始尝试体育新闻的自动化生成。之前该公司曾为不同机构提供大量自动生成的业绩概览、共同基金的报告和投资研究报告等产品,这些产品充分展现了Quill的强大力量。

 

自动化新闻在大数据时代出现不会是一个巧合,2012年的一项研究表明,“数字世界”( Digital Universe) 中23%的信息是有用的,但是现在仅有3%的数字数据被标记过,而仅有不到 1% 的数据被分析过。

 

计算技术和信息存储技术的发展意味着实时产生的大量数据可以被越来越充分地利用起来。但随着数据量的增加,分析活动对分析人员和机器提出的要求也越来越高。诸如 Automated Insights 和 Narrative Sciences 这样的公司之所以能在大数据时代崭露头角,一个重要的原因就是它们的技术具有可扩展性,它们能够分析海量的、结构复杂的数据并把这些数据用通俗易懂的英语表达出来。

 

情报界中机构各异,但它们的分析和写作总是遵循某些特定的准则和风格。许多分析师在撰写报告时会使用模板,这些模板帮助他们围绕议题形成结构化情报产品。

 

无论分析师面临着什么样的议题,只要他们关注与人有关的政治和社会问题,那书面叙述就仍然是他们向客户传递观点的最主要方法。

 

情报产品通常表现为不同的形式,例如数张幻灯片或数页书面报告。研究话题可能多种多样,但底层的叙述方式是一样的。故事模板和数据在情报界中随处可得,它们是自然语言生成的必要元素。

 

目前,借助充足的数据,自然语言生成的技术有了显著的进步。数据可以进行横向和纵向的对比,因此非常适于自然语言的自动生成,这也是该技术常被用于生成体育新闻和金融报告的原因。

 

自动化分析面临的机遇和挑战在情报领域,支撑分析评估的数据表现为不同的形式。它们既可能是定性的,又可能是定量的。

 

以定量数据 ( 如测量数据) 为中心的故事最适合用自然语言生成。例如有了测量和实验数据,就可以将当前数据和历史数据进行比较,从而构造出一个有意义的故事。嵌入在自然语言生成技术中的典型功能包括回归分析、时间序列模型以及其他统计分析方法。

 

但若想将分析见解转化成流畅的叙述,计算机还必须了解情报产品的结构和风格。计算机必须能在有限的字数内传达有意义的消息,例如“导弹发射准备工作正在进行中,将涉及洲际弹道导弹”。

 

同样,计算机必须避免使用过于专业的术语。随着自动化的发展,同样的数据可以产生不同的叙述方式,以适应不同的情报用户的需求。更具挑战性的是基于定性信息进行自然语言生成,虽然某些定性数据更具有操作性,例如通过社交网络进行情绪分析往往比通过不同来源的报告片段来分析敌人的计划和意图更容易。

 

2012 年,联合国赞助的一项研究就曾通过分析推特信息成功预测了印度尼西亚的一轮食品价格上涨,这一预测结果比正式消息早了数周时间。

 

对于自然语言生成技术来说,对政府的计划和意图进行评估则是一项更大的挑战,因为构成政府行为的底层数据通常是不可测的。

 

另一个重要的问题是: 人类和机器,谁更适合处理定性信息。在一些特殊的情况下,仅有处理能力是远远不够的,自然语言生成工作仍需要人类的协助。

 

分析资源的再平衡众所周知,情报工作面临着数据量和数据生成速度的双重压力。一方面,数据需要及时分析; 而另一方面,情报工作者几乎要对全球的各个领域进行持续监控。

 

美国的决策者希望情报部门能及时对所有可能影响美国国家安全和利益的事件进行公告。这导致少数国家 ( 中国、伊朗、朝鲜、俄罗斯) 和主题( 恐怖主义和大规模杀伤性武器) 吸引了大部分情报收集和分析资源。

 

技术能够帮助情报界重新认识资源失衡的问题,进而对资源进行优化配置。

 

假如导弹试验这一类的情报可以自动化生成,那么人工干预的需求将会大大减少,从分析到传播、使用的速度也会大大提升,情报产品生产的中间环节也会减少。另一个潜在的好处是,情报提供者可以更轻松地为不同情报用户提供风格各异的产品。

 

今天,情报工作者更注重少数特定用户在情报内容和风格上的需求。不同用户的需求分散了情报分析师和管理者的时间精力,而优先级的存在导致一些用户的需求被满足,而另一些需求被忽视。

 

今后,自动生成的情报产品能够在一定程度上弥补这一不足。

 

今天,情报工作面临着需求不断提升而预算逐步收紧的双重压力,形势愈发严峻。一种观点是让机器人帮助人类进行情报分析,将情报工作人员从繁重的机械劳动中解放出来,将精力更多地投入到更重要、更具创造性的工作中去,从而让人们更好地面对当下和未来的威胁。

 

编译自: Yeh P F. The case for using robots inintelligence analysis [J].Studies in Intelligence

 

本文源自微信公众号:丁爸 情报分析师的工具箱

人已赞赏
安全工具

【转载】如何应对黑产批量开立银行II、III类户

2019-10-15 16:09:09

安全工具

【转载】白益民:日本商社——人人都是情报官 及时、共享、专业、规模是日本商社情报系统特有几个特点

2019-10-15 16:09:17

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索