【论文】开源搜索引擎在网络公共信息搜集上的研究应用

释放双眼,带上耳机,听听看~!

【实战技巧】如何确定某个手机号码是否关联抖音、快手用户?

在如今全民娱乐的年代,抖音和快手的用户数量都很庞大,很多人都开通了抖音、快手,并经常发布一些视频。 在实战中,情报分析师往往可以利用相关视频中反应出的一些信息,发现有价值的线索,从而指导案件侦破、人员抓捕和证据收集等工作。 那么,如果我们仅有

开源搜索引擎在网络公共信息搜集上的研究应用

【摘要】

随着互联网的发展,网络成为传播信息的主要平台,互联网资源已成为公安公开情报资料的主要来源之一,网络信息的膨胀给公安机关对信息的搜集、管理和分析带来了新的挑战,如何及时和有效的利用互联网信息成为公安机关面临的难题,本文利用已有的开源搜索引擎系统提出了一种适合在基层应用的公共信息搜集方法和模式,为有需要的公安机关提供一种新思路。

【关键词】搜索引擎;公安情报;互联网信息;爬虫

中图分类号:TP393

文献标识码:A

文献编号:1009—6833(2014)01-085-03

 

引言

美国前总统杜鲁门曾说:“美国有95%的秘密情报,都在报纸和其他刊物上发表过”。美国中央情报局80%的情报来源于公开材料,由此可见公共情报信息的重要性。公共情报信息主要类型有:报刊、图书、地图、声像资料、互联网资料、照片、实物等。而互联网又是其中更新最快,内容最丰富的信息载体。

对于公安机关,互联网的有效信息源主要包括:普通web站点,网络社区,BBS论坛,博客网站,网络聊天室和新闻讨论组等互动媒体;MSN,QQ,E-mail等即时通讯工具;网络数据库等。如何对这些互联网情报信息进行有效的搜集成为公安情报工作的重点。

1、互联网公共情报搜集的方式

现有的进行互联网公共情报搜集的方式主要有下几种:

1.1通过人工浏览及对固定网站监控

对于一些BBS论坛,博客网站及聊天室信息,属于通用搜索引擎(谷歌,百度,雅虎等)不容易搜索到的网络信息,这样的互联网信息通过人工浏览的方式进行搜集和整理。对于基层的派出所和信息化程度不高的公安机关通过专人对所在辖区的论坛版块和聊天室视频信息等进行查阅和收集整理。

1.2通过通用搜索引擎进行搜集和整理

对于专题情报和固定的网络信息搜集采用通用搜索引擎进行搜集和整理,如网络群体性事件预防,为积极预防群体性事件的发生,公安机关针对网络上可能引发群体性事件的社会矛盾舆情动态以及可能参与群体性事件的重点人群常登陆网站做好情报信息的系统收集工作。通过搜索引擎对固定词汇和事件进行搜索,对群体性事件的发展做出应有的判断。

1.3通过定制搜索引擎对网络信息进行下载分析分类

公安机关情报部门根据自身的需要,自己定制开发搜索引擎,通过它可以快速获取大量感兴趣的网页资料,从而及时发现网络上存在的符合公安情报收集需求和信息。再通过信息过滤技术从“信息过载”的动态信息流中抽取中符合公安机关个性化需求的信息,使用web挖掘技术分析出信息数据所呈现的规律,及时发现敏感的虚拟网络团体,分析其目的、行为、特征、趋势等。

搜索引擎是现有的对互联网信息搜索的最有效的方式,但是随着网络信息的增长,通用的搜索引擎(谷歌,百度,雅虎等)用于公开情报信息的搜集的缺陷日益凸显,传统的安排专人使用通用搜索引擎对网络信息进行搜集的方式不但消耗人力,而且出现信息不全面,准确度不高,实时性差的问题。而公安舆情信息汇集的基本要求是快、准、全。即搜集对公安机关及其相关舆情信息要及时,早发现、早收集,注重时效性;反映和搜集的问题要准,真实可靠,汇集信息全面。所以采用定制搜索引擎对网络信息进行搜集成为现代网络公共信息搜集的大趋势。

 

2、开源搜索引擎的原理及现状

开源搜索引擎是一个软件系统,传统网络用户所使用的搜索引擎(百度,谷歌等)只是整个搜索引擎软件系统面向用户的一个应用,搜索引擎应该包括爬虫系统、网页抽取及文本分类系统、索引分类及数据处理系统、数据存储系统、面向管理员和用户的交互系统。各个系统之间的关系如图1所示。

开源搜索引擎为源代码开放的搜索引擎,编程爱好者们根据搜索引擎的工作原理开发的适合不同搜索需求的引擎系统,特点是:免费使用;可以修改定制源码以定制自己所需要的功能:开发快捷,方便;开源搜索引擎的原理和通用搜索引擎是相同的,但是通用搜索引擎存在着功能限制和实时性差,搜索信息不准确的问题,这些都可以通过对开源搜索引擎的定制解决。

 

现有主流的开源搜索引擎主要有:基于JAVA语言的Nutch,Lucence,MG4J,Heritrix,基于PHP语言的Sphider,PhpDig,OpenWebSpider等。其中Nutch,Heritrix和Sphider为编程人员比较常用的开源搜索引擎,可以查阅的资料和文档相对丰富,以上这些搜索引擎的配置并不需要很深的计算机知识,笔者对Heritrix,Sphider和PhpDig分别进行和配置测试,其安装和使用都比较简单,对计算机操作熟练的人即可配置安装。对于不同的开源搜索引擎其用途和功能有所差别,黄翼彪等对其进行了详细的比较和研究。

 

3、定制搜索引擎在情报中的应用

赵蓉英等提出了基于Nutch的图情博客搜索引擎,采用控制信息采集更新网站范围的方法构建搜索引擎,对Nutch系统中的爬虫下载模块制定合理的抓取策略:对Nutch系统的检索模块进行优化和改进。共改进了主题资源发现模块、爬虫模块和检索模块。

葛敏提出网络公开军事情报的搜集需要充分利用智能搜索引擎信息自动推送隐含数据挖掘、敏感词汇过滤、海量数据管理等信息技术手段。网络公开军事情报搜集对科学技术的依赖程度大大增加,成为科技武装下的情报活动。

沈振萍等提出了新浪微博的竞争情报搜集研究,其中采用新浪开放API应用和新浪微博搜索引擎进行定制搜索,及时、准确的方式掌握用户及用户微博信息。通过地域分布、性别认证比例、粉丝活跃度等指标来对某个微博客帐号的关注者进行统计分析,进而对该帐号进行分析评估,通过微博互相关注和粉丝属性等分析微博用户关系。

【工具】神奇的开源图像修复工具—–EdgeConnect

在过去的几年里, 深度学习技术在图像绘画方面产生了显著的改进。然而, 许多这些技术未能重建合理的结构, 因为它们通常是过度平滑和模糊的。 加拿大安大略省理工学院 mehmherebrahimi 科学学院的kamyar najeri, eric ng, tony joseph, faisal qureshi, 提出了

 

4、网络信息的组织方式和开源搜索引擎的结合

互联网是由多个网站组成,每个站点之间由超链接进行关联如图2。

每个站点通过浏览器访问时,都可以通过超链接跳转到其他站点上,这一点为搜索引擎对网页的遍历提供了基础理论依据,网络搜索引擎爬虫从一个网站开始抓取页面时,可以通过超链接遍历整个互联网上所有站点。单个站点的结构如下图3:

当搜索引擎的爬虫从一个页面开始抓取时,可以通过站内网页间的超链接抓取关联页面,整个网站的结构能够保证爬虫可以抓取整个站点的所有网页。笔者以Sphider开源搜索引擎系统为例,通过图4介绍Sphider的基础环境搭建和安装配置。安装搜索引擎系统的服务器配置如表l:

Sphider安装完成后即可通过浏览器进行访问配置,可以根据管理员控制面板中的提示开始对某个感兴趣的网站进行索引操作,待索引完成后可以在搜索页面对需要的关键字进行搜索。 

5、开源搜索引擎对网络公共信息的搜集

随着计算机与互联网技术的普及网络技术门槛及成本越来越低,越来越多的政府机关企事业单位和个人开始筹建网站或撰写博客。截至2012年6月底,我国网民数量达到5.38亿人,互联网普及率已经达到39.9%,网民规模世界第一位。2012年12月,中国网站数量为268万,网页数量为1227亿个,均处于迅速递增状态。要全面监测所有网站网页信息是不现实的,因此要在了解全国性的主要Web网站、网络论坛、讨论组等网络媒体的基础上确定重点监测对象。

根据开源搜索引擎的特点可以把重点监测对象站点添加到搜索引擎索引列表中,搜索引擎会实时的把站点上所有的文本信息都下载,分类保存到数据库中,当需要对某个特点的事件进行分析和监控发展动态时,可以先根据事件确定关键字,通过关键字在搜索引擎的搜索界面进行搜索。搜索结果会把和关键字有关的所有的信息都反馈出来。用户可以根据信息对事件进行分析和研判。

和通用搜索引擎不同,当重点监测站点的信息一旦被搜索引擎索引后,站点中几乎所有的文本信息都会保存在本地服务器上,可以根据公安机关的需要进行数据挖掘操作,抽取出符合公安机关个性化需求的信息,分析出信息数据所呈现的规律。 通用搜索引擎和开源搜索引擎对特定站点搜索的比较如下:

6、对基层情报搜集的作用

随着公安信息化程度的提高,网络公共信息情报被越来越重视,对网络公共信息情报的搜集成为了新的研究方向,对于大型的情报中心,可以投入大量的人力物力进行系统的研发对开源的搜索引擎进行二次开发和定制,使其根据当地公安情报的需求进行信息自动化搜集和敏感信息自动挖掘推送。对于基层的派出所和信息化投入不高的公安机关,情报人员可以安装基本的开源搜索引擎,对需要监控的网站进行索引,不仅能减轻浏览和搜索的工作量,还能够保存历史信息,为以后的数据分析、事件关联和跟踪打下基础。

参考文献:

【1】张玲,搜索引擎检索功能视角分析现代情报,2(X)3(08).

【2】彭知辉,论公安情报的收集内容与方式.公安学刊(浙江 警察学院学报),2012(2):第42—45页.

【3】熊允发与吴绍忠,基于互联网的公安情报收集技术研究. 警察技术,2007(06).

【4】刘正强,关于公安舆情信息机制建设的思考.公安研究,

【5】黄翼彪与孙淑兰,开源搜索引擎索引性能的比较研究.图 书馆学研究,2012(11):第68—72页.

【6】赵蓉英与陈必坤,基于Nutch的图情博客搜索引擎的设计与实现.情报科学,2012(4):第486—491页.

【7】葛敏,网络公开军事情报搜集的探索.高校图书馆工作, 2012(2):第54-57+96页.

【8】沈振萍与谢阳群,基于微博客的竞争情报搜集研究:以新 浪微博为例.情报杂志,2012(5):第29—35页.

【9】谢晓专,公安网络舆情搜集机制研究:内容与渠道建设. 吉林公安高等专科学校学报,2009(02).

文章来源:2014.1《网络安全技术与应用》

作者简介:李鹏程,1986年出生,男,河南,硕士,助教,研究方向:信息安全,公安情报。

基金项目:本文为铁道警察学院教改项目《公安信息资源库模拟系统的研发及其在教学实践中的应用研究》阶段性成果。项目编号:JY2013057。

本文源自微信公众号:丁爸 情报分析师的工具箱

【反诈宣传】美女警官守护者今晚八点与您相约腾讯网和快手

【 #反诈十课# 第四天,干货满满】近年来,“杀猪盘”案件频发,遭受这种以爱敛财骗局的受害者无数,这其中究竟有何套路?今晚 20:30-21:00,上 @腾讯新闻、@快手 搜索“守护者计划”,看重庆市反诈骗中心张思雨警官携手@平安常州 @叶子警官cz 为你揭开“东南

人已赞赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新消息 消息中心
有新私信 私信列表
搜索