在互联网普及社会各个角落的时代,网络舆情以其时效性和广泛性影响着民众的方方面面。针对网络舆情的分析和研究,是相关部门、企业、名人等的必修功课。而基于情报学的网络舆情分析技术,能充分利用情报学中的信息组织理论和方法,充分利用计算机和互联网技术,关注网名的心声反馈。
一、信息采集法
网络信息采集主要采用基于垂直搜索引擎的主题爬虫技术,对互联网上的某类主题信息页面全自动识别、分类、抓取,垂直引擎系统对某一领域的采集和提取具有较高的准确性和较广的信息查全率。
1. 主题蜘蛛实现
主题蜘蛛实现主要包括两方面内容,一是主题搜索智能下载,二是互联网上的反屏蔽策略。
2. 主题相关判别
一般意义下的相关度通常是根据检索词在命中记录中出现的次数(词频)和位置,以及不同检索词的相邻程度来计算的。网络舆情研判主要关注的是网络新闻、论坛帖子、微博、微信等网络素材的相关度问题,其中借鉴了大量传统文献中关于相关度计算的标准和算式。
二、基础分析法
舆情分析中涉及大量的相关技术,比如事情检测与跟踪系统、自然语言处理特别是中文信息处理、数据挖掘等。具有情报学特点的研究方法主要有:
1. 内容分析法
内容分析法可以揭示文献(包括保存的网页)的隐性内容,和舆情研究结合起来可以揭示网络宣传的技巧、策略,衡量互联网内容的可读性,发现作者或者评论者的个人风格,分辨不同时期不同环境的舆情特征,反映个人与团体的态度、兴趣,揭示大众关注的焦点等。
2. 实证分析法
实证分析法是通过分析大量案例和相关数据后试图得出某些结论的一种常见研究方法,比如社会调查法和网络计量法等,网络计量法是网络舆情研究中数据分析的主要方法。
三、信息处理技术
1. 信息预处理
信息预处理是对采集到的网页进行初步的加工和处理,为后继舆情关键信息抽取和舆情内容分析奠定基础。由于舆情是一类具有很强领域性和倾向性的信息,所以需要将统计与规则预处理技术相结合。除此之外,预处理环节还需要对网页进行索引、储存与统计。
2. 舆情关键信息抽取
首先,需要进行网页去噪;然后,利用智能节点识别技术自动识别出属性信息标示词或满足特定属性值结构的信息;最后,进行逻辑信息抽取。从逻辑意义层面上去理解主题页面的信息内容,而不依赖于信息页面的结构和信息页面的语义。
3. 舆情内容主题聚类分析
主题聚类主要通过对文本、查询式等聚类对象进行基于机器学习的主题分析,将聚类对象转换为基于主题的表示形式,以达到降低特征空间维度的目的,然后以主题表示为基础进行对象的聚类分析,最后得到基于主题的聚类结果描述。
网络舆情分析:www.eefung.com
蚁坊软件的舆情监测系统就可以变被动为主动,从而提升相关部门、企业以及名人等对信息的处理能力,更好地应对网络突发事件。同时通过对网络信息的监测和分析,运用各种方式和渠道做好舆论方向的引导,进而构造和谐的网络环境。