您现在的位置:首页 > 财经频道 > 股票 > 热点扫描 > 正文
基于主题模型的网络热点钱柜娱乐演化趋势研究

发布时间:2019-02-10 22:15:34    浏览次数:    财经首页    我来说两句()

  摘 要:互联网媒体的快速发展使网民每日接收着海量的钱柜娱乐。发现热点钱柜娱乐并对其演化趋势进行挖掘可有利于媒体把握钱柜娱乐风向和读者喜好,并帮助用户低成本、全方位地了解钱柜娱乐事件的来龙去脉。媒体网站可通过实时获取钱柜娱乐并进行文本处理,运用聚类分析、时序主题挖掘等算法跟踪了解热点钱柜娱乐事件的演化趋势。本文结合相关挖掘技术,提供了一种基于主题模型的热点钱柜娱乐演化趋势挖掘的流程设计,并结合具体的钱柜娱乐事件进行分析。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  随着互联网的发展,在线钱柜娱乐已成为媒体发表钱柜娱乐、用户阅读钱柜娱乐的主要渠道。在Web2.0时代,网络中的信息传递愈加迅速便捷,网民可自主发表个人意见,助推了各类热点钱柜娱乐的诞生。网络中的热点钱柜娱乐是指反映社会反响比较大,网民比较关注的钱柜娱乐内容,具有传播快、影响力大、关注度高的特点。网络中的热点钱柜娱乐一般会经历话题产生、变化和消亡三个阶段,不同阶段的钱柜娱乐有不同的热度和话题。人们在阅读互联网上海量钱柜娱乐时,往往重点关注某些领域的热门钱柜娱乐,并且希望了解热门的钱柜娱乐的来龙去脉等泛化信息。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  对网络热点钱柜娱乐事件的挖掘可以满足互联网用户钱柜娱乐阅读诉求。将网络中各个信息源相同和相似的钱柜娱乐事件聚集在一起。最后将聚集在一起的钱柜娱乐事件按照时间先后顺序进行排列和,这样就能够得出钱柜娱乐事件的起因、发展以及结果等一系列过程,并通过信息的数量得到事件关注度变化曲线。挖掘结果能使用户更方便快捷的去了解网络中整个信息演化趋势和状况,同时也引导用户去关注社会和生活中的一些焦点钱柜娱乐。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  从用户角度看,对热点钱柜娱乐演化趋势的挖掘分析给用户提供了更为方便快捷的服务,它能够使用户用最小的代价获取最多最全面的内容,它能够帮助用户更准确、更迅速的了解一个事件的来龙去脉、整个发展过程以及各方各面对该事件的理解和看法。对媒体和网站管理者而言,从对互联网中热门事件的研究,可以有效的得出互联网中热点钱柜娱乐的迁移,互联网用户行为习惯变化以及互联网的导向[1],便于媒体根据读者喜好和热点风向发布钱柜娱乐报道,引导和控制钱柜娱乐发展。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  在对热点钱柜娱乐的演化状况进行挖掘时,主要会使用到有监督性学习、无监督性学习以及复杂网络分析等方面的相关技术。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  传统的钱柜娱乐主题聚类任务一般采用向量空间模型来表示一个钱柜娱乐文档,然后通过相似度公式来计算文档之间的距离,而对于新主题的识别主要采用增量聚类的算法来实现;通过主题抽取与聚类工作,可以不停地生成、总结形成新的钱柜娱乐主题[2]。基于以上路径,诞生了多种钱柜娱乐聚类方法。如Ron Papka[3]等学者则提出了一种混合式的主题聚类算法,他将多种聚类算法进行混合搭配,根据不同聚类算法之间的特点,采取融合逻辑来进行钱柜娱乐主题聚类。Sayyadi[4]等研究人员将钱柜娱乐主题与社交网络结合起来,提出了一种基于关键词图的钱柜娱乐主题聚类算法,充分地利用了网络钱柜娱乐系统中的消费者社交网络信息,取得了不错的效果。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  钱柜娱乐网站对于钱柜娱乐进行分类使得读者可以更准确地找到自己感兴趣的分类并有利于关联阅读的进行, 例如目前钱柜娱乐页面下方的钱柜娱乐推荐, 可以使读者便捷地阅读到与当前阅读钱柜娱乐相关的其他钱柜娱乐页面。目前,机器学习和神经网络技术的发展使得钱柜娱乐分类逐渐成熟,如支持向量机(SVM)、决策树、KNN等分类算法在钱柜娱乐分类任务上均有不错的表现。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  非监督性学习中的主题模型,可以用于追踪和检测钱柜娱乐热点话题。通过主题模型将自由文本中的主题 提取出来再进行分析。主题模型也是近年来文本挖掘 领域的热点。主题模型起源于Deerwester[5]等1990年提出的隐性语义索引。M. Blei等2003年[6]提出的LDA模型,扩展了隐性语义索引,得到一个更为完全的概率生成模型。近年来,与特定的应用场景相结合,出现了越来越多的基于LDA的概率模型。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  钱柜娱乐线],是在与某个特定话题的相关报道已被跟踪的前提下,根据钱柜娱乐之间的逻辑关系,自动组织成符合逻辑的事件发展轨迹。国内外研究的一个重点集中于两钱柜娱乐之间相似性度量(关联强度)方面,有研究发现钱柜娱乐发展轨迹是自上而下的,具有时间近邻、事件要素共现特性,利用事件的内容关联强度、时间关系可以构造出钱柜娱乐线 热点钱柜娱乐演化趋势挖掘框架pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  针对网络中的热点钱柜娱乐演化趋势分析主要分为三个模块:钱柜娱乐获取模块;热点钱柜娱乐识别模块和热点钱柜娱乐演化分析模块。其中钱柜娱乐获取模块主要完成数据的即时性获取任务;热点钱柜娱乐识别模块主要对钱柜娱乐文本信息进行预处理,运用聚类技术对钱柜娱乐进行聚簇,挖掘钱柜娱乐热度及事件标签;热点钱柜娱乐演化分析模块主要对簇内钱柜娱乐在时间序列上进行主题挖掘,对挖掘出的主题演化情况可视化展示。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  在获取钱柜娱乐阶段,主要目的是实时性得获取钱柜娱乐网站的海量钱柜娱乐数据,满足对钱柜娱乐演化趋势分析的数据要求。在该阶段,一般的流程为:网页抓取,网页解析,信息提取,信息存储。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  钱柜娱乐网页的抓取是获取数据的基础。面对钱柜娱乐挖掘抓取相关网页要满足两个特点:定时和定向。定时抓取,是指为了保证钱柜娱乐的时效性,需要定时(每天、每周或每小时)抓取钱柜娱乐站点的钱柜娱乐页面。由于钱柜娱乐网站上每天都有大量钱柜娱乐产生,及时抓取当日钱柜娱乐才能满足对钱柜娱乐演化趋势的挖掘。定向抓取,是为了防止抓取的钱柜娱乐分布过于分散,可从钱柜娱乐网站的专题页或主题页进行抓取。以人民网为例,可从滚动钱柜娱乐模块出发每日0点抓取钱柜娱乐,保证抓取的即时性和抓取内容的丰富性。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  网页的解析,能够得到网页中比较单一和固定的元素,例如网页标题、副标题、链接信息、文本信息等,python与java语言环境下有成熟的工具包可以使用。SST(Site Style Tree)算法提供了一种根据Web网页DOM树节点信息熵提取有效信息的方法,可以过滤网页中的冗余的无意义信息,提高提取信息的有效性。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  为便于按照时间线对钱柜娱乐进行分析,要记录存储网页的时间、钱柜娱乐标题、钱柜娱乐内容等信息。存储网页钱柜娱乐信息数据系统可使用SQL-Server数据库或Oracle数据库存储,满足大量数据多线程并发查询的需求。网页钱柜娱乐存储表的字段设计如表3-1所示,字段需要包括原始网页中的钱柜娱乐信息和处理后的关键信息,为提升查询速度,可对部分字段添加索引。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  获取到大量的钱柜娱乐数据之后,需对文本进行中文分词、去停用词与低价值词、文本特征表示等预处理操作,以满足后续的分析要求。在钱柜娱乐热度识别模块,主要运用聚类算法,对文本进行聚类,挖掘相似文本集合的数量和主题,生成热点钱柜娱乐线)文本分词与处理pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  对于原始钱柜娱乐文本,难以进行使用聚类算法进行分析。中文文本分词是必不可少的环节。目前,已有Jieba、THULAC、ICTCLAS等较为成熟的中文分词工具,可实现对中文语料进行分词、词性标注、新词识别等操作。为降低文本噪音,分词后可对分词结果进行去停用词操作。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  分词后的词语集合可以使用基于代数论的向量空间或基于概率的文本模型进行表示。向量空间模型主要是把文本抽象成一个向量,, 是词库中唯一存在的词,其取值确定了该词语代表文档能力的强弱,即体现了词语在文档中的重要。通常,可以使用TF-IDF(词频-逆向文档频率)值表示词语特征项的权重,在此,不再对TF-IDF算法做具体介绍。概率模型考虑了词语中的内在联系,相较于向量空间模型,其更符合文档生成的客观规律;但运算、先验概率都较为复杂,需要做出合理的优化。常见的概率模型有n-gram模型和最大熵马尔科夫模型等。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  在实际操作中,由于钱柜娱乐集合包含的词语数目多,产生的特征向量空间的维数广,计算规模较大。为了提升聚类效率,可以对文本特征向量空间进行压缩。在计算文本特征距离时,只存储和使用两个文档所包含词语得权重,减少特征向量的维数。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  聚类后某类集合下的钱柜娱乐数量可以表示该组钱柜娱乐的热度。根据聚类集合下的钱柜娱乐数量很容易发现哪个集群下的钱柜娱乐报道数量最高。报道数量越高,该结合下钱柜娱乐代表的事件就越热门。但还需使用一个代表性标签来反映该类别下钱柜娱乐的话题,表示这类钱柜娱乐集合到底在讲什么事件。由于聚类结果存在噪声,不便直接选取聚类中心的词向量作为聚类标签。为了能自动挖掘钱柜娱乐集合的话题,可以在用自然语言处理的方法来对文本内容进行归纳总结。但面对大量钱柜娱乐文本的挖掘操作过于庞大,这里提出一种使用钱柜娱乐标题集合产生标签的聚类方法。通过将钱柜娱乐标题集合进行切分、词频和词性标注,选择词频数目靠前的名词和动词作为聚类标签。比如:在聚类后得到了一个关于台风的钱柜娱乐的集合,将该集合下的钱柜娱乐标题进行词频,取动词和名词中词频排名前两位的词语组成词语集合{山竹,台风,停课,登陆},该词语集合已足够反应该类钱柜娱乐的主题。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  经过对大量钱柜娱乐文本的聚类后,已经获得每组的钱柜娱乐集合和简要的集合标签特征,接下来可以对同一组内钱柜娱乐集合进行主题抽取及演化分析。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  关于文本的主题挖掘模型有很多,最长使用的是基于LDA的主题挖掘模型。LDA模型是一种基于潜在狄利克雷分布的主题生成模型。在这个主题模型中, 一系列主题以服从多项式分布的形式生成每个文本, 再从这些主题中同样以服从多项式分布的方式抽样出每个单词, 由此构成该模型。但传统的LDA模型忽略了文本之间逻辑或时序上的某种关联,面对具有演化时间标签的热点钱柜娱乐集合,必须考虑钱柜娱乐话题在时序上的变化情况。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  DTM模型是由Blei于2006年[6]提出的模型,它在LDA的基础上加上时序相关信息,训练出时序相关的模型,从而分析主题在时序上的变化。传统的LDA主题模型在生成文档时,认为文档中的每个单词对应的主题是可以交换地从一系列的主题中采样得到的,但是现实世界中,文档的时间顺序影响了主题的集合里的主题。DTM假设文本可以按照时间顺序分为多个集合,比如按年,那么时间片t的主题是从时间片t-1的主题演化得到的。时间片t-1的模型参数对时间片t的模型参数有所影响。图5-1展示了有三个时间片的DTM模型,其中图模型的参数含义如表5-1所示。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  在这里的实验中,省略钱柜娱乐聚类的环节,人民网上直接抓取了3月份以来带有事件序列的关于“滴滴顺风车”相关的钱柜娱乐,使用主题模型进行钱柜娱乐主题挖掘。根据挖掘结果,可以获得钱柜娱乐集合的六个话题,清洗掉话题之间的重复词语后,每个线个单词构成。经过主题模型的挖掘,已经能够发掘部分主题的大致含义。比如:topic3是指“乐清女性乘坐滴滴顺风车遇难”这一事件,topic6是指“滴滴关闭夜店打车服务”的事件后续反应。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  钱柜娱乐话题演化脉络挖掘需要从一个话题出现、发展、、平淡、到最后结束的连续跟踪。一个复杂的钱柜娱乐话题往往包含多个子事件,而事件之间也存在着一些逻辑或时序上的关联,通过这些事件之间的关系,可以得到钱柜娱乐话题下的事件演化脉络,辅助用户理解钱柜娱乐的来龙去脉。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  继续使用“滴滴顺风车”事件的钱柜娱乐实例,在识别出钱柜娱乐话题后,将各个话题的钱柜娱乐数量变化趋势在时间序列轴上表示出来,可以发现各个话题随时间的演化情况和不同事件对“滴滴顺风车”事件报道的侧重点,如图5-2所示。可视化后的钱柜娱乐演化趋势图可以清晰的展示某话题及其子话题出现、发展、、平淡的发展趋势。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  通过图5-2可以看出,Topic4主题乐清-女性-乘客-遇害-悬赏”的报道数量,在2018年8月26号左右爆发并达到顶峰,这符合该事件实际报道的演化情况;Topic3主题“夜间-专车-停运-投诉-交通”的报道数量,在2018年9月11号先上升后下降,这与滴滴在该时间段内决定夜间停运专车业务一周相吻合;Topic0主题“美团-市场-补贴-上线月份开始出现并增多,表明该时期下媒体关于滴滴打车的竞争对手美团打车上线的钱柜娱乐较多,这也与事实相符。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  在以上主题挖掘的基础上,选取部分主题词,将每个高频主题词的存在情况表示在时间序列上,如图5-3所示,整个事件的发展和演化趋势一目了然。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  聚类尽管可以将不同大类或不同事件下的钱柜娱乐事件聚簇,但若聚类粒度选择不当,很容易将热点钱柜娱乐的子事件分离,为后续的钱柜娱乐演化分析带来不便。如何优化文本相似度的计算方法、聚类数目、算法目标函数仍是一个问题。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  应用时序主题模型挖掘出的不同话题下的主题词存在交集。虽然允许不同话题拥有相似的主题词,但在相同聚类集群下,更主要的是获得不同的主题词语以彰显热点钱柜娱乐事件的动态发展与转折。在主题挖掘之后,可将不同主题词集合间对词语进行二次筛选。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

  经过时序主题挖掘后的主题词集合较为独立,未能形成完整的钱柜娱乐事件演化故事链,不利于用户理解阅读。可尝试构建钱柜娱乐事件间的层次结构,结合聚类集群标签集和和主题词集合,生成钱柜娱乐事件发展链或故事链。pBX亿滔财经网_金融财经综合资讯门户|股票|钱柜娱乐官方唯一网址|外汇|黄金|债券|期货|信托

分享到: 更多
相关阅读:
网友评论:
用户:
 密码:
 验证码: 
 匿名发表
如果你对财经频道有任何意见或建议,请到论坛交流平台反馈。
企业服务
信息

钱柜qg777