公共安全标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111637382.5 (22)申请日 2021.12.2 9 (71)申请人 江苏达科信息科技有限公司 地址 210000 江苏省南京市紫 东路2号1幢 (72)发明人 洪智  (74)专利代理 机构 合肥东信 智谷知识产权代理 事务所(普通 合伙) 34143 代理人 朱军 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/953(2019.01) G06F 16/955(2019.01) G06F 16/957(2019.01) G06F 16/958(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种大数据实时流数据计算方法 (57)摘要 本发明提供了一种大数据实时流数据计算 方法, 所述计算方法包括以下步骤: 开发网络爬 虫应用采集社交网站的数据; 采集到的数据存储 在文件中, 对这些采集到的数据进行预处理, 并 对处理后的数据进行融合, 存储到数据库中; 针 对检索得到的数据, 采用适当的方法进行数据的 挖掘与计算; 对数据计算的结果使用图、 表、 地图 等进行可视化展示。 本发明通过开发网络爬虫应 用采集社交网站的数据, 采集到的数据存储在文 件中, 并针对检索得到的数据, 采用算法进行数 据的挖掘与计算, 最后对数据计算的结果使用 图、 表、 地图等进行可视化展 示, 通过优化大数据 的实时流采集步骤, 从而提高数据的采集效率和 稳定性。 权利要求书1页 说明书5页 附图2页 CN 114329141 A 2022.04.12 CN 114329141 A 1.一种大 数据实时流数据计算方法, 其特 征在于: 所述计算方法包括以下步骤: S1: 开发网络 爬虫应用采集Tw itter、 Facebo ok社交网站的数据; S2: 采集到的数据以jso n格式存储在文件中; S3: 针对检索得到的数据, 采用算法进行 数据的挖掘与计算; S4: 对数据计算的结果使用图、 表、 地图等进行 可视化展示。 2.根据权利要求1所述的一种大数据实时流数据计算方法, 其特征在于: 所述步骤S1 中, 采集方式包括 根据种子URL实时采集数据以及根据关键词实时采集数据。 3.根据权利要求2所述的一种大数据实时流数据计算方法, 其特征在于: 所述步骤S2 中, 对采集到的数据进行 预处理, 并对处 理后的数据进行融合, 存 储到Neo4j数据库中。 4.根据权利要求3所述的一种大数据实时流数据计算方法, 其特征在于: 所述步骤S3 中, 算法包括TF ‑IDF权重计算方法、 K ‑Means聚类算法以及卷积神经网络算法。 5.根据权利要求4所述的一种大数据实时流数据计算方法, 其特征在于: 所述步骤S4 中, 可视化展示包括使用百度地图根据时间前后顺序展示用户发帖子的行为轨迹、 使用表 格展示帖子和用户的具体内容、 使用折线图和柱状图展示帖子的发布情况、 使用关系图展 示用户之间的关系以及使用聚类图和词云展示热点 话题。 6.根据权利要求1 ‑5任一项所述的一种大数据实时流数据计算方法, 其特征在于: 所述 步骤S1中, 网络 爬虫应用包括表现层、 业 务层以及持久层。 7.根据权利要求6所述的一种大数据实时流数据计算方法, 其特征在于: 所述表现层直 接与用户进 行交互; 业务层用于实现的各种业务逻辑, 连接表现层和持久层; 持久层将访问 数据库的操作进行封装, 并将业 务逻辑与数据操作进行分离 。 8.根据权利要求1所述的一种大数据实时流数据计算方法, 其特征在于: 所述步骤S3 中, 数据的挖掘与计算包括用户管理、 数据采集与融合、 信息检索以及数据计算与计算。权 利 要 求 书 1/1 页 2 CN 114329141 A 2一种大数据实时流数据计算方 法 技术领域 [0001]本发明涉及数据计算方法技 术领域, 尤其涉及一种大 数据实时流数据计算方法。 背景技术 [0002]随着互联 网技术的高速发展和人们生活水平的提高, 越来越多的人参与到社交网 络中, 既可以发表对新闻时事、 社会 见闻的看法, 又可以表达对生活琐 事、 消费购物的情感, 由此产生了海量的社 交网络数据, 这些社交网络数据很大程度上反映了用户的兴趣、 爱好、 对事物的看法和感情倾向等等, 高效地挖掘和计算这些社交网络数据在舆情监控、 事件预 测、 市场调研、 产品推荐等方面有着重要应用, 由于社交网络数据具有重要的应用。 [0003]现有技术存在以下不足: 数据 采集是实现数据分析的基础, 没有数据, 数据挖掘与 分析没有任何意义, 而且数据量的大小和数据的质量将会在很大程度上影响数据分析结果 的准确性, 由于社 交网络平台上拥有海量的非结构数据, 现有 大数据实时流的采集速度慢, 稳定性差 。 发明内容 [0004]本发明针对现有技 术的不足, 提供了一种大 数据实时流数据计算方法。 [0005]本发明通过以下技术手段实现解决上述技术问题的: 一种大数据实时流数据计算 方法, 所述计算方法包括以下步骤: [0006](1)开发网络 爬虫应用采集Tw itter、 Facebo ok社交网站的数据; [0007]优选的, 采集方式主要有两种, 根据种子URL实时采集数据以及根据关键词实时采 集数据。 [0008](2)采集到的数据以jso n格式存储在文件中; [0009]优选的, 由于网络爬虫的工作方式是从网页中抽 取需要的非结构数据, 这些数据 中会存在各种噪声信息, 如HTML标签、 网页广告等, 所以要对这些采集到的数据进行预处 理, 并对处 理后的数据进行融合, 存 储到Neo4j数据库中; [0010]优选的, 为了提高数据的检索速度, 对数据建立索引, 然后实现信息检索, 根据 需 求, 主要实现了关键词检索、 人物检索、 时间检索等 等。 [0011](3)针对检索得到的数据, 采用适当的方法进行 数据的挖掘与计算; [0012]优选的, 如TF ‑IDF权重计算方法、 K ‑Means聚类算法、 卷积神经网络算法等; [0013]优选的, 主 要有内容计算、 行为计算、 用户画像、 热点 话题发现等。 [0014](4)对数据计算的结果使用图、 表、 地图等进行 可视化展示; [0015]优选的, 例如使用百度地图根据时间前后顺序展示用户发帖子 的行为轨迹, 使用 表格展示帖子和用户的具体内容, 使用折线图和柱状图展示帖子的发布情况, 使用关系图 展示用户之间的关系, 使用聚类图和词云展示热点 话题。 [0016]优选的, 网络 爬虫应用包括表现层、 业 务层以及持久层; [0017]其中,说 明 书 1/5 页 3 CN 114329141 A 3

.PDF文档 专利 一种大数据实时流数据计算方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种大数据实时流数据计算方法 第 1 页 专利 一种大数据实时流数据计算方法 第 2 页 专利 一种大数据实时流数据计算方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:41:51上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。