文本描述
传媒技术119 基于舆情数据中台的产品多元化体系建设 ——以南方舆情为例 摘 要:随着舆情市场的不断开拓,如何灵活响应多变性、多样化的用户需求,快速生成多元化产品服务,成为重要问题。 本文立足舆情应用场景,通过标准的规范定义和服务的封装编排,构建一个承接技术、引领业务,可快速连接萃取的智慧数 据中台,高效满足前台的数据分析和产品服务,引领舆情业务向纵深层次发展。 关键词:舆情;数据中台;数据建模 中图分类号:TP393 文献标识码:A 文章编号:1671-0134(2019)01-119-03 DOI:10.19483/jki.11-4653/n.2019.01.033 文/吴娴肖卓明洪丹 引言 模型,通过不同维度的建模实现跨域舆情数据的整合, 同时挖掘舆情数据从个体标签化到全局指标化,深度萃 取数据价值,实现共性应用的知识沉淀,是面向舆情业 务支撑提供底座能力的关键。 近年来,传统媒体不断寻求融合转型之道,拓展“媒 体+”服务,为用户创造更多价值。为构建舆论引导新格局, 越来越多的传统媒体整合品牌资源、政经资源和信息资 源,切入舆情服务领域。 挑战四:数据封装应用与服务开放。数据的规模化 发展是提供服务化能力。如何按应用要求做服务的封装, 通过多元化的产品形态开放给外部服务用户,实现数据 价值的快速分享,打通服务用户的最后一公里,是建设 舆情数据中台的最终目的。 随着舆情市场的不断开拓,政务用户和企业用户之 间、省级政务用户与区县基层政务用户之间,甚至地方 政府用户和职能厅局用户之间,对舆情产品服务呈现多 样化需求,同一用户在不同环境下对舆情管理的需求也 相当多变。当这种变量积累到一定体量,为每个用户的 定制开发成本会非常高,同时出现产品效率不高等问题。 本文从南方舆情的实际业务发展出发,学习实践阿里巴 巴首提的“大中台、小前台”概念,引入舆情数据中台 的运转思路,支撑产品应用多元化快速生成,打造一揽 子舆情产品服务,通过“技术降本、应用提效、业务赋能”, 抓住舆情市场的发展机遇。 2.技术架构与关键技术 数据中台的概念首先由阿里巴巴提出,“构建规范 定义的、全域可连接萃取的、智慧的数据处理平台”, 其建设目标是高效满足前台数据分析和应用的需求。为 应对舆情服务需求的复杂多变性,南方舆情从实际业务 出发,设计和搭建了舆情数据中台,以期实现产品定制化、 服务个性化的快速部署。总体架构和关键技术描述如图1 所示。 1.难题与挑战 面对复杂的舆情应用场景,突破传统的系统架构, 构建舆情数据中台,贴近用户多变多样的使用需求,面 临着诸多技术难题与挑战。 2.1舆情数据采集:全域数据智能采集与入库 全域数据智能化采集平台主要对接的数据形态包括 互联网数据采集、合作互补数据、媒体独家线下信源、 自身采编业务数据。互联网数据通过分布式爬虫、智能 采集调度、自适应采集策略、数据采集代理、自动登录 验证等技术,灵活配置采集规则、抓取深度、扫描频率 等采集策略,实现各渠道数据源的统一采集管理。依托 分布式架构、多点负载均衡和自适应带宽设计,确保实 时采集效率、采集稳定性和采集数据完整性。 挑战一:全域数据采集与入库。以需求为驱动, 如何实时采集和引入多渠道数据(网站、论坛、博客、 APP、微博、微信公众号、电台电视台)、多形态(自身 业务系统、互联网采集、第三方交换)的数据,构建多信源、 海量和动态的基础数据池存在很大的挑战。 挑战二:规范数据架构与研发。如何构建数据的分 层与水平解耦结构,通过全域采集数据格式的规范化、 交互接口的标准化实现架构的统一性、可靠性和灵活性, 快速支撑上层数据应用和服务,是一个值得探讨的技术 难点。 以分布式计算架构实现对大规模数据的快速识别与 信息抓取,对不同的信息使用不同的抓取策略,实现互 联网信息抓取的自动化。采用分布式多线程并发指令执 行体系结构、增量实时索引、智能分词等技术,采集和 数据管理效率高。实现多个网站同时并发抓取、一个任 挑战三:跨域数据整合与知识沉淀。如何建立融合 120传媒技术 图1 舆情数据中台的技术架构 务分布式并发多点处理、多点负载均衡的效果,可以防 止短时间内向同一个网站发送过多的访问请求,提高大 数据采集的效率和性能。运用 IP 代理池以及 API 模仿机 制,对高频更新的数据进行 IP 轮询采集,能有效防止站 点对系统 IP 的限制,同时系统能智能主动降低采集频率, 降低 IP 被封的可能性。分布式采集的智能化调度,能有 效提高数据采集的稳定性。 关键人物、正负面倾向、网民观点等,深入分析事件的 本质原因,形成建模基础数据。 以智能化标签的方式对数据信源进行归类,在逻辑 上将数据信源自由组合成任意不同的虚拟数据信