省域專項數據建設及智能化應用
毛振興 盧嵐 王碩
(北京北大方正電子有限公司)
摘要:在大數據和人工智能技術的驅動下,省域專項數據融合創(chuàng)新、場景化智能應用、數據治理思維革命、數據價值重構已成為傳媒業(yè)的結構性力量,并由此形成省域數據治理新形態(tài)、媒介新生態(tài)和傳媒新業(yè)態(tài)。開放多元的省域數據生態(tài)催生新內容和新服務,跨界融合和開放合作成為助力媒體融合新范式。本文通過省域專項數據中心與場景化智能應用的研究與實踐,系統(tǒng)闡釋如何在技術端發(fā)力,打造智能化省域專項數據中心建設,進一步提升媒體內容的供給質量與服務運行效率。
關鍵詞:大數據 人工智能 省域 智媒 數據服務
一、 引言
隨著全國新基建產業(yè)按下快進鍵,新技術支撐體系下的媒體形態(tài)將充分融合。其中,涉及信息與融合基礎設施建設的三大核心技術為:以5G為代表的通信網絡基礎設施、以數據中心、智能計算中心為代表的算力基礎設施、以人工智能、云計算、區(qū)塊鏈等為代表的新技術基礎設施。
在剛剛落幕的第二屆中國廣電媒體融合發(fā)展大會上,北京北大方正電子有限公司的“基于方正數據&AI雙中臺體系支撐的智能區(qū)域數據中心建設”項目成為“2021年度媒體融合創(chuàng)新技術與服務應用新入庫項目”,并在安徽等地落地應用。
二、 省域專項數據管理
省域專項數據治理是聚合和治理跨域數據,為智能經濟的底層基礎,是產業(yè)數字化轉型的必然要求。通過數據中臺技術,對海量數據進行采集、計算、存儲、加工,同時統(tǒng)一數據標準,再進行組織存儲,形成大數據資產層,進而為客戶提供高效的省域專項數據服務。利用在媒體行業(yè)深耕多年的經驗積累,形成得天獨厚的數據采集優(yōu)勢,具備前后端分離、組件化、微服務、彈性可擴展的應用架構體系,通過對多機構、多源數據接入管理,數據質量控制,數據組織存儲和對外多維服務輸出,從而實現從數據到數據服務的能力。
圖1 省域數據資源建設彈性架構體系
1. 省域專項數據標準管理體系
作為數據管理的核心要求,在建設之初的數據規(guī)劃層面就要確定。首先與建設單位一起梳理和確認數據中臺數據標準,是實現多源數據接入和多維輸出的基礎。數據標準包括業(yè)務術語標準、數據項標準、屬性數據標準,同時針對數據質量評估也制定標準規(guī)范,包括數據的精確性、唯一性、完整性、一致性、關聯性、及時性。具體在實施中依據管理數據對應已明確的應用,針對媒體主要的數據組織和應用場景,數據中臺已經植入新聞領域相關的數據標準和規(guī)范,便于數據的調用、共享和流通。并為省域數據生態(tài)持續(xù)建設提供擴展性支撐。
依托數據中臺,依據省域專項庫的建設規(guī)范,完成了數據質量標準和規(guī)范的制定,包括數據的接入和輸出標準。在數據質量管理方面提供開放域、智能、業(yè)務三類標簽體系管理。涵蓋省自治區(qū)標準地域信息標簽體系;行業(yè)領域信息標簽體系;針對文本、圖片、音視頻等的智能標簽體系;涵蓋屬地黨政領導干部的人物屬性標簽體系;通過海量數據訓練,實現智能自動標引。
2. 省域多源異構專項數據的匯聚
在數據接入層面為了支撐省域專項數據分析應用,需要將散落在各機構單位的合作數據源、以及媒體各業(yè)務系統(tǒng)數據,之前都相對獨立的“數據孤島”的異構數據進行接入和統(tǒng)一管理,在此基礎上圍繞業(yè)務組織建設各業(yè)務數據中心并為上層應用提供數據服務。
各機構單位和各業(yè)務數據源具有如下特點。
(1)分散性特點
省域各協(xié)作機構單位分布于省域各地,媒體單位的各業(yè)務數據也分散在各業(yè)務系統(tǒng)中,無法進行數據連通和共享,新增數據的加入和應用也比較困難。
(2)異構性特點
省域各協(xié)作機構單位會根據自身需求開發(fā)了業(yè)務信息系統(tǒng),系統(tǒng)采用的開發(fā)語言、操作系統(tǒng)、架構、數據管理系統(tǒng)、數據存儲模式、數據結構、數據類型以及語義并不完全一致。因此,省域機構間數據源多類異構。
(3)動態(tài)性特點
由于省域內各機構單位,在運行過程中,機構間復雜的協(xié)作關系、協(xié)作任務、數據源、相關配置都動態(tài)變更,因此,數據集成的內容和對象都具有動態(tài)性特征。
(4)標準不統(tǒng)一,接口參差不齊
目前,各機構單位針對單個業(yè)務或專項業(yè)務單獨開發(fā)接口,沒有統(tǒng)一的標準和規(guī)范體系、種類繁多復雜、參差不齊、無法統(tǒng)一管理,導致互操作困難復雜。
針對省域多機構分布性、多端異構性、協(xié)作動態(tài)性和接口繁多,以及數據單條上傳和批量接入匯聚的應用場景。本文提出省域環(huán)境下面向省直單位、地市、區(qū)縣單位或者垂直子機構媒體應用領域提供開放的多源異構數據采集、大數據并發(fā)流處理、微服務計算、消息隊列、消息協(xié)同處理等技術框架,實現多源異構數據單條和批量數據采集、上傳,流式并發(fā)清洗轉換、松散耦合式數據銜接等特征功能。解決面向省域環(huán)境下媒體自身、地市區(qū)縣媒體單位、合作機構信息系統(tǒng)數據匯聚、管理、應用場景。
多源異構數據接入匯聚由數據源管理、數據字段映射、轉換清洗規(guī)則定義、接入任務管理、以及數據流轉狀態(tài)監(jiān)控組成。具體通過接入數據源和目標數據源的管理,提供多數據源的連接參數設置視圖管理功能,提供數據源連接參數的增刪改查,規(guī)范統(tǒng)一數據源批量接入。數據源支持關系型數據源、非關系型數據源、消息隊列、文本數據集的參數配置:包括數據庫標志、數據源類型、數據服務訪問方法、主機名、端口號、用戶名、密碼等。數據源管理通過提供對數據庫源連接信息的添加、刪除和修改等管理操作,將多源異構數據源連接信息存入目標業(yè)務數據庫,以支撐互聯網下多數據庫服務器源連接的統(tǒng)一管理和透明接入功能。
對于散落在省域范圍內各機構單位個人PC或服務器中零散的異構復雜數據,提供包括文本、圖片、音頻、視頻、書籍文件、影視作品等獨立數據上傳接入工具實現數據各種數據的匯聚集成。
3. 基于分布式的省域專項數據分析與組織存儲
基于場景化驅動數據業(yè)務智能封裝,對入庫數據進行智能分析,包括地域、領域、情感、實體、自動摘要等,并實現智能打標。通過分步式的數據存儲系統(tǒng)實現結構化、半結構化、非結構化等多源異構數據的存儲管理,在此基礎上構建業(yè)務數據庫或專項數據庫。在數據管理方面,對入庫的數據量、各業(yè)務數據標簽、數據的數據規(guī)模、數據內容進行維護管理,并且能支持業(yè)務應用的數據查詢?yōu)g覽與有效利用。具體應用以下核心技術:
(1) 采用分布式隨機樣本劃分算法
按照使用場景可以分為批量數據轉化算法和流式數據轉化算法,按照數據的格式又可以分為針對結構化數據、時間序列數據、文檔式數據、圖數據,分類方式如下圖所示。
圖2 RSP轉化算法
(2) Hadoop平臺多引擎技術
省域數據中心融合數據多引擎技術、Hadoop/HDFS分布式并行計算和多副本機制、Facebook/Cassandra對等節(jié)點機制等先進技術,避免單點故障并支持系統(tǒng)性能線性擴展。Hadoop 平臺最核心的兩個組件分別為:Map Reduce 分布式計算框架和 HDFS 分布式存儲系統(tǒng),其分別對應與 Hadoop 的兩個層次:數據處理層和文件存儲層。其中,HDFS主要面向超大型的文件承載量的應用,其設計目標在于:
a) 硬件錯誤
硬件發(fā)生錯誤屬于常態(tài)現象,硬件組件出現問題常常存在于現實生活當中,硬件損壞是不可避免的。因此,硬件等相關組件的錯誤檢測和快速、自動恢復是分布式架構的核心設計目標。
b) 流式數據訪問
較之傳統(tǒng)的應用系統(tǒng)側重用戶交互方面,基于 HDFS 的應用側重點在于數據的批處理方面,需要能夠流式訪問其數據集。其不是特別注重和要求數據訪問時的響應時間,而注重于數據傳輸的高速率、數據訪問的高吞吐量以及數據的批處理。 面向數據分析的分布式數據管理系統(tǒng)。
c) 大規(guī)模數據集
基于 HDFS 的應用面向的是大數據,因此其應用都是具有很大的數據集,這也就要去該框架能夠給予較大的數據傳輸帶寬。
d) 簡化一致性模型
基于 HDFS 的應用所需要建立的模型具有“一次寫入多次讀取”的特點,其文件一旦經過寫入操作之后,數據一般不需要進行更改。正是由于這一特點,便可簡化數據一致性問題,從而也使得數據傳輸的高速率、數據訪問的高吞吐量以及數據的批處理等目標具有實現的可能。
e) 可移植性
任何框架在設計初始階段就會考慮平臺的可移植性,框架的可移植性不僅有利于開發(fā)各類型的應用,而且也有利于自身開源框架的發(fā)展和推廣。
(3) 分布式存儲監(jiān)控與管理
滿足用戶可持續(xù)發(fā)展需要的數據管理需求,支持對集群整體和每個節(jié)點運行情況的秒級監(jiān)控,監(jiān)控維度至少包括:每節(jié)點分區(qū)數、內存使用情況、存儲空間使用情況、數據文件、記錄數、IO、CPU、網絡等。
(4) 節(jié)點管理靈活動態(tài)擴容擴展
支持動態(tài)集群擴容,至少包括節(jié)點列表、主節(jié)點管理、內存大小、集群IP、自動安裝目錄配置等;
(5) 數據庫數據倉庫初始化
通過數據庫新建、可配置按指定字段分區(qū)與分庫,支持副本數選擇,支持指 定數據庫類型,包括但不限于:節(jié)點數據庫、虛擬數據庫、鏡像數據庫、自分裂視圖等類型;
(6) 節(jié)點任務管理
通過節(jié)點任務管理,按節(jié)點進行任務情況查看,包括開始時間、持續(xù)時間及客戶端IP等,任務類型支持:檢索、分類統(tǒng)計、統(tǒng)計檢索、裝庫、刪除記錄、修改記錄、副本同步等;
(7) 數據清洗映射
通過省域專項數據中心日常運維作業(yè)管理功能,作業(yè)類型包括數據排重、記錄拷貝、對數據庫配置信息管理等;
(8) 數據自動分區(qū)混合存儲
通過多種存儲混合使用:支持SSD、非SSD、HDFS等多種存儲混合使用。支持冷熱數據自動分區(qū)管理。
(9) 地域/領域分類標引
構建一套標準地域和領域主題信息知識庫體系,并通過海量數據訓練,獲得可以自動標引文章所屬地域的訓練集;
(10) 自動摘要提取
通過智能的手段為省域專項數據自動形成摘要的技術。摘要提取技術采用抽取式摘要生成方法,融入篇章分析與指代消解中的最新研究成果,利用數據挖掘的相關算法與模型,通過智能的手段自動提取文檔句子并形成摘要;
(11) 關鍵詞提取、實體識別
通過將省域專項數據中的關鍵詞和包括人名、地名、機構名等各維度實體屬性進行提取,形成描述文本特征的結構化數據;
(12) 情感分析
情感分析技術結合情感詞、情感程度詞典,引入情感塊的概念,利用支持向量機模型等分類算法對收集的省域專項數據進行各粒的情感判定。同時提出了利用情感模式進行分析的技術,真正實現了對文本的深入理解,使情感分析的性能進一步提高。方正智能分析系統(tǒng)的情感分析涵蓋了詞語、短語、句子、篇章等不同粒度,對其標注相應的情感傾向和情感屬性,實現對指定文本或文本集進行全方位的分析。
4. 基于多級機構組織省域專項數據分級授權
數據訪問控制策略是數據安全防范和保護的主要策略,其任務是保證數據資源不被非法使用和非法訪問。各種網絡安全策略必須相互配合才能真正起到保護作用,而訪問控制(Access—Contr01)是保證數據安全最重要的核心策略之一,是對省域專項數據資源進行保護的重要措施,是通過某種途徑顯式地準許或限制訪問能力和訪問范圍的一種方法。
除了必須的系統(tǒng)及數據安全管理外,系統(tǒng)支持多級機構:可按省、市、縣等多級創(chuàng)建機構。各機構數據隔離,可對數據接入、審核、查看等分級授權,如區(qū)縣可查看和使用本區(qū)縣以及被授權的數據資源
圖3 省市區(qū)縣多級機構管理
5. 開放靈活的省域專項數據輸出和服務
提供開放的數據輸出和服務。省域數據中心核心目標是為各地市、區(qū)縣,各類應用提供統(tǒng)一、開放的數據輸出和服務。針對省域專項數據中心提供跨模態(tài)檢索服務,可以方便的查詢數據相關信息。實現對外的數據推送,數據展示和應用的多樣性,提供開放的數據API,供三方機構二次開發(fā)和應用。針對數據的未來應用,在統(tǒng)一框架內以微服務方式來實現省域其他業(yè)務應用的聯動例如數據提供全省市、區(qū)縣機構單位使用,支撐二次開發(fā)應用。
圖4 開放靈活的省域專項數據輸出和服務
三、 省域專項數據智能化應用
數據建設的目的是為了更好的數據服務和應用,基于省域數據資源建設和管理,結合應用場景可提供省域專項數據的智能化應用。
1.提供媒體智能生產
省域數據中心集合更廣泛的數據源和素材,專項數據還具有獨特的數據特征,智能生產輔助能力沉浸在業(yè)務場景中,向新聞采編業(yè)務提供更豐富的供稿服務。滿足信息全面和及時,新媒體稿件資源匱乏、輔助各個站點人員對稿件的編輯, 轉載和使用。
(1) 提供統(tǒng)一的數據資源查詢和檢索
針對省域數據中心所管理的來自各源的稿件數據、圖片數據、音視頻數據、分析結果數據可以進行統(tǒng)一的查看,可以按照開放域標簽、關鍵詞等檢索,并實現文、圖、等跨模態(tài)檢索。
(2) 專項內容數據供給
省域專項數據可為媒體生產提供針對媒體篩選后的專項內容參考,并在專項數據標簽基礎上進行專項數據內容的分級分類處理,以應用于信息檢索,生產選用,大屏展示等不同應用需求。
(3) 媒體行業(yè)內容生產編輯器調用
省域專項數據中心在媒體行業(yè)實現與生產系統(tǒng)的打通,在各編輯查看專項數據內容信息,也可以在生產編輯器內直接檢索及其結果的有效利用、利用語義分析技術根據稿件內容生成合理的關鍵字和摘要等功能。而每個編輯記者都可以訂閱不同的專項信息內容。瀏覽到有價值的內容,可以一鍵式選用到生產流程中編輯。
2、數據資源的可視化展示
根絕省域資源管理的各種數據進行可視化展示,形成數據地圖和數據看板,全面體現目前數據的整體規(guī)模,各類數據狀況,新增情況,使用狀況,為數據資產建設和應用提供直觀的體現。省域專項數據中心借助數據輸出服務,可為大屏可視化展示提供數據的支撐。
圖5 數據資源的可視化展示
3.智能風控審核平臺
在蓬勃發(fā)展的網絡時代及多變的傳媒格局中,監(jiān)管工作面臨著媒介傳播方式趨向融合傳播立體化、業(yè)務類型逐步走向更加多元化、多終端的局面?;谑∮驅m棓祿ㄔO可構建智能風控審核平臺,提供從內容監(jiān)管、到渠道監(jiān)管,再到傳播監(jiān)管,逐步實現多終端覆蓋,對本省、市、合作單位或者下屬子機構的提供數據、報刊、新媒體、圖書、網絡文學等內容進行內容風控審核;提供各機構內容提供智能審核手段和自檢、監(jiān)測服務。
針對省域各機構上傳、各系統(tǒng)采集以及互聯網采集接入的審核監(jiān)管數據進行統(tǒng)一管理,形成監(jiān)管數據庫,并在此基礎上提供智能審核和審讀工作,支持單條和批量處理,最終形成審核報告。
系統(tǒng)提供多級多租戶管理,分為上傳機構、審讀員、總部等角色,按角色定義權限和查看內容,基于省域專項數據資源建設,可實現對監(jiān)管內容的批量自動匯聚,及手動上傳圖文、圖集、音視頻、PDF文檔等多種類型數據。結合屬地熱點、重點事件、重點主題等監(jiān)測內容的訂閱,輔助審讀員快速掌握市場熱點和宣傳狀況,支持對審讀稿件、重大主題的傳播影響力分析,從而掌握監(jiān)管內容的傳播影響力狀況。
(1) 文本智能分析和審核
可以對文本中的實體、關鍵詞、情感、地域、領域進行智能分析和打標,提供單文本和多文本自動摘要,快速了解稿件的核心內容。利用的文本智能審校技術,是方正公司完成國家級項目的產品成果,審校內容全面,除錯別字、敏感詞、標點符號等較為通用的審校功能外,智能審校還可對稿件中的相似及重復內容、圖表公式序號及參見落空、列表序號、歷史紀年、公元紀年、干支紀年等錯誤進行檢查。針對文本稿件涉及新華社禁用詞、敏感詞、領導人、語義歧義、領導人排序等內容進行智能審校,滿足不同用戶類型需求,提高稿件的審稿效率及質量。針對意識形態(tài)以及最新網絡用語等,系統(tǒng)面向機構用戶和個人用戶提供自定義詞庫服務,通過詞庫語句,規(guī)則?充和維護,屬于案例庫或語料庫的累積過程。語料達到一定程度,機器便可深度學習。
(2) 圖片智能分析和審核
針對新媒體涉及的圖片進行智能打標,識別政治敏感、公眾人物、廣告、惡心圖像、涉黃、暴恐,對于內容中包含的圖片,識別圖片中的文字,并對文字進行審核,是否包含垃圾信息、敏感詞,保證內容安全性。使用人工智能鑒黃、鑒暴恐等技術,智能識別圖片和視頻中的色情、性感、暴恐等內容,遠離違規(guī)風險。
(3) 音視頻智能分析和審核
針對音視頻內容可智能識別、解析視頻里面的文字、畫面和語音,識別包含政治敏感、違禁品、廣告內容、色情、暴恐的視頻,保證內容的安全性。同時對視頻中的語音、畫面進行檢測和過濾,識別視頻中出現的動作、事件,以及其出現的時間片段,方便鎖定問題出現的地方。
(4) 屬地領導人物庫建設和審核
基于所涉重點人物,如領導人物,構建基本信息、新聞報道、參與相關話題、事件、資訊等相關信息系統(tǒng)建設和管理,實現領導人信息及關聯信息的快速查詢,領導軌跡和相關報道追蹤。提供屬地領導人物圖片、音頻、視頻打標,風控提示,包括屬地領導人物變更、落馬官員檢查等維護服務。
四、 省域專項數據建設和應用開拓媒體的數據服務
面向媒體行業(yè),即將迎來“信息隨心至,萬物皆可及”的智媒時代。瞄準新基建帶來的紅利,享受大數據與人工智能的服務,是新時代智慧媒體建設的最優(yōu)路徑。“大帶寬、高速率、低時延”的5G,使媒體享受到最直接的技術紅利。伴隨著業(yè)務發(fā)展,新增數據和應用成為常態(tài),省域數據資源建設提供開放的數據平臺,將數據與業(yè)務前后端分離、打通數據帶脈,實現數據統(tǒng)一集中管理。在數據應用層面,針對不同業(yè)務場景和應用提供微服務形式數據輸出,建設和孵化多種數據服務產品和數據應用。數據與業(yè)務松耦合,不僅保障數據管理的統(tǒng)一,又保障業(yè)務應用的靈活性。
基于數據中臺架構支撐的省域專項數據中心治理平臺,以安全可靠、穩(wěn)健成熟的實用主義為指導,為現有省域業(yè)務開展提供強有力技術支撐,并為業(yè)務創(chuàng)新提供土壤。在此基礎上建設的專項信息服務平臺、智能風控監(jiān)管審讀平臺等基于省域數據建設的應用,有效把控新聞輿論及社會宣傳導向,面向省域媒體政務、垂直領域、企業(yè)院校等用戶實現低成本、高效率、高精準度的內容合規(guī)性保障,使媒體角色從“咨詢內容提供者”向“城市信息服務者”轉變。
五、 結語
在省域數據中心和智能化應用支撐下,建設單位可以建設媒體機構內部資源的管理以及面向全省的專項數據管理和服務開發(fā)。針對媒體業(yè)務系統(tǒng)、高頻的數據服務更具特色,可以一鍵實現業(yè)務數據接入和輸出聯動。為滿足數據應用不斷發(fā)展和變化需要,采用組件化、微服務、彈性可擴展的數據產品架構和先進的數據管理基礎以滿足未來數據發(fā)展需要,以應對數據結構復雜、變化頻繁等問題,根據服務需求選擇資源的彈性擴展,更簡單的管理和維護,以滿足各領域數據服務和智能化能力的擴展,打造全省融媒體樞紐級信息集散平臺,持續(xù)構建數據服務生態(tài)。
參考文獻:
[1] 基于“數據+AI”雙中臺技術打造智慧媒體新基建“ 劉長明 盧嵐 徐建
[2] 面向異構數據源的分布式集成工具研究與設計 劉海 張矚熹 任雯 肖巖平
新聞技聯動態(tài)
- 推動知識資源平臺合規(guī)健康發(fā)展 共促數字版權規(guī)范化合理化 2023-03-06
- 成功舉辦中國新聞技術工作者聯合會市縣融媒體分會年會暨換屆大會 2022-12-23
- 中國新聞技聯新聞信息標準化分會 2022年年會成功召開 2022-12-01
- 《機器生產內容自動化分級》團體標準 正式發(fā)布實施 2022-12-01
- 延期通知:中國新聞技術工作者聯合會 縣市融媒體分會 2022 年學術年會暨技術交流會 2022-12-01
- 2022年中國新聞技術工作者聯合會學術年會在貴陽成功舉辦 2022-11-17
- 喜報│53個案例入選首批“技術賦能‘新聞+’推薦案例” 2022-11-17
- 重磅│19位新聞技術工作者獲此殊榮 2022年度“王選新聞科學技術獎”人才獎在貴陽頒獎 2022-11-17
- 新品│速看哪三項傳媒技術創(chuàng)新產品發(fā)布 2022-11-17
- 2022年中國新聞技術工作者聯合會學術年會勝利開幕! 2022-11-17