版面差異化分析在報紙安全出版中的應用探索
苑勝明
(濰坊北大青鳥華光照排有限公司,山東省 濰坊市 261205)
摘要:三審三校是一個出版單位最基本的制度,從建版到三審三校再到見報,必然會經歷一個反反復復修改的過程,每一次版面的導出都會生成一個版本的版面文件,通過分析這些版面文件中的數(shù)據(jù)結構和數(shù)據(jù)能夠知道兩個版本之間經過了哪些修改,再將這些差異分析數(shù)據(jù)直觀的顯示在頁面上,使得編校審人員能夠確認版面內容是可控可信的,助力報紙能夠安全出版。
關鍵詞:安全出版 版面比對 XML文件差異化分析
1引言
在報紙的出版流程中,稿件內容組織從建版開始,會經歷三審三校到見報,這其中經歷了一個反反復復修改的過程,那么,就會有一連串的問題值得我們思考:“上一個版本有哪些問題”、“這個版本改了什么”、“這個版本是不是把上一個版本的問題都解決了”、“這個版本改對了嗎”,因此,對歷史版面的差異化分析對于提高編審校人員的工作效率保障報紙安全出版至關重要。那么如何對兩個版面文件做差異化分析,分析哪些對我們有用的內容,如何將這些內容直觀的展現(xiàn)出來,就是本文要討論的內容。[1]
2 版面差異化分析如何為安全出版服務
2.1報紙版面比對什么內容
版面每導出一次會生成一個版本號,與之對應的會生成一個版面xml文件,文件里標示著版心的大?。?/span>PageWidth和PageHeight)。正常來講,每一個版面文件是由一種或多種類型的分區(qū)(Story)組成,包括標題分區(qū)、文字分區(qū)、表格分區(qū)、圖形分區(qū)、圖像分區(qū)、字轉曲線和路徑排文。每一個大分區(qū)可以由一個或多個小分區(qū)(StoryBlock)組成,每一個小分區(qū)都有一個唯一標識(ItemID)。
在標題分區(qū)、文字分區(qū)、表格分區(qū)、字轉曲線和路徑排文分區(qū)中,又是由段(Para)、行(Row)和字(Col)組成,每個字含有字體、字的大小、字序、背景色、前景色等屬性。每一個小分區(qū)和字都有它在版面上的矩形塊,通過矩形Rect屬性(Top、Left、Right、Bottom)表示。
因此,版面比對的內容主要體現(xiàn)在以下幾個方面:
分區(qū)比對:通過分區(qū)ID(ItemID)在兩個版面文件中的存在情況,確定分區(qū)是增加還是刪除。
位置比對:通過分區(qū)的矩形區(qū)域(Rect)變化,確定分區(qū)是否發(fā)生了位置移動,如果矩形區(qū)域沒有發(fā)生變化,再看矩形區(qū)域內的折線點(Point)的個數(shù)是否發(fā)生變化,在點的個數(shù)也相同的情況下,再比較每一個點的坐標(x,y)是否相同,最終來確定位置是否發(fā)生了變化。
文字內容比對:通過比對同一分區(qū)內的文字內容(不包含屬性)確定該分區(qū)內文字的增加刪除情況。[2]
文字屬性比對:當確定了文字的增加刪除狀態(tài)后,文字就能夠做到一一對應了,取出一一對應的文字節(jié)點,再比對該節(jié)點中文字的屬性,看文字的位置、字體、大小、顏色是否發(fā)生了改變。
圖像比對:除位置比對外,通過圖像的文件路徑和大小判斷圖像是否被替換。
圖形比對:除位置比對外,通過圖形的線形、線寬、背景色、前景色來確定圖形是否發(fā)生了改變。
字轉曲線比對:除了比對位置和文字內容外,還對曲線的顏色、類型、長度進行了比對。
路徑排文比對:除位置比對,還比對了文字的內容變化。
2.2 比對中遇到的問題
2.2.1 如何確定位置是否發(fā)生改變
要確定一個分區(qū)位置是否改變,首先要確定矩形區(qū)域是否發(fā)生改變。以復雜的圖形分區(qū)舉例,圖形分區(qū)主要是由點(Point)來確定的,可以是線、矩形、貝塞爾曲線、不規(guī)則線條組成的圖形等等。當矩形區(qū)域未發(fā)生改變的情況下,再通過點的個數(shù)來判斷圖形分區(qū)的形狀是否發(fā)生了改變,當點的個數(shù)也相同的情況下,再遍歷每個點的坐標,看每個點的位置是否發(fā)生了改變,最終確定該分區(qū)是否有位置改變或形狀差異。
2.2.2 如何處理換行符導致的定位錯誤
在比對過程中,需要對版面中的文字進行增或刪的比對,因為版面中的每個字或標點都是一個Col對應一個字符,唯獨換行符是一個Col對應“\n”兩個字符,這就造成在字符定位的時候發(fā)生錯位,導致整個版面比對結果不正確,所以在比對的時候,我們需要找一個生僻的一個長度的字符來替換掉“\n”,等比對結束再替換回來。之所以使用生僻字,是因為一個長度的字符如果在版面中其它地方出現(xiàn),就會導致頁面顯示結果出現(xiàn)問題,常用字符、符號都不能解決問題。
圖 1四疊字生僻字長度
測試研究發(fā)現(xiàn),中文字符中,有一些四疊字等生僻字的長度為1,如“?”的長度是1,我們可以先用這個字來表示換行符,等處理完再替換回原來的“\n”。
2.2.3 版面中拷貝的多個相同分區(qū)如何比對
例如,假設版面A中存在一個圖像分區(qū),而在版面B中是拷貝的 A中的圖像分區(qū)而且拷貝了兩次,形成類似對聯(lián)的效果,B中的兩個圖像分區(qū)與A中的ItemID是完全一樣的,這時候我們通過算法分析,計算B中兩個圖像與A中圖像區(qū)域的相對距離,取最近的作為比較對象,而另外一個多出來就作為新增來對待。
2.2.4 單行只有一個字符的情況
這種情況是作為警告提醒來處理的,因為在實際應用中,可能會出現(xiàn)因為圖片調整了1個單位而導致原本在一行能排完的情況下最后一個字符擠到下一行顯示的情況。
2.3 比對結果的解析與呈現(xiàn)
比對結果有XML和JSON兩種結構供選擇,在展現(xiàn)到網頁中時,需要根據(jù)原版心大小及分區(qū)和字的相對坐標重新計算當前坐標,利用畫矩形框透明層的原理將比對結果畫在以版面圖為背景的網頁中。
如圖2所示,綠色半透明矩形框是一個新增的圖像分區(qū),通過圖像分區(qū)的Rect節(jié)點屬性控制圖像分區(qū)的寬高和坐標,在“1.插入”和圖像分區(qū)之間通過一條曲線連接,這樣就能很直觀的展現(xiàn)修改提示和修改內容之間的關聯(lián)關系。
圖 2 版面比對結果示意圖
3.結束語
可控、可管、可信是報紙安全出版的核心理念,三審三校是出版機構的基本制度,因此對于審校前后兩個或多個歷史版面之間的差異就要做到心中有數(shù),本文通過分析同一版面兩個版本的不同之處及在探索中遇到的實際問題來介紹版面差異化分析技術在報紙安全出版中的具體應用。
參考文獻
[1] 張曉貞. 新形勢下對報紙安全出版的幾點思考[G]. 傳播力研究. 2019;06:111
[2] 胡淵喆. 軟件同行評審系統(tǒng)SPIRIT的設計與實現(xiàn)[J]. 北京交通大學. 2013;S2:85
[3] 李娟. 深度探究報紙排版中容易忽視的問題及解決辦法[F]. 數(shù)字通信世界. 2020;3:219
新聞技聯(lián)動態(tài)
- 推動知識資源平臺合規(guī)健康發(fā)展 共促數(shù)字版權規(guī)范化合理化 2023-03-06
- 成功舉辦中國新聞技術工作者聯(lián)合會市縣融媒體分會年會暨換屆大會 2022-12-23
- 中國新聞技聯(lián)新聞信息標準化分會 2022年年會成功召開 2022-12-01
- 《機器生產內容自動化分級》團體標準 正式發(fā)布實施 2022-12-01
- 延期通知:中國新聞技術工作者聯(lián)合會 縣市融媒體分會 2022 年學術年會暨技術交流會 2022-12-01
- 2022年中國新聞技術工作者聯(lián)合會學術年會在貴陽成功舉辦 2022-11-17
- 喜報│53個案例入選首批“技術賦能‘新聞+’推薦案例” 2022-11-17
- 重磅│19位新聞技術工作者獲此殊榮 2022年度“王選新聞科學技術獎”人才獎在貴陽頒獎 2022-11-17
- 新品│速看哪三項傳媒技術創(chuàng)新產品發(fā)布 2022-11-17
- 2022年中國新聞技術工作者聯(lián)合會學術年會勝利開幕! 2022-11-17