經(jīng)濟參考報

“PDF圖像OCR識別系統”助推中國電子政務(wù)

2007-08-09 記者:周文林來(lái)源:經(jīng)濟參考報

　　本報訊針對政府機構中大量PDF文檔無(wú)法編輯、拷貝和檢索的難題，近日，漢王科技推出了“PDF圖像OCR識別系統”。業(yè)內專(zhuān)家普遍認為，它的推出使得PDF文檔無(wú)法編輯、拷貝和檢索的難題迎刃而解，將有助于推動(dòng)中國電子政務(wù)的快速發(fā)展。
　　隨著(zhù)電子政務(wù)、辦公自動(dòng)化OA工程的全面實(shí)施，“無(wú)紙化”辦公的趨勢已經(jīng)不可阻擋。目前，在國家各級政府的電子政務(wù)網(wǎng)絡(luò )里，以PDF為格式的電子文檔得到了廣泛應用，全面取代了之前的傳統方式。大量的政府文檔、通知、檔案資料、財務(wù)報表都以PDF格式存儲、傳輸、流轉、交換和下發(fā)。相比較而言，PDF具有許多其他電子文檔格式無(wú)法相比的優(yōu)點(diǎn)，如完全保持紙質(zhì)文檔原樣，存貯空間小，便于網(wǎng)絡(luò )傳輸等。
　　然而，作為一種“圖像”格式，PDF的“只讀”特性使其只能“看”，卻無(wú)法進(jìn)行文本編輯、拷貝和引用，PDF文檔之間也無(wú)法相互引用和檢索。這樣大量文檔只能是一堆“死”的文字，而不是可應用的“流動(dòng)”信息。面對不同部門(mén)、不同內容的PDF文檔，如果要拷貝、檢索、整理和歸類(lèi)，需要花費大量的人力和物力用人工方式重新整理錄入。
　　據悉，新推出的識別系統使政府機構多版本的PDF文檔能成為單一的文本格式。該系統不但可以整合不同機構、部門(mén)的分類(lèi)信息，打破傳統行政機關(guān)時(shí)間、空間和部門(mén)分隔的制約，使各級政府的各項監管工作更加嚴密，服務(wù)更加便捷，而且還加強了對檔案進(jìn)行科學(xué)且高效管理的能力，能充分實(shí)現各類(lèi)信息的在線(xiàn)檢索、查詢(xún)、瀏覽和閱讀功能，從而為海量信息的交叉檢索、深度內容的進(jìn)一步發(fā)掘和開(kāi)拓打開(kāi)了更為廣闊的天地。
　　業(yè)內人士認為，PDF文檔轉換文本文檔產(chǎn)品的普及，將大大加速電子政務(wù)的進(jìn)程。