數(shù)字經(jīng)濟快速發(fā)展的背后,全球數(shù)據(jù)總量呈現(xiàn)出爆發(fā)式增長趨勢。智能文檔處理(IDP)技術(shù)能夠高效地從多格式文檔中捕捉、提取和處理數(shù)據(jù),幫助機構(gòu)和企業(yè)大幅提升文檔處理效率,節(jié)約時間和人力成本。近期,合合信息智能文字識別產(chǎn)品通過中國信息通信研究院(以下簡稱“中國信通院”)“可信AI—智能文檔處理系統(tǒng)”評估工作,并獲得“5級”評定。據(jù)悉,“5級”為該模塊最高評定等級。
(相關(guān)資料圖)
人工智能技術(shù)的應(yīng)用場景正在不斷拓展,其發(fā)展也面臨著產(chǎn)品能力參差不齊、缺乏行業(yè)基準(zhǔn)和標(biāo)桿、安全可信要求落實不明確等問題。中國信通院于2018年起逐步構(gòu)建和完善“可信AI”評測體系,助力人工智能技術(shù)的發(fā)展和產(chǎn)業(yè)的健康成長,“智能文檔處理”是近兩年來新增的評測項目之一。
中國信通院智能文檔處理系統(tǒng)評測體系介紹(圖源:中國信通院)
國際數(shù)據(jù)公司(IDC)最新發(fā)布的預(yù)測數(shù)據(jù)顯示,中國數(shù)據(jù)量規(guī)模將從2022年的23.88ZB增長至2027年的76.6ZB,年均增長速度(CAGR)達到26.3%。其中,企業(yè)數(shù)據(jù)量占據(jù)70%,目前僅有24%的數(shù)據(jù)被用于分析或AI決策。由此可見,企業(yè)在經(jīng)營中沉淀下來的數(shù)據(jù),有大部分價值尚待釋放。
計算機信息化系統(tǒng)中的數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),人們?nèi)粘I睢⒐ぷ髦兴佑|到的各類辦公文檔、文本、圖片、報表都屬于非結(jié)構(gòu)化數(shù)據(jù)。由于格式復(fù)雜、標(biāo)準(zhǔn)多樣,非結(jié)構(gòu)化數(shù)據(jù)處理起來既困難又耗時,智能文檔處理技術(shù)可以把關(guān)鍵信息從半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)中提取出來,進一步實現(xiàn)業(yè)務(wù)流程的端到端自動化。IDC認為,智能文檔處理技術(shù)是提升部分行業(yè)、業(yè)務(wù)、流程的核心生產(chǎn)要素,隨著與應(yīng)用和流程自動化的深度整合,潛在的應(yīng)用場景廣泛,普及空間較大。
目前,智能文檔處理技術(shù)已被廣泛應(yīng)用于文檔數(shù)字化管理、自動化流程、圖文提取等業(yè)務(wù)場景,并加速滲透金融、政務(wù)、醫(yī)療、海關(guān)等垂直領(lǐng)域。中國信通院持續(xù)關(guān)注智能文檔處理技術(shù)及應(yīng)用的發(fā)展情況,依據(jù)《自然語言處理技術(shù)和產(chǎn)品評估方法 第8部分:智能文檔處理系統(tǒng)》,全方位評估企業(yè)智能文檔處理的技術(shù)先進度。
評估結(jié)果顯示,合合信息智能文檔處理產(chǎn)品在通用能力及AI核心能力方面均表現(xiàn)優(yōu)異:
通用能力方面,合合信息產(chǎn)品在信息抽取、表格文字識別、版面分析等方面均獲得5分評分。表格文字識別、版面分析是文檔處理的難點,合合信息表格文字識別技術(shù)支持識別圖片/PDF格式文檔中的多類型表格內(nèi)容。在財報相關(guān)表格識別測試中,合合信息有線表識別單元格結(jié)構(gòu)準(zhǔn)確率高于98%;無線表識別在保證表格區(qū)域內(nèi)容的完整性的同時,檢測準(zhǔn)確率較傳統(tǒng)方法顯著提升。
合合信息“表格文字識別”處理效果展示
合合信息版面分析技術(shù)通過解決版面分割、區(qū)域間的邏輯關(guān)系處理等方面的難題,可將文檔圖像切分成不同類型內(nèi)容(文本、圖形、公式、表格等)的區(qū)域,并分析區(qū)域之間的關(guān)系,讓機器更精準(zhǔn)地確定文檔中的文字位置、字體、大小和排版方式,從各類版式復(fù)雜的圖片文檔中精準(zhǔn)獲取信息。
AI核心能力方面,合合信息產(chǎn)品在NLP領(lǐng)域的文本分類、知識圖譜領(lǐng)域的實體識別、關(guān)系抽取及OCR領(lǐng)域的字符識別、文本行識別均獲得5分評分,并支持文本生成、事件抽取等高階處理能力,其中準(zhǔn)確率、召回率、F1值等指標(biāo)評分總體較高。
資料顯示,合合信息創(chuàng)立于2006年,是一家人工智能及大數(shù)據(jù)科技企業(yè)。合合信息智能文檔處理產(chǎn)品是一款集圖像處理、文檔質(zhì)量判斷、文檔識別、版面分析、文檔結(jié)構(gòu)化信息抽取、存儲、檢索、管理等技術(shù)于一體的智能文檔解決方案產(chǎn)品,旨在幫助個人和企業(yè)實現(xiàn)文檔信息化管理。
此外,本月,中國信通院攜手合合信息啟動了《文檔圖像篡改檢測標(biāo)準(zhǔn)》制定工作,中國圖象圖形學(xué)學(xué)會、中國科學(xué)技術(shù)大學(xué)等知名學(xué)術(shù)機構(gòu)參與聯(lián)合編制。該檢測標(biāo)準(zhǔn)將基于產(chǎn)業(yè)現(xiàn)狀,圍繞“細粒度”視覺差異偽造圖像鑒別、生成式圖像判別等行業(yè)焦點議題,凝聚行業(yè)共識,為中國“可信AI”在機器視覺、圖像處理領(lǐng)域的體系建設(shè)提供有力支持。(柯巖)