1月21日,全球OCR領(lǐng)域公認(rèn)最權(quán)威的學(xué)術(shù)會(huì)議“2017國(guó)際文檔分析與識(shí)別大會(huì)(ICDAR)”揭曉2017ICDAR競(jìng)賽結(jié)果,360企業(yè)安全人工智能團(tuán)隊(duì)?wèi){借深度學(xué)習(xí)OCR技術(shù)獲得自然場(chǎng)景中文文字識(shí)別比賽第一名。 ICDAR專注于文本領(lǐng)域的識(shí)別與應(yīng)用,有OCR領(lǐng)域的奧斯卡盛會(huì)之稱,是全球OCR領(lǐng)域公認(rèn)最權(quán)威的學(xué)術(shù)會(huì)議之一,由其組織的RCTW-17競(jìng)賽也是當(dāng)前OCR技術(shù)領(lǐng)域全球最具影響力的比賽之一,競(jìng)賽中的諸多方法對(duì)文字識(shí)別技術(shù)的發(fā)展具有強(qiáng)大推動(dòng)力。高技術(shù)難度、強(qiáng)大實(shí)際應(yīng)用性,也使該盛會(huì)受到科研院校、科技公司等的關(guān)注,至今已有89個(gè)國(guó)家的3500多支隊(duì)伍參與。
ICDAR官網(wǎng)公布的比賽成績(jī)單
360企業(yè)安全人工智能團(tuán)隊(duì)參加的專門針對(duì)中文識(shí)別的“端到端識(shí)別任務(wù)”是該項(xiàng)賽事的高難度項(xiàng)目,評(píng)測(cè)和檢驗(yàn)的是對(duì)自然場(chǎng)景和網(wǎng)絡(luò)圖片、以及復(fù)雜視頻中的文字的提取和智能識(shí)別能力,比賽中主辦方會(huì)提供街道視圖、海報(bào)、菜單、室內(nèi)場(chǎng)景和屏幕截圖等大規(guī)模的圖片,這些圖片中文字有傾斜、垂直、不同字體、各種清晰度等非常不規(guī)則和多樣化的形態(tài),是傳統(tǒng)OCR無(wú)法提取和識(shí)別的,這也是人工智能技術(shù)應(yīng)用的一個(gè)重要方向。
最終360企業(yè)安全人工智能團(tuán)隊(duì)?wèi){借在深度學(xué)習(xí)領(lǐng)域的深厚技術(shù)積累和應(yīng)用實(shí)踐獲得了該項(xiàng)目的冠軍。并同時(shí)獲得了另一個(gè)項(xiàng)目“文字檢測(cè)任務(wù)”的第四名。
ICDAR官網(wǎng)公布的比賽圖例
該團(tuán)隊(duì)負(fù)責(zé)人王占一表示,OCR技術(shù)可以廣泛應(yīng)用于卡證類、票據(jù)類的文字識(shí)別、車牌檢測(cè)識(shí)別、商標(biāo)識(shí)別、道路標(biāo)識(shí)識(shí)別、自動(dòng)駕駛等,大大提升產(chǎn)品檢測(cè)識(shí)別效果和用戶體驗(yàn),降低人力成本。360企業(yè)安全的深度學(xué)習(xí)OCR技術(shù)適用于政企機(jī)構(gòu)的數(shù)據(jù)防泄露和網(wǎng)站內(nèi)容違規(guī)監(jiān)測(cè)中,對(duì)代碼、郵件、文件等不同類型的文檔進(jìn)行分類,然后識(shí)別發(fā)現(xiàn)文檔中的違規(guī)行為,對(duì)違規(guī)文檔進(jìn)行過(guò)濾;標(biāo)記被監(jiān)測(cè)網(wǎng)站中的圖片,對(duì)圖片中的違規(guī)、違法、色情的文字內(nèi)容進(jìn)行識(shí)別發(fā)現(xiàn)。