近期,歐洲科技界再度迎來了一股新鮮力量。法國初創企業Mistral AI,這家曾因開源首個MoE模型而聲名鵲起的公司,在沉寂一段時間后,攜其最新力作——Mistral OCR重返舞臺。
Mistral OCR自問世以來,便以“全球頂尖OCR產品”自居,旨在攻克AI在識別粗糙復雜文件時的難關,讓AI操作識別更加順暢。消息一出,社交媒體上瞬間好評如潮,但其中也不乏一些理性聲音。
有用戶表示,盡管對Mistral OCR的能力頗為認可,但其定價策略卻讓人望而卻步,并呼吁中國AI企業能夠盡快推出類似開源版本,以打破價格壁壘。
更有用戶親自上陣測試,上傳了手寫板內容的掃描件,但識別結果卻不盡如人意,文字正確率偏低。
還有被Mistral OCR所宣傳的“多語言識別能力”所吸引的用戶,在實際使用后卻發現該產品無法識別自己所使用的語言。
盡管Mistral OCR目前還存在一些局限性,但其問世無疑標志著從字符識別向場景智能的一次跨越。與傳統OCR API不同,Mistral OCR是一款多模態API,不僅能夠識別文本中的插圖或照片,還能為這些圖形元素創建邊界框,并將其包含在輸出中。
從Mistral AI團隊發布的Demo視頻中可以看到,Mistral OCR能夠將圖文混排的PDF文件輕松轉換為結構清晰的Markdown格式文件,無論是表格與數字的組合、數學公式的轉換,還是宣傳圖片中的印地語識別,甚至是拍得并不方正的論文照片,甚至是帶有水印的文字,都能得到準確識別。
除了直觀的Demo展示外,Mistral AI團隊還列舉了Mistral OCR的六大優勢:卓越的復雜文檔解析能力、原生支持多語言與多模態、行業領先的基準測試表現、同類產品中處理速度最快、創新性的“文檔即提示”結構化輸出,以及可選的自托管部署方案。
團隊還將Mistral OCR與Google document AI、Azure OCR、Gemini系列模型以及GPT-4o等產品進行了性能對比,結果顯示,Mistral OCR在總體準確率、數學公式識別等方面表現尤為突出,特別是在2503版本中,各項指標均實現了大幅提升。
在多語言處理方面,Mistral OCR的數據更是遠超Google document AI和Azure OCR。
作為法國科技界的佼佼者,Mistral AI憑借其AI助手Le Chat和多個基礎模型,已被官方視為最具潛力的科技公司之一,甚至被認為是有望與OpenAI一較高下的歐洲企業。Mistral AI的三位創始人擁有豐富的AI研究經驗,曾在谷歌DeepMind和meta等全球頂級科技公司任職。自成立以來,Mistral AI在資金籌集方面取得了顯著成績,致力于將前沿AI技術普及給每個人。