手把手教你!3步驟判斷 AI 可行性 – 光學文字辨識OCR

宇鯨常碰到客戶問:我有一件事,想用AI來做,可以做到嗎?常常聽新聞媒體報導 AI 很厲害、可以做到 A 、可以做到 B ,真的嗎?

當然這些都是真的!只是聽起來很厲害很高科技的應用,在背離真實情境的實驗室、研發室裡可以被實現。但,身為企業方,想將 AI 應用在實務領域時,因為環境複雜、需要的穩定性高(不然可能被員工或客人客訴到不行),所以能達到有用且穩定品質的 AI 功能,在現階段的確還有一定程度的侷限性。

那,身為想導入 AI 的企業方,該如何評估真實可行性呢?宇鯨這一系列文章,就來帶領你,一步一步找到,你的問題,適不適合用 AI 來解決問題!

步驟一:確認待應用技術

光學文字辨識OCR

怎麼知道是不是用光學文字辨識(Optical Character Recognition,以下簡稱OCR)來解決問題呢?

首先,如果是牽涉到從拍攝的照片、掃描的圖片、或任何圖像內容中,將圖中出現的文字萃取出來,並以可編輯、可複製的數位文字形式呈現,大概就是利用OCR技術達成的。再白話一點來說OCR,可以想成「圖像的逐字稿」。OCR可以唸出圖片中的文字,但沒辦法告訴你文字的意義內涵(這得靠後續使用NLP處理)。

常見的應用有:

  1. 紙本文件數位化:將過去以紙本形式儲存的文件,掃描過後自動萃取內容文字並轉為數位檔案儲存。例如,保險公司可能就需要將醫療收據的內容擷取出來做後續的使用。
  2. 車牌辨識:代替人眼辨識照片中的車牌號碼,便於停車費用計算時的車輛辨識、或交通罰鍰的車輛辨認。
  3. 信用卡辨識:在用戶需要輸入一連串長數字卻容易出錯的情境下,自動讀取並代為輸入卡號。

你的問題情境,是否和上述常見應用接近呢?是的話,接著再來看看,為了讓 AI 來為你解決問題,所需要的各種前置條件,是否已經具備?


步驟二:準備資料(此步驟通用於各種AI模型)

資料,不等於「可餵養 AI 學習」的資料

使用任何現在主流常見的 AI 技術,都需要「資料」。但不是任何資料都可以,必須是「 AI 可以學習的資料」。什麼是 AI 可以學習的資料呢?可以把 AI 當作一個準備考試的學生,為了讓 AI 上考場時能得到最高分數,事前我們會提供這位 AI 學生大量的考古題來練習。回想一下學生時代練習考古題的經驗,你就能更懂如何訓練 AI 這位學生了!

資料型態一:有考古題,且有正確答案

你所提供的資料必須都是「題目 – 答案」為一組的。這樣的資料,就可以讓 AI 學習正確的知識,在上考場(實務應用)面對新的題目時,也能依照模型訓練結果做出正確的回答。這也是在實務上能達成高準確度模型的最好的資料型態。

延伸閱讀:數據標註的重要性:數據不是石油,標註過的數據才是石油

資料型態二:有考古題,但沒有答案

你所提供的資料只有題目而沒有相對應的答案。這樣的資料型態,可想而知, AI 學生無從學起正確的知識,但是因為考古題看得很多,反倒是變成一位很會出考題的老師(雖然無法回答答案)。

以上便是餵養 AI 的兩種資料型態。如果你想進一步確定,你手上的資料是否符合?可以開始訓練 AI 模型了?或者,雖然現在沒有資料,又該如何開始累積「 AI 可以用」的資料?可以繼續閱讀步驟三!


步驟三:整理資料格式

確認資料的完整度,是否符合你想要的應用情境

OCR的模型訓練,需要準備的輸入資料、需要定義的輸出格式如下:

  • 輸入資料(考古題):圖片
  • 輸出資料(考古題答案):框出來的文字區間、文字內容。
  • 範例:
    • 輸入資料:
  • 範例
    • 輸出資料:
以Line內建的OCR功能所框出的文字區域、文字內容做概念示範。

結論:

經過上面步驟,理解 OCR 的技術常見應用、資料提供概念、以及更細緻的如何針對預計訓練的 OCR 模型來做資料格式的調整後。相信你對於現況 OCR 實際用於產業中的可行性,又有更進一步的概念了!如果希望進一步討論,歡迎聯繫宇鯨智能:hello@yujing.io

關於宇鯨

提供全方位的 AI 解決方案:

  • 專案型技術開發合作:光學文字辨識 OCR、自然語言處理 NLP、語音合成 TTS、音訊分析 SED、用戶與商品貼標、產品概念驗證 POC
  • 宇鯨產品:FinTech 投資組合預測、PropTech 出租行情預測、LegalTech 智能書狀生成