步驟一：確認待應用技術

光學文字辨識OCR

怎麼知道是不是用光學文字辨識（Optical Character Recognition，以下簡稱OCR）來解決問題呢？

首先，如果是牽涉到從拍攝的照片、掃描的圖片、或任何圖像內容中，將圖中出現的文字萃取出來，並以可編輯、可複製的數位文字形式呈現，大概就是利用OCR技術達成的。再白話一點來說OCR，可以想成「圖像的逐字稿」。OCR可以唸出圖片中的文字，但沒辦法告訴你文字的意義內涵（這得靠後續使用NLP處理）。

常見的應用有：

紙本文件數位化：將過去以紙本形式儲存的文件，掃描過後自動萃取內容文字並轉為數位檔案儲存。例如，保險公司可能就需要將醫療收據的內容擷取出來做後續的使用。
車牌辨識：代替人眼辨識照片中的車牌號碼，便於停車費用計算時的車輛辨識、或交通罰鍰的車輛辨認。
信用卡辨識：在用戶需要輸入一連串長數字卻容易出錯的情境下，自動讀取並代為輸入卡號。

你的問題情境，是否和上述常見應用接近呢？是的話，接著再來看看，為了讓 AI 來為你解決問題，所需要的各種前置條件，是否已經具備？

步驟二：準備資料（此步驟通用於各種AI模型）

資料，不等於「可餵養 AI 學習」的資料

使用任何現在主流常見的 AI 技術，都需要「資料」。但不是任何資料都可以，必須是「 AI 可以學習的資料」。什麼是 AI 可以學習的資料呢？可以把 AI 當作一個準備考試的學生，為了讓 AI 上考場時能得到最高分數，事前我們會提供這位 AI 學生大量的考古題來練習。回想一下學生時代練習考古題的經驗，你就能更懂如何訓練 AI 這位學生了！

資料型態一：有考古題，且有正確答案

你所提供的資料必須都是「題目 – 答案」為一組的。這樣的資料，就可以讓 AI 學習正確的知識，在上考場（實務應用）面對新的題目時，也能依照模型訓練結果做出正確的回答。這也是在實務上能達成高準確度模型的最好的資料型態。

延伸閱讀：數據標註的重要性：數據不是石油，標註過的數據才是石油

資料型態二：有考古題，但沒有答案

你所提供的資料只有題目而沒有相對應的答案。這樣的資料型態，可想而知， AI 學生無從學起正確的知識，但是因為考古題看得很多，反倒是變成一位很會出考題的老師（雖然無法回答答案）。

以上便是餵養 AI 的兩種資料型態。如果你想進一步確定，你手上的資料是否符合？可以開始訓練 AI 模型了？或者，雖然現在沒有資料，又該如何開始累積「 AI 可以用」的資料？可以繼續閱讀步驟三！

步驟三：整理資料格式

確認資料的完整度，是否符合你想要的應用情境

OCR的模型訓練，需要準備的輸入資料、需要定義的輸出格式如下：

輸入資料（考古題）：圖片
輸出資料（考古題答案）：框出來的文字區間、文字內容。
範例：
- 輸入資料：

範例
- 輸出資料：

結論：

經過上面步驟，理解 OCR 的技術常見應用、資料提供概念、以及更細緻的如何針對預計訓練的 OCR 模型來做資料格式的調整後。相信你對於現況 OCR 實際用於產業中的可行性，又有更進一步的概念了！如果希望進一步討論，歡迎聯繫宇鯨智能：hello@yujing.io

總結

宇鯨的團隊非常看好大型語言模型這波浪潮，技術上的成熟度已經非常接近可商用，如果你本身已有產業經驗，非常容易就能透過 AI 工具來加速工作事務，甚至開始組建屬於自己企業的解決方案。OpenAI 在 2023/11 有一億個週活躍用戶， AI 工具在未來是必修課，現在不開始嘗試，以後將無法其他企業競爭。若想了解真實落地場景，歡迎找宇鯨聊聊！宇鯨在電商、法律、醫療的 AI 與自動化經驗，一定能讓你建立未來 10 年的競爭優勢！

關於宇鯨

提供全方位的 AI 解決方案：

專案型技術開發合作：用戶與商品貼標、光學文字辨識 OCR、自然語言處理 NLP、音訊分析 SED、語音合成 TTS、產品概念驗證 POC
宇鯨產品：CS Tagging 顧客分群貼標、LegalTech 智能書狀生成

聯絡宇鯨