步驟一：確認待應用技術

自然語言處理 NLP

怎麼知道是不是用自然語言處理（Natural Language Processing，以下簡稱 NLP ）來解決問題呢？

首先，如果是關於需要解讀文字、語言的內容，甚至進一步做內容的歸納（分類）、文字對話互動（問答）、文字/文章的創作（生成），就有很大可能性是仰賴 NLP 技術來達成。

延伸閱讀：台灣人工智慧學校 – 斷開中文的鎖鍊！自然語言處理 (NLP)是什麼？

常見的應用有：

偵測詐騙郵件：自動偵測信件內容，判別是否為詐騙郵件、垃圾郵件。
情緒分析：閱讀一段文字或一篇文章，並判斷內容情緒為正面、負面或中性，或者更細緻的區分為高興、生氣、悲傷、驚訝、恐懼、或無情緒等情緒。
搜尋建議更正：針對用戶輸入的搜尋字串，提供相似意思的其他建議字串。
詞類標示：拆解一句話的組成，例如名詞+動詞+副詞。
機器翻譯：將某一語言的句子或文章，翻譯成另一個語言。
專有名詞（人名、地名、產業用語）辨識擷取：將句子或文章內的人名或產業專業用語和其他一般文字拆開並標註。
摘要文本大綱：閱讀一篇文章後，自動生成大綱摘要。

看完以上解釋，如果和你的問題情境接近。接著就再進一步檢查，讓 AI 來為你解決問題，所需要的各種前置條件，是否已經具備咯！

步驟二：準備資料

資料，不等於「可餵養 AI 學習」的資料

使用任何現在主流常見的 AI 技術，都需要「資料」。但不是任何資料都可以，必須是「 AI 可以學習的資料」。什麼是 AI 可以學習的資料呢？可以把 AI 當作一個準備考試的學生，為了讓 AI 上考場時能得到最高分數，事前我們會提供這位 AI 學生大量的考古題來練習。回想一下學生時代練習考古題的經驗，你就能更懂如何訓練 AI 這位學生了！

資料型態一：有考古題，且有正確答案

你所提供的資料必須都是「題目 – 答案」為一組的。這樣的資料，就可以讓 AI 學習正確的知識，在上考場（實務應用）面對新的題目時，也能依照模型訓練結果做出正確的回答。這也是在實務上能達成高準確度模型的最好的資料型態。

延伸閱讀：數據標註的重要性：數據不是石油，標註過的數據才是石油

資料型態二：有考古題，但沒有答案

你所提供的資料只有題目而沒有相對應的答案。這樣的資料型態，可想而知， AI 學生無從學起正確的知識，但是因為考古題看得很多，反倒是變成一位很會出考題的老師（雖然無法回答答案）。

以上便是餵養 AI 的兩種資料型態。如果你想進一步確定，你手上的資料是否符合？可以開始訓練 AI 模型了？或者，雖然現在沒有資料，又該如何開始累積「 AI 可以用」的資料？可以繼續閱讀步驟三！

步驟三：整理資料格式

確認資料的完整度，是否符合你想要的應用情境

NLP 的模型訓練，有以下5種常見類型。可以進一步看看你的問題是哪個細項分類？所需要準備的輸入資料、需要定義的輸出格式，是否符合？

文本分類：

文章內容分類貼標
- 常見應用：新聞貼標、文章貼標
- 輸入資料（考古題）：要分類的文章內容字串
- 輸出資料（考古題答案）：對應的標籤
- 範例：
  - 輸入資料：韓國1天62萬確診如「彗星撞地球」　前台大醫：致死率比香港、日本低。新冠肺炎疫情全球大流行，韓國上周單日暴增62萬例確診，台灣疫情也在近日升溫。對此，台大前感染科醫師林氏璧於節目《POP撞新聞》中表示，韓國人口是台灣的2倍，以此換算等於台灣單日新增30萬例，若台灣新增83例叫疫情大爆發，韓國單日新增62萬例可能是「彗星撞地球」，而韓國疫情也顯示，疫苗覆蓋率不是一切。
  - 輸出資料：國際50%、健康50%、國內30%、財經15%
情感分析：
- 常見應用：網路輿論分類、商品評論分類
- 輸入資料（考古題）：要分析的文章內容或句子字串
- 輸出資料（考古題答案）：情感標籤（例如：正面、負面、中性；高興、生氣、悲傷、驚訝、恐懼、無情緒）
- 範例：
  - 輸入資料：好久沒有上網買機票，連在鍵盤key資料手都在發抖！
  - 輸出資料：高興60%、驚訝15%、無情緒10%、生氣5%、悲傷5%、恐懼5%

文本匹配：

比對兩句話的相似程度：
- 常見應用：客服機器人
- 輸入資料（考古題）：要比對的「兩句話」
- 輸出資料（考古題答案）：「相似」或「不相似」
- 範例：
  - 輸入資料1：帳號授權取消了還能再次授權嗎
  - 輸入資料2：帳號授權不小心關閉了還能再授權嗎
  - 輸出資料：相似
問答：
- 常見應用：客服機器人
- 輸入資料（考古題）：「問題」與「答案」
- 輸出資料（考古題答案）：「匹配」或「不匹配」
- 範例：輸入資料1：台灣大學什麼時候創立的？
  - 輸入資料2：於1928年日治時期創立的「臺北帝國大學」，1945年中華民國接收臺灣後經改制與易名始用現名。
  - 輸出資料：匹配

文本生成：

標題生成
- 常見應用：新聞標題生成
- 輸入資料（考古題）：文章內容
- 輸出資料（考古題答案）：文章標題
- 範例：
  - 輸入資料：文山森林公園今天開幕，北市公園處表示，園內除了1.5公里延綿山坡地形的森林步道及山頂眺望文山美景的觀景平台外，還有提供青少年冒險遊玩的攀爬設施，而最吸睛的就是全台北市最長的磨石子溜滑梯，足足有50公尺，將成為遊憩新亮點。台北市長柯文哲今天上午出席文山森林公園開幕儀式，柯表示公園占地11公頃，早期是福興公墓，2013年起辦理墳墓遷葬，經歷里長、議員及市府多方努力推動，打造美麗的森林山景，藉由總長1.5公里的森林步道串聯文山區「景美運動公園」及「福興公園」，鄰近興建「福興路排水分流工程」解決淹水問題，並且打通「旺邦隧道」紓解交通。
  - 輸出資料：文山森林公園啟用北市最長50米溜滑梯成亮點

序列標註：

辨識專有名詞
- 常見應用：產業文件內容判讀、評論
- 輸入資料（考古題）：待解讀的文章內容字串
- 輸出資料（考古題答案）：專有名詞
- 範例：
  - 輸入資料：要求嚴謹的鼎泰豐。爆漿的蟹粉小籠包，紮實的蝦仁燒賣當蟹粉小籠包端上桌時，服務人員輕聲的說：因為有一顆小籠包皮破了，所以稍後再幫您補上一顆完整的。整個感覺就是負責👍 元盅雞湯的味道清甜爽口，肉質軟嫩👍
  - 輸出資料：「鼎泰豐」、「蟹粉小籠包」、「蝦仁燒賣」、「元盅雞湯」

結論：

經過上面步驟，理解 NLP 的技術常見應用、資料提供概念、以及更細緻的如何針對預計訓練的 NLP 模型來做資料格式的調整後。相信你對於現況 NLP 實際用於產業中的可行性，又有更進一步的概念了！如果希望進一步討論，歡迎聯繫宇鯨智能：hello@yujing.io

總結

宇鯨的團隊非常看好大型語言模型這波浪潮，技術上的成熟度已經非常接近可商用，如果你本身已有產業經驗，非常容易就能透過 AI 工具來加速工作事務，甚至開始組建屬於自己企業的解決方案。OpenAI 在 2023/11 有一億個週活躍用戶， AI 工具在未來是必修課，現在不開始嘗試，以後將無法其他企業競爭。若想了解真實落地場景，歡迎找宇鯨聊聊！宇鯨在電商、法律、醫療的 AI 與自動化經驗，一定能讓你建立未來 10 年的競爭優勢！

關於宇鯨

提供全方位的 AI 解決方案：

專案型技術開發合作：用戶與商品貼標、光學文字辨識 OCR、自然語言處理 NLP、音訊分析 SED、語音合成 TTS、產品概念驗證 POC
宇鯨產品：CS Tagging 顧客分群貼標、LegalTech 智能書狀生成

聯絡宇鯨