手把手教你!3步驟判斷 AI 可行性 – 自然語言處理 NLP

宇鯨常碰到客戶問:我有一件事,想用AI來做,可以做到嗎?常常聽新聞媒體報導 AI 很厲害、可以做到 A 、可以做到 B ,真的嗎?

當然這些都是真的!只是聽起來很厲害很高科技的應用,在背離真實情境的實驗室、研發室裡可以被實現。但,身為企業方,想將 AI 應用在實務領域時,因為環境複雜、需要的穩定性高(不然可能被員工或客人客訴到不行),所以能達到有用且穩定品質的 AI 功能,在現階段的確還有一定程度的侷限性。

那,身為想導入 AI 的企業方,該如何評估真實可行性呢?宇鯨這一系列文章,就來帶領你,一步一步找到,你的問題,適不適合用 AI 來解決問題!

步驟一:確認待應用技術

自然語言處理 NLP

怎麼知道是不是用自然語言處理(Natural Language Processing,以下簡稱 NLP )來解決問題呢?

首先,如果是關於需要解讀文字、語言的內容,甚至進一步做內容的歸納(分類)、文字對話互動(問答)、文字/文章的創作(生成),就有很大可能性是仰賴 NLP 技術來達成。

延伸閱讀:台灣人工智慧學校 – 斷開中文的鎖鍊!自然語言處理 (NLP)是什麼?

常見的應用有:

  1. 偵測詐騙郵件:自動偵測信件內容,判別是否為詐騙郵件、垃圾郵件。
  2. 情緒分析:閱讀一段文字或一篇文章,並判斷內容情緒為正面、負面或中性,或者更細緻的區分為高興、生氣、悲傷、驚訝、恐懼、或無情緒等情緒。
  3. 搜尋建議更正:針對用戶輸入的搜尋字串,提供相似意思的其他建議字串。
  4. 詞類標示:拆解一句話的組成,例如名詞+動詞+副詞。
  5. 機器翻譯:將某一語言的句子或文章,翻譯成另一個語言。
  6. 專有名詞(人名、地名、產業用語)辨識擷取:將句子或文章內的人名或產業專業用語和其他一般文字拆開並標註。
  7. 摘要文本大綱:閱讀一篇文章後,自動生成大綱摘要。

看完以上解釋,如果和你的問題情境接近。接著就再進一步檢查,讓 AI 來為你解決問題,所需要的各種前置條件,是否已經具備咯!


步驟二:準備資料

資料,不等於「可餵養 AI 學習」的資料

使用任何現在主流常見的 AI 技術,都需要「資料」。但不是任何資料都可以,必須是「 AI 可以學習的資料」。什麼是 AI 可以學習的資料呢?可以把 AI 當作一個準備考試的學生,為了讓 AI 上考場時能得到最高分數,事前我們會提供這位 AI 學生大量的考古題來練習。回想一下學生時代練習考古題的經驗,你就能更懂如何訓練 AI 這位學生了!

資料型態一:有考古題,且有正確答案

你所提供的資料必須都是「題目 – 答案」為一組的。這樣的資料,就可以讓 AI 學習正確的知識,在上考場(實務應用)面對新的題目時,也能依照模型訓練結果做出正確的回答。這也是在實務上能達成高準確度模型的最好的資料型態。

延伸閱讀:數據標註的重要性:數據不是石油,標註過的數據才是石油

資料型態二:有考古題,但沒有答案

你所提供的資料只有題目而沒有相對應的答案。這樣的資料型態,可想而知, AI 學生無從學起正確的知識,但是因為考古題看得很多,反倒是變成一位很會出考題的老師(雖然無法回答答案)。

以上便是餵養 AI 的兩種資料型態。如果你想進一步確定,你手上的資料是否符合?可以開始訓練 AI 模型了?或者,雖然現在沒有資料,又該如何開始累積「 AI 可以用」的資料?可以繼續閱讀步驟三!


步驟三:整理資料格式

確認資料的完整度,是否符合你想要的應用情境

NLP 的模型訓練,有以下5種常見類型。可以進一步看看你的問題是哪個細項分類?所需要準備的輸入資料、需要定義的輸出格式,是否符合?

文本分類:

  1. 文章內容分類貼標
    • 常見應用:新聞貼標、文章貼標
    • 輸入資料(考古題):要分類的文章內容字串
    • 輸出資料(考古題答案):對應的標籤
    • 範例:
      • 輸入資料:韓國1天62萬確診如「彗星撞地球」 前台大醫:致死率比香港、日本低。新冠肺炎疫情全球大流行,韓國上周單日暴增62萬例確診,台灣疫情也在近日升溫。對此,台大前感染科醫師林氏璧於節目《POP撞新聞》中表示,韓國人口是台灣的2倍,以此換算等於台灣單日新增30萬例,若台灣新增83例叫疫情大爆發,韓國單日新增62萬例可能是「彗星撞地球」,而韓國疫情也顯示,疫苗覆蓋率不是一切。
      • 輸出資料:國際50%、健康50%、國內30%、財經15%
  2. 情感分析:
    • 常見應用:網路輿論分類、商品評論分類
    • 輸入資料(考古題):要分析的文章內容或句子字串
    • 輸出資料(考古題答案):情感標籤(例如:正面、負面、中性;高興、生氣、悲傷、驚訝、恐懼、無情緒)
    • 範例:
      • 輸入資料:好久沒有上網買機票,連在鍵盤key資料手都在發抖!
      • 輸出資料:高興60%、驚訝15%、無情緒10%、生氣5%、悲傷5%、恐懼5%

文本匹配:

  1. 比對兩句話的相似程度:
    • 常見應用:客服機器人
    • 輸入資料(考古題):要比對的「兩句話」
    • 輸出資料(考古題答案):「相似」或「不相似」
    • 範例:
      • 輸入資料1:帳號授權取消了還能再次授權嗎
      • 輸入資料2:帳號授權不小心關閉了還能再授權嗎
      • 輸出資料:相似
  2. 問答:
    • 常見應用:客服機器人
    • 輸入資料(考古題):「問題」與「答案」
    • 輸出資料(考古題答案):「匹配」或「不匹配」
    • 範例:輸入資料1:台灣大學什麼時候創立的?
      • 輸入資料2:於1928年日治時期創立的「臺北帝國大學」,1945年中華民國接收臺灣後經改制與易名始用現名。
      • 輸出資料:匹配

文本生成:

  1. 標題生成
    • 常見應用:新聞標題生成
    • 輸入資料(考古題):文章內容
    • 輸出資料(考古題答案):文章標題
    • 範例:
      • 輸入資料:文山森林公園今天開幕,北市公園處表示,園內除了1.5公里延綿山坡地形的森林步道及山頂眺望文山美景的觀景平台外,還有提供青少年冒險遊玩的攀爬設施,而最吸睛的就是全台北市最長的磨石子溜滑梯,足足有50公尺,將成為遊憩新亮點。台北市長柯文哲今天上午出席文山森林公園開幕儀式,柯表示公園占地11公頃,早期是福興公墓,2013年起辦理墳墓遷葬,經歷里長、議員及市府多方努力推動,打造美麗的森林山景,藉由總長1.5公里的森林步道串聯文山區「景美運動公園」及「福興公園」,鄰近興建「福興路排水分流工程」解決淹水問題,並且打通「旺邦隧道」紓解交通。
      • 輸出資料:文山森林公園啟用 北市最長50米溜滑梯成亮點

序列標註:

  1. 辨識專有名詞
    • 常見應用:產業文件內容判讀、評論
    • 輸入資料(考古題):待解讀的文章內容字串
    • 輸出資料(考古題答案):專有名詞
    • 範例:
      • 輸入資料:要求嚴謹的鼎泰豐。爆漿的蟹粉小籠包,紮實的蝦仁燒賣 當蟹粉小籠包端上桌時,服務人員輕聲的說:因為有一顆小籠包皮破了,所以稍後再幫您補上一顆完整的。整個感覺就是負責👍 元盅雞湯的味道清甜爽口,肉質軟嫩👍
      • 輸出資料:「鼎泰豐」、「蟹粉小籠包」、「蝦仁燒賣」、「元盅雞湯」

結論:

經過上面步驟,理解 NLP 的技術常見應用、資料提供概念、以及更細緻的如何針對預計訓練的 NLP 模型來做資料格式的調整後。相信你對於現況 NLP 實際用於產業中的可行性,又有更進一步的概念了!如果希望進一步討論,歡迎聯繫宇鯨智能:hello@yujing.io

關於宇鯨

提供全方位的 AI 解決方案:

  • 專案型技術開發合作:光學文字辨識 OCR、自然語言處理 NLP、語音合成 TTS、音訊分析 SED、用戶與商品貼標、產品概念驗證 POC
  • 宇鯨產品:FinTech 投資組合預測、PropTech 出租行情預測、LegalTech 智能書狀生成