Alan Tsai 的學習筆記


學而不思則罔,思而不學則殆,不思不學則“網貸” 為現任微軟最有價值專家 (MVP)、微軟認證講師 (MCT) 、Blogger、Youtuber:記錄軟體開發的點點滴滴 著重於微軟技術、C#、ASP .NET、Azure、DevOps、Docker、AI、Chatbot、Data Science

[chatbot + AI = 下一代操作模式][24]圖像識別的服務 - Computer Vision概觀介紹

[chatbot + AI = 下一代操作模式][24]圖像識別的服務 - Computer Vision概觀介紹.jpg
圖片來源:https://pixabay.com/en/books-spine-colors-pastel-1099067/ 

在上一篇([23]LUIS管理工具 - luis-api和LUDown介紹)瞭解完了LUIS管理工具之後,基本上文字處理方面的神器LUIS介紹完了。當然,文字相關的處理還有一些服務可以介紹,例如QnA Maker,不過這個在之後的篇幅再來説明。

接下來的篇幅將來看看另外一種越來越常見的輸入方式:圖像。有沒有什麽可以讓開發者處理圖像變得簡單?

這篇先來介紹一下微軟Cognitive Service裡面和視覺(Vision)有關的服務,并且概觀瞭解已經Training好的圖像識別服務Computer Vision,看一下這個服務是什麽并且能夠做到什麽。

Cognitive Service的Vision服務

Cognitive Service有提供一系列和Vision有關的服務,這些服務可以讓在開發不同情景功能的時候節省非常多開發者的時間。

所有的服務如下:

Computer Vision
由微軟使用非常大量圖片Train好的一個圖像分類(Classification)、圖像辨別、名人識別、OCR和手寫文字識別的AI服務。在接下來的内容會在更深入的看一下每一個功能。
Face API
識別人臉的API,可以用來判斷人臉的心情,判斷是不是同一個人臉、以及人臉識別的服務。在這個系列不會介紹到這個服務,不過如果有需要做人臉識別可以使用這個來處理。
Custom Vision
由開發者自己train出來的圖像分類的服務。這個將會在將來的篇幅介紹。

這篇將來看看Computer Vision的Overview。

Computer Vision是什麽?

Computer Vision是一個微軟用非常大量圖片Train好的AI Model。主要作用是把圖片做分類和識別,總共有幾個主要的功能:

  1. 圖像識別
  2. 辨識名人以及地名
  3. OCR(圖像文字識別)
  4. 圖片智能建立縮圖

圖像識別

這邊的圖像識別指的是嘗試從圖片取得一些關鍵資訊,例如從圖片找到一些關鍵字以及嘗試判斷出這張圖片在説些什麽。還有一些別的資訊例如圖片的主要顔色等。

這個最好的測試方式是到官方的Demo頁面: https://azure.microsoft.com/zh-tw/services/cognitive-services/computer-vision/#analyze

從下圖可以看出:

  1. 可以取得圖片的關鍵資訊(tag)
  2. 嘗試找到一行字介紹圖片内容(caption)
  3. 也可以自己上傳一張圖片嘗試識別内容
chrome_2018-08-03_21-02-23.png
官方的測試畫面

往下卷還可以看到更多不同的資訊,因此可以用這個作爲測試看看符不符合使用

題外話,這個服務是有中文版本,意思是回傳的内容會是中文。在Demo畫面用的是英文的語系,實際的api是可以切換為中文。

識別名人以及地名

如果需要從圖片裡面找出名人的名字或者景點的地名就可以使用這個服務。

可以從官方的Demo頁面測試: https://azure.microsoft.com/zh-tw/services/cognitive-services/computer-vision/#celebrities-landmarks

下圖的例子是用Facebook創辦人在Wiki上面的 相片,可以看到有被識別出來:

2018-08-03_21-08-13.png
識別Facebook創辦人的相片

OCR(圖像文字識別)

現在手機拍照很方便,有時候把一些文件或者memo内容拍照下來,這時候要把圖片變回文字就會使用到OCR的服務。

這個服務有支援中文,并且有區分繁體中文和簡體中文,因此非常的實用。

一樣可以從官方Demo頁面測試:https://azure.microsoft.com/zh-tw/services/cognitive-services/computer-vision/#text

下圖是官方的範例圖片之一,可以看到就算是歪的也可以識別:

chrome_2018-08-03_21-16-06.png
歪的logo圖片文字識別

有另外一隻服務是專門處理圖片裡面有手寫文字的識別。不過這個服務只支援英文。
Demo頁面的語系是設定英文,因此用中文字圖片是測試不出來哦。

圖片智能建立縮圖

如果說程式裡面需要提供切圖的服務,那麽Computer Vision的這個Service就非常的有幫助。

詳細可以看官方demo:https://azure.microsoft.com/zh-tw/services/cognitive-services/computer-vision

結語

這篇介紹了Cognitive Service裡面的Vision相關的服務。并且看了Computer Vision主要的功能。希望透過這篇能夠有個概念能夠做到什麽程度,等到以後遇到需求的時候可以再來細看。

以目前的HotelBot機器人來説,可以用到的服務是OCR。

下一篇([25]使用Computer Vision - 如何設定、看文件以及使用REST API測試)將來看如何建立好Computer Vision需要的Key,并且先用REST API的方式呼叫測試服務。


如果文章對您有幫助,就請我喝杯飲料吧
街口支付QR Code
街口支付QR Code
台灣 Pay QR Code
台灣 Pay QR Code
Line Pay 一卡通 QR Code
Line Pay 一卡通 QR Code
街口支付QR Code
支付寶QR Code
街口支付QR Code
微信支付QR Code
comments powered by Disqus