你以為你是亞馬遜，其實你只是魯賓遜－－公司推動AI的幾個步驟

5 min readSep 5, 2017

AI人工智慧、機器學習、大數據，這些關鍵字一直是近年來科技圈最火紅的詞彙。他們都屬於「資料科學」的範疇，目前在商業上主要討論的是，將各式各樣的數據餵給電腦，讓電腦藉由處理、運算，進而找出規律，再由這些規律當中自主學習，最後從這些數據中發掘出趨勢。隨著餵給電腦的數據越多，其判斷結果也會越精準，能精準發掘隱藏的商業需求或市場趨勢，或是由自動化節省大量人力。

聽起來讓人覺得熱血沸騰，迫不及待想開始了？

但是，在許多討論當中，我發現夢想與現實的鴻溝無比巨大－－許多人認為大數據加上AI是萬靈丹，但其實，要先經過以下層層檢視，才知道它是不是真的能為你帶來商業價值。以下是檢驗你的公司是否準備好AI的層層破關圖。

(圖片來源:Evonne)

首先，最重要的是，要問對問題。要先知道你想要達到什麼目的，想要知道什麼，才能夠知道自己需要什麼資料，進行什麼樣的分析。

接著要問：

你的數據怎麼來？

你有現有可用的數據嗎？

平常有蒐集數據的管道和習慣嗎？

不同部門之間的數據可以相容嗎？

資料的可用性以及權限足夠嗎？（即使是同一公司，各部門的數據也常常未整合，要先經過非常多的溝通，才能得到所需的資料使用權限）

資料傳得出來嗎？（有些資料產生在客戶的內網裡，根本無法傳出來）

沒有既有資料的話，資料要從哪裡來？從感測器？攝影機的影像資料？人工登錄？

這些資料的來源穩定且足夠嗎？會有法律的問題嗎?

資料的取得會有偏誤嗎？（例如攝影機的影像資料，隨著安裝位置的不同，準確度會有相當大的差別）

接著還得問：

公司的基礎建設，足夠支持這些數據的持續傳輸或是儲存嗎？

運算主機可以持續訪問到資料庫的資料嗎？

持續傳輸與儲存的需求看似容易，但若是資料大量，或是高階析度影像資料，其實會是不容小覷的成本，若是無法穩定傳輸，則資料的偏誤則可能會加大。

終於確認可以得到資料，也有足夠的傳輸頻寬與儲存了，接下來還需要清洗資料。

有時候，這些資料是很「髒」的，這是一個兩難，在一開始採用大數據時的初衷，就是要從盡量多的資料中，找出有意義的價值，所以一開始可能什麼都先抓下來再說，但其中可能有偏誤或是不夠精準的資料。若是資料有問題，則garbage in, garbage out，無法產生有價值的結論，又或是像之前幾個被玩壞的聊天機器人－－微軟的Tay發表種族歧視話語，或是騰訊聊天機器人「腐敗無能的政治萬歲嗎？」的驚人之語（好啦騰訊沒有被玩壞）。

另外一種「髒」是資料用語與格式的不統一，例如同樣的一個「金額」的資料，可能在有些文件裡叫做「金額」，有些叫做「價錢」，有些用「$$」符號取代，全半形還不一樣，同樣的項目有不一樣的稱呼，都會造成分析的困難，需要進一步統一。

終於把資料蒐集好並洗乾淨了，此時才真正要開始分析資料了。此時才是討論分析方法、演算法、如何訓練電腦學習、如何從這些資料中挖掘出一些模式或趨勢的時候。

接著，當我們挖掘出這些趨勢，它只是一個「現象」，這些現象要進一步解讀，進而產生有商業價值的決策。此時，領域知識就相當重要。

具有足夠的領域知識，才能知道這些現象在這個行業中代表什麼意義，也能判斷什麼樣的結果是有價值的，什麼樣的結果是有偏誤的。例如我們曾經藉由攝影機影像資料，判斷出商店的「熱區圖」－－最多客人有興趣，逗留最久的地方，結果老闆一看就說，這裡是休息區，這裡是試鞋區，這裡是結帳區，當然人待在這幾個地方最久啊！一秒被打臉，這樣的結果就是沒有商業價值的。

若是有領域知識，非常簡單的數據與趨勢，就能產生非常有價值的結論了，例如非常簡單的「人流計算」，計算有多少人流走進店裡，有經驗的客人就知道將人流計算跟結帳資料結合，轉換為「提袋率」，或是將進店人流與進試衣間試穿的人流比較，推估出「試穿率」，再從結帳資料推估出「試穿後購買率」，這些簡單的資料，都能產生出不簡單的結論與行動方案。

當這些趨勢真的有辦法轉換為有價值的商業策略，接下來還要能推動與執行才行，許多大公司即使知道數據分析出這樣的趨勢，討論出公司策略與走向的改變，但真正要推動變革，還是有困難的，更多的是反過來讓數據分析的結果，為現有決策背書歌功頌德，「先射箭再畫靶」，而非真正想追求改變與進步。

當你終於解完以上關卡，記得時時用新得到的數據，檢驗這個改變的策略是否成功，並持續修正。若是無法解完關卡，就想要打大魔王，結果就是－－你以為你是亞馬遜，其實你是魯賓遜，在數據之海漂流，最終被困在各種技術名詞與演算法的荒島上而已。（這樣的話，「星期五」是……？）

如果您喜歡我的文章，請多按幾下「拍手」給我鼓勵，或是按”follow”讓我持續提供優質文章給您。

你以為你是亞馬遜，其實你只是魯賓遜－－公司推動AI的幾個步驟

Written by Evonne Tsai

No responses yet