TOP
0
0
【23號簡體館日】限時三天領券享優惠!!
別急著成立反抗軍!:電腦帝國其實單純又可愛?8堂資訊黑箱裡的科普課
滿額折

別急著成立反抗軍!:電腦帝國其實單純又可愛?8堂資訊黑箱裡的科普課

定  價:NT$ 320 元
優惠價:90288
領券後再享88折
團購優惠券A
8本以上且滿1500元
再享89折,單本省下32元
庫存:1
可得紅利積點:8 點
相關商品
商品簡介
作者簡介
名人/編輯推薦
目次
書摘/試閱

商品簡介

前行政院長 張善政 特別推薦:
「這本書告訴你:萬丈高樓平地起,
電腦複雜的運算方法其實都是從最簡單的原理出發的,一點也不可怕。」

不必緊張,電腦帝國雖然擁有圍棋王、地圖通和大數據,他們要滅亡人類還差得遠!
一個資訊&工程理科男不用火星文說的電腦淺概念!

程式文盲也能會心一笑,速讀資訊時代的幕後邏輯:
.電腦不是個聰明學生,既不會舉一反三,也沒那麼多想像力,你只得用嚴格沒彈性的方法教他。
.電腦不是強在IQ,而是不怕無聊,它願意對煩人的問題,勤算出新的最佳解答。
.所有假裝聽得懂你說話的機器,都可能是高級的聲控裝置。

在人們的文明生活與資訊科技密不可分的當代,「電腦」就像是個最經典的「黑箱」。

你每天使用的搜尋引擎、每天上的購物網站、每天賴以抒發心情的社交平台,還有已經無法離身的智慧型手機……當人們觀察到世界棋王已經敗給人工智慧時,當人們發覺到搜尋引擎已經讓查字典比賽失去意義時,當人們發覺到電子商務或是交友平台好像已經比你肚子裡的蛔蟲更了解你,而總能精準推薦你感興趣的商品或是書籍甚至是往來對象的時候……你,會不會反而產生一種「養虎為患」的恐懼呢?你怕不怕那個黑箱裡的「帝國」有天我們控制不了呢?

不用擔心,這本書不會有火星文程式碼、也不必進行高深演算,且讓這位土木出身、又幸運被特訓成「半個資訊人」的理工男,試著用最淺顯簡單的語言,遵循科普寫作「多一條公式,少十個讀者」的定理,讓你了解電腦怎麼用單調的動作對付各種複雜的問題──打開這個看起來好厲害、好可怕、好聰明的黑箱,從此你將更清楚這個神奇運行的資訊世界,背後其實是無數人類資訊工程師嘔心瀝血的搏命演出。

本書將從常見的「其實大有邏輯趣味」的諸多資訊時代現象,為讀者快速建構關於電腦模擬與資訊工程師眼中的反直覺世界觀──同時順道補充資訊人最常用的笑話與幕後運作原理。

同時,在這個科技進展奇快、人與人更史無前例連結的時刻,本書也是一本能讓你「安頓下來」的科普書,因為──人類真正的極限,也許更要靠純粹簡單的原理解答!只不過,我們還沒發展出能編譯「反抗軍火星文」的軟體,那些外貌看似先進的演算法與機器,其實背後未必有多新的概念,一切還沒到世界自動滅亡的時候,等待人類與資訊科學工具探索的問題,仍然充滿懸疑,值得思考玩味。

作者簡介

紀乃文

國立臺灣大學土木研究所電腦輔助工程組博士。喜歡繪畫、寫作、武術運動、日文、歷史、烹飪、程式設計、攝影、易經占卜……好像因為玩得太多,變得没有専長。發展得最好的業餘嗜好是寫作,曾獲奇幻藝術獎青龍獎(小說組佳作)、第一屆溫世仁武俠小說百萬大賞評審獎。曾任臺灣大學土木系、西雅圖華盛頓大學營建管理系博士後研究員,目前任職於財團法人國家實驗研究院國家高速網路與計算中心,並為國立交通大學土木系兼任助理教授。

名人/編輯推薦

【推薦序1】
謝尚賢/國立臺灣大學土木工程學系教授兼系主任

以畢業的時間來排序,紀乃文博士是我的「No.15博士生」,用電腦的二進位來表達,就是「No.1111」。在十進位的系統裡,15這個數字似乎並不怎麼特別,但在二進位裡,1111卻是一個已蓄勢待發而準備進位成10000的數字,就像十進位裡的9999,總是令人充滿期待。乃文就是一位表面看起來溫謙寡言,但事實上卻是有著許多才華而能令人有許多想像與期待的學生。因此,幾天前他告訴我他要出書了,希望我幫他寫推薦序,我很替他高興但並不覺得意外,因為,就算你不知道他過去曾獲小說寫作獎,只要你讀過他在臉書上抒寫的記事與感想,就會知道他是真的能寫。且他常寫的文字長度,以臉書的標準來說,應可算是短篇小說了(有時還每逢週年連載續篇),卻不會讓人讀後半途而廢,不管是故事的鋪陳、事物的描寫、或隱含的省思等,都自然地展現了他優良的文字運用能力與思維的深廣度,更重要的是吸引人繼續讀下去的功力。讓我較意外的倒是,他的第一本書竟是科普書,而不是武俠小說或是關於攝影或烹飪的書籍。

電腦科技在最近這三十多年來進展越來越快速,對人類社會的影響也越來越廣泛且深入,近年來由於機器學習(Machine Learning)技術幫助電腦打敗世界西洋棋及圍棋棋王,讓大家對人工智慧在未來恐幫助機器人搶走人類的許多工作機會上充滿想像與未知的恐懼,世界上一些先進國家也開始要求從小學開始教授「寫程式(Programming)」,希望未來的公民都能有操控及客製化電腦運作的能力,不會受制於電腦,而毫無反制的能力。

誠如世上很多的事物一樣,電腦帝國也不是一開始就如今天般的裝備多元,通訊快又遠,計算速度猛,記憶容量威,也是從簡單的基礎逐漸累積複雜度而來的。甚至在還稱不上帝國的初期發展階段,許多人還不怎麼看得起電腦,覺得它頂多是擔任配角,壓根沒想到它的發展會是級數成長,在一些領域甚至已躍居主角地位。伴隨如此快速成長所帶來的結果就是,大部分的人越來越跟不上它的腳步,但為了讓大家都能在電腦帝國中安居樂業(即能輕易使用電腦科技),尤其是盡情消費,於是便有了一個個把複雜度與實作細節封裝起來的所謂的黑箱,讓人不需要懂得箇中原理卻能應用來獲得有品質的結果。然而,此一愚民政策的副作用就是,讓人類越來越因不理解電腦而產生莫名的憂慮、猜忌與害怕,並不利人類與電腦帝國間之長期合作,更何況人類並不希望打造一個未來會控制甚至奴役人類的電腦帝國。因此,適度的讓黑箱透明化是一個合理的道路,更何況電腦帝國的本質其實很簡單,就像複雜的生物也是由相對十分簡單的DNA所發展而成,只要能掌握其本質,就會發現電腦帝國單純可愛的一面,理解並體諒它的能與不能,甚至能在應用電腦資訊產品時,享受更多的樂趣。

這本書就是乃文展現說故事功力來帶領大家一探資訊黑箱的第一本書(我覺得出版社應不會就此放過他),相信能為許多讀者,尤其是年輕朋友們(非指生理年齡),帶來新的視野與閱讀樂趣,我自己讀了也很喜歡,更為自己的學生出書感到無比高興,在此特別寫此序文給予推薦,希望社會各界多予捧場及指導。謝謝!


【推薦序2】
梁展嘉/作家、全職交易人,著有:《一個全職交易人的投資告白》、《幹嘛羡慕新加坡》

日前當我收到紀乃文先生寄來的初稿時,我就先答應下來要為他寫一篇推薦文。一番詳讀之後,我才想好了該怎麼為讀者們介紹本書。

話說2014年初,大寫出版社總編輯鄭俊平先生在我的處女作《一個全職交易人的投資告白》上市之前與我在出版社內部進行最後一次的內容討論,雖然我跟鄭先生一樣對作品質量很有信心,但是鄭先生的信心似乎比我還多一些,他已經在關心我的下一本書了!當時他至少花了半個小時描繪我從事專業寫作的宏大遠景,他認為以我的寫作水準,假使筆耕不輟,有朝一日要晉身為華文界的麥爾坎‧葛拉威爾(Malcolm Gladwell)也非難事。葛拉威爾是商業及科學領域的國際知名作家,而我能得到鄭先生的如此鼓勵,當然會令我產生「有為者亦若是」的衝動。然而衝動畢竟是一瞬間而已,即使我的新書後來繳出了良好的成績單,一個人要全職交易再加上全職寫作,我怎麼想都很難兼顧。

就在煩惱此事的過程當中,2015年初,有一次我受邀回到母校台大土木系與學弟妹分享自己的心路歷程,席間偶然認識了學弟紀乃文,事後與他閒談之下才發現原來他是一位業餘小說家,而且作品曾經多次獲獎,只是陰錯陽差,不曾有人介紹出版作品之機會。我一下子就想到了愛才惜才的鄭俊平先生,或許鄭先生要找的華文界葛拉威爾正隱身於台大土木系之內!於是我欣然做了一次牽線之人。很高興的是,在鄭先生和紀學弟的共同努力之下,到今天真的開花結果了。在2017年您如果只有讀一本科普書的時間,我會推薦這一本華文界葛拉威爾的誠意之作。在此祝大家閱讀愉快!

【前言:從使用黑箱到拆解黑箱】

如果這是一本圍繞著「黑箱」的概念而產生的書,那就先問問為什麼我要談黑箱的故事?在這裡,似乎需要一個開宗明義的破題,讀者們才會有興趣往下翻閱。

我們先來談談「黑箱」對諸位而言究竟是什麼?我想多數人都會想到一個令人咬牙切齒的詞彙叫作「黑箱作業」──黑箱常常是可惡的,因為它常常暗中剝奪人們的權益。雖然這並不是本書想要定義的黑箱,但是黑箱裡的「惡劣」成份的確是從「神秘」所衍生出來。而世界上的人們都有一種要將黑箱透明化的企圖,或者說在看到黑箱的時候會眼睛為之一亮地企圖了解。除了防弊以外,或許還基於好奇。

但是在我們討論「拆解黑箱的必要性」之前,也許更該先了解黑箱「存在的必要性」。至少在我們文明生活當中,存在著許許多多「討喜的黑箱」,在黑箱產生「會損害人們利益」的刻板印象之前,我們應該要追溯一下黑箱最原始的意義,翻譯成白話可以一言以蔽之,叫作「你不需要知道全部的細節」,套一句時下的流行話,就叫作「閃開!讓專業的來!」。試想,當你在辦理房屋過戶的時候,會不會想要求助代書?當你在申請海外留學的時候,是否曾經想要委託代辦?那當然,因為人的一生不會經歷許多次的房屋過戶,或是留學申請,因此你一定會覺得這樣的體驗難以堪稱生活必要技能,更不會認為你有事必躬親的必要。在當代的文明社會,只要你有辦法購買到任何經過打包過的黑箱,你就可以在「不具備某種專業的前提下,卻享受到某個專業領域能夠達到的成果」。

而「黑箱」在資訊的世界裡頭尤其有意思──在程式設計的領域裡頭,「黑箱」有一個正式的詞彙叫作「封裝」,當我們希望別的程式設計師利用我們所設計的程式碼的時候,我們會把「不需要被知道的細節」給儘量隱匿起來,只留下幾個很明確的接口,如此一來你所設計的程式才容易「被使用」,而且更重要的是不會因為「被意外的使用」而被搞砸。舉個簡單的例子,大家可能都有到區公所辦事的不快經驗,你很有可能被窗口的辦事員板起臉來退件說「你缺了印章」、「你缺了戶籍謄本」,於是「請你回家補件再來重新排隊」。如果這個時候你認識坐在窗口後面的科長,你會怎麼做呢?你會不會想要攀個交情,請他幫你送件,來跳過這個一板一眼的窗口?但如果這位科長基於人情幫你「送件」了,卻沒有幫你「檢查」,而他的權限也不及於能允許你「在缺件的前提下依舊完成申請」,那麼你最後的下場還是遭到了退件。在這種情況下,我們可以說你「突破了區公所的黑箱」,但正因為你企圖「不當操作已精確設計的黑箱」,於是還是遭到了偷雞不著蝕把米的下場。此時你才會發現,那個看起來討厭至極,給你臉色且一絲不苟的窗口辦事員,其實是黑箱的必要守門員,而正因為這個黑箱裡的運作太過複雜,所以更要確保你所準備的「輸入」沒有半點差池。但是只要你的「輸入」(也就是必要的申請文件)能夠符合他的檢查規則,你不需要知道整個申請流程及細節,這些文件通過了哪些人的檢查及蓋章,你就能夠輕易地得到「輸出」,也就是你的某項申請許可。

只是,「黑箱」的原意是一種「必要的神秘」,因為這世界上最可怕的「知道」就是「一知半解」,與其因為不充份的了解而造成不必要的疑慮,還不如選擇相信幾乎沒有意外性的輸入與輸出,這就是使用黑箱的基本概念。但是黑箱這種「必要的神秘」當然也就造就了文明的「恐慌」,恐慌的一部份當然就是人們最為熟知的弊端,比方說如果你知道了黑箱的內容物事實上極其簡單,你卻花了非常貴的代價來購買的話,你肯定會因此跳腳,也因此產生了對黑箱這種「必要神秘」的高度不信任。而在人們的文明生活與資訊科技密不可分的當代,「電腦」當然是最經典的「黑箱」代表了。你每天使用的搜尋引擎、每天上的購物網站、每天賴以抒發心情的社交平台,還有已經無法離身的智慧型手機……當人們觀察到世界棋王已經敗給人工智慧的時候,當人們發覺到搜尋引擎已經讓查字典比賽失去意義的時候,當人們發覺到電子商務或是交友平台好像已經比你肚子裡的蛔蟲更了解你,而總是能精準地推薦你感興趣的商品或是書籍甚至是往來對象的時候……你,會不會反而產生一種「養虎為患」的恐懼呢?

在這個人工智慧爆炸而有「功高震主、反客為主、喧賓奪主」的疑慮的當代,是時候要開始重新拆解黑箱了。筆者雖然一路就讀被認定是「傳統產業」的土木工程系,在念博士班的期間,卻因為一個機緣巧合,就讀於土木系下最特殊的一個組別「電腦輔助工程組」,因此耳濡目染地被特訓成了「半個資訊人」。也許筆者並不是演算法或程式設計的高手,但卻還堪能用「最簡單通俗的語言」把我曾經體驗過的資訊黑箱分享給各位讀者。所以,我選定了八個與資訊黑箱相關的故事,它們的前後安排亦是經過循序漸進的設計的,在此容我先用比較枯燥且死板的方式介紹一下這些故事安排的緣由及背景,當成一種「導讀」,讓各位讀者理解「怎麼樣看這本書最好」。

本書的第一個故事:「為什麼台大校長要研究特異功能?――那些電腦模擬給我的啟示」是一道份量不輕的開胃菜,「電腦模擬」是最能貼近人生且最能夠直接被我們觀察到結果,而且也最有趣的一種應用。或者說,就算我們不深入模擬的技術細節,我們也能透過模擬知道「電腦詮釋這個世界的方式與極限在哪裡」。如果不能夠先認為電腦是有趣的,那我想身為一位讀者要對以下的章節產生「好奇」恐怕就是不太容易達成的任務。

本書的第二個故事:「先別急著成立反抗軍,你知道打敗棋王的超級電腦還離天網很遠嗎?――淺談知識工程」輝映這本書的「書名」,其實這是一個充滿爭議的命題,且正反兩方的意見仍持續交戰不休。筆者想要藉由「知識工程」的介紹,來讓讀者先放下忐忑不安的心(因為我認為會買下這本書的讀者某種程度上就是抱持了「對資訊時代的不安」而來的),才能在後續的章節盡情地欣賞資訊之美,這就像一個有經驗的醫生在病人來看報告時的第一句應該要先說:「放心,你沒有得癌症」,然後才開始解釋落落長的病理報告一般。

本書的第三個故事:「別再批評別人感情用事了,你知道情感是比智慧更高尚的東西嗎?」延續著第二個故事的立論,因為現代人害怕「人工智慧」害怕得要死,卻從來不知道光是這個動作就已經證明了我們超越我們所懼怕的東西。為什麼?因為「懼怕」是一種「情感」,你有聽過「人工智慧」,但是一定沒有聽過「人工情感」,為什麼?因為這世界上還沒有任何一個科學家有膽量宣稱他已經做出了這樣的東西。但是,當「人工情感」誕生的那一刻,人們或許才需要擔心自己遭到取代或是推翻,因為電腦還沒有開始「恨」你,即便你可能已經日以繼夜地用各種繁重的任務壓搾它。這個章節只是要告訴各位讀者,「情感」的複雜本質就連我們自己都還沒有辦法解釋,但如果你以「人工智慧」的立場及設計理念來檢視何謂情感的話,你就會知道「情感」遠遠海放了「智慧」一個非常驚人的差距,而我們卻只因為人們容意感情用事而貶低了我們最珍貴的東西。

本書的第四個故事:「《易經》是超文明的跡證?二進位不是給人看的」好像上場的稍微遲了一點點,因為「二進位」是最能夠用來解釋何謂「資訊黑箱」的符號工具。但是我必須先用前面幾個章節建立各位讀者的興趣,才不會一齣戲還沒演到賣膏藥進廣告的時分就發生觀眾早已自動散場的窘境。二進位與電路設計很有可能會是一個相當枯燥及充斥理論的話題,因此筆者還得為它添加一些充滿爭議卻不無可能的浪漫狂想(異端邪說?)。如果這樣的狂想背後有可能導致我們的歷史課本要改寫、金字塔的建造有了可能的解釋,甚至月球有可能會是人造衛星的話,你願意花一點點時間和我一起來理解電路設計的有趣嗎?

本書的第五個故事:「只要學過高中數學就可以一窺搜尋引擎稱霸網路世界的奧秘?――淺談資訊檢索」可說是繼承著第四個故事的脈絡,在我們了解了「資訊黑箱」的存在及本質之後,便能接著解資訊黑箱常常比我們想像中的還要「簡單」,我們天天在用的搜尋引擎就是一個鮮明的例子,它的上頭可以掛載任何複雜到超出非專業人士理解範圍的演算法,可是「理論的本質」卻又可以簡單到高中生就有辦法聽懂,筆者認為它可以是一個最「親民」的範例。

本書的第六個故事:「你的Siri真的聽得懂你的話嗎?――自然語言處理的奧妙」緊緊接在第五個故事後頭,做一個「打鐵趁熱的乘勝追擊」,人手一隻的iPhone手機一定曾經讓你產生這樣的好奇:為什麼我可以對它說「人話」?Siri是怎麼聽懂的?自然語言處理和上一個故事所談的資訊檢索是高度相關的學問,只是複雜度又深了一點點。如果你可以接受高中生就能聽懂的資訊檢索基本理論,咱們來做一個深入一點的探討與嘗試。

第七個故事是:「自動分類:胖瘦、愛情與人生」,它接在第五個和第六個故事後頭,因為「自動分類」是一種相當普及的「資料探勘」模式,但是這麼講卻又太不親民了,所以我們要用最簡單的「胖瘦、愛情與人生」來告訴你,資料探勘就在你我左右,讀完這個故事,你將會理解我們老在講的「機器學習」是怎麼一回事?為什麼交友軟體愈經常使用愈能準確推薦「我的菜」?

本書第八個、也是最後一個故事是:「大數據裡沒有新東西?――淺談資料探勘的新風貌」接續了上一個故事的基礎,在解釋了資料探勘與資訊檢索之後,我們才能來探討時下一直被產官學界吹捧的「大數據」到底是什麼樣的概念?說穿了,它只是用新穎的資訊處理技術去支援早就已經存在的資訊應用方,但是卻能激盪出新的火花。而它也「輝映」著打頭陣的第一個故事,如果第一個故事是開胃菜的話,這個故事就算是道甜點了,裡頭只有新奇的比喻與情境,而不會有生硬的公式及理論,希望這能讓本書能夠有個可口的結尾。

目次

前言:從使用黑箱到拆解黑箱

1 為什麼台大校長要研究特異功能?──那些電腦模擬給我的啟示

2 先別急著成立反抗軍,你知道打敗棋王的超級電腦還離天網很遠嗎?──淺談知識工程

3 別再批評別人感情用事了,你知道情感是比智慧更高尚的東西嗎?

4 《易經》是超文明的跡證?二進位不是給人看的

5 只要學過高中數學就可以一窺搜尋引擎稱霸網路世界的奧祕?──淺談資訊檢索

6 你的Siri真的聽得懂你的話嗎?──自然語言處理的奧妙

7 自動分類:胖瘦、愛情與人生

8 大數據裡沒有新東西?──淺談資料探勘的新風貌

後記 只屬於我的〈報任少卿書〉

參考文獻

書摘/試閱

【第八章 大數據裡沒有新東西?──淺談資料探勘的新風貌】(節錄)

什麼是資料探勘?從資料裡挖掘資訊的過程

對於沒有資訊背景的人來說,「資料」與「資訊」的分野常常令人困惑。坊間許許多多的課本都會嚴肅地做出一堆定義性的解釋。但我會想要很直接的這麼說:如果我在紙上寫下0928280356這個數字,它就是一筆「資料」,我想就算完全沒有資訊背景的人都會聽過「資料庫」這個名詞,到底什麼是資料庫?其實你的隨便一個excel表單都可以說是一個「格式還不夠嚴謹,但是具體而微的資料庫」,就因為裡頭儲存了大量的資料,就像我剛剛隨口舉例的0928280356一樣,它可能靜靜地躺在資料庫裡的某個角落。最多,敏感一點點的人會猜測它是某個人的手機號碼。

可是如果我說,它是林志玲的電話號碼的話,想必有很多男性同胞眼睛一亮!(但當然不是,請千萬別當真,如果有人真的在使用這個門號而收到騷擾電話的話,筆者對您感到萬分抱歉),所以「產生意義的資料」就叫作「資訊」。資訊的定義就更廣闊了,它更不限於單筆的資料,而有可能是「一堆資料的集合」。

我們再舉一個例子好了,警察辦案的時候常常會調閱所謂的「電話通聯記錄」,曾經有一個公眾人物做了一件「會損害他形象的事」(但他可能不認為這是虧心事就是了),有趣的是他為了防止自己的通聯記錄被追蹤,因此他在撥出「不想被追蹤的電話」的時候,他換了一張SIM卡──換言之,他懂得要準備一個「幹壞事專用門號」。可惜的是,他不知道所謂的「電話通聯記錄」會連你的手機識別碼一起記錄(要講得更精確的話,它還記錄了你的發話地點,因為你的手機一定透過離你最近的基地台在發話,也許這就是「跑得了和尚跑不了廟」?)手機上頭有個像是汽車引擎號碼的東西,所以贓車就算重新殺肉拼裝,只要看了引擎號碼還是會破案。手機的原理亦同,事實上手機失竊的案子是非常好破的,如果犯罪者誤以為把它的SIM卡換掉就可以將手機據為己有的話,當他下次用這隻電話打出去而且失主已經報案的情況下,警察就會找上門。所以話題回到這號人物,雖然他在法庭上對自己的做為否定到底,可是法官判定他「確實做了某件事」的依據是兩筆通聯記錄,這兩筆通聯記錄由不同的電話門號所發送,可是背後的手機卻是同一隻,雖然我們知道「電話」是不記名的,但是SIM卡確實登記在某個特定的名字之下,而憑著這隻電話曾經以「這位公眾人物的SIM卡」發話,並且在短期內交互地使用兩張不同的SIM卡,法官斷定那張「確定被犯人使用的謎之SIM卡」的真正主人的確是這位公眾人物。

講了這個落落長的名偵探柯南故事(希望馬賽克打得夠厚以免筆者因此吃上妨害名譽官司),其實我只是想說:那兩筆「通聯記錄」就是「資料」,而「這兩筆看似無關的通聯記錄是某個公眾人物做了有損形象的事情的鐵證」則是一則「資訊」,但是聰明的讀者應該立刻發現了:從資料產生資訊的過程簡直如同大海撈針!就像警察調查犯罪證據一樣,「資料」的數量往往太過驚人,而「資訊」的格式及定義太過特殊。當我們存在某種資訊上的需求的時候,如何從資料裡頭找出我們想要的東西?(以上面的故事為例,至少我們想要在為數驚人的「通聯記錄」當中找出「其實是同一個人打出的電話」,以作為偵辦犯罪的證據。)於是我們終於可以進入我們的主題了──資料探勘。資料探勘(Data Mining),也有人稱作「資料探礦」,事實上「探礦」這個譯法更加傳神,因為有意義的「資訊」就像珍貴礦石一樣埋藏在散亂的「資料」當中。我們在剛剛的段落已經提到,「資訊」是「有意義的資料」。

從尿布與啤酒,再到王八機與杜鵑卡

資料探勘最為人所熟知的一個經典例子,叫作「尿布與啤酒」,大意是說,進入電子時代了以後,賣場的盤點變得輕鬆許多,因為每一筆消費都留有電子記錄,但是賣場的經理意外發現:有非常多的消費者在買了尿布的同時也購買了啤酒,這看起來是非常匪夷所思的事情,如果買了啤酒同時買了開瓶器,或是買了啤酒同時買了下酒菜就顯得非常容易理解。但是管它好不好理解!對於需要營利的賣場而言,他們已經需要把它反應到銷售策略上來大賺一票,因此他們就掛出了一個令常人無法理解的告示:「尿布啤酒一起買,再享優惠九折」,雖然連賣場的經理都沒有辦法理解為什麼這樣會比較好賣,但是「在正確的商品上作搭配促銷」的確讓賣場賺進了大把鈔票。商場不用「急著」知道為什麼,而更重要的是要在想通「為什麼」之前知道「怎麼做」。尿布與啤酒的潛在關聯性就是被資料探勘技術給發掘出來的,直到後來有學者去調查這件事的前因後果,才大致發現了它背後所潛藏的「文化」:這些同時購買尿布和啤酒的常常是新手爸媽,因為他們週末要顧小孩的緣故,沒有辦法出門踏青或是聚餐,只能宅在家裡看球賽,而啤酒是用來配球賽而不是用來配尿布的,但是尿布指向了小孩,小孩限制了父母的週末休閒活動,因此才間接反應到啤酒上頭。

……

而資料探勘可以應用的有趣例子實在太多了,除了「尿布與啤酒」以外,它還有一個很經典的案例是用在處理信用卡詐騙之上。早期的大哥大手機剛剛普及的時候,大家也許聽過一個很不堪的名詞,叫作「王八機」,這個名字雖然取得非常難登大雅之堂,卻傳神至極,所謂王八機就是「你打電話別人付帳」(影射「你生小孩別人養」)的概念,而站在付帳者的角度,他養了別人的孩子(帳單)卻渾然無所覺。王八機是怎麼做到的呢?筆者沒有深入研究,但我會猜它是非法複製了一張和真正的門號持有者完全相同的SIM卡,只是這種情況下你只能撥打卻不能接聽,否則你的犯罪行為就會被發現。而信用卡的盜刷則就更猖獗了,為什麼?在現代這種電子商務時代,信用卡變成了網購的必備工具,但在這種情況下犯罪者根本不需要大費周章地複製你的信用卡,他只要能完全掌握你的信用卡號碼及個資就好,泰半的信用卡網站都是「認卡不認人」的。(相較於「王八機」,筆者會想要替信用卡偽卡取一個文雅一點的專有名詞,叫作「杜鵑卡」,杜鵑鳥被公認是一種行徑惡劣的鳥,因為牠會在別的鳥巢裡下蛋以掉包原本的鳥蛋,於是別的鳥爸鳥媽就渾然無所覺地把牠的孩子當成自己的養大。)

這雖然不是鼓吹犯罪,但是我們卻必須「模擬」一下,如果你的手上有一張所謂的「杜鵑卡」,你會怎麼使用它?我相信絕對沒有人會拿它去網購買任何昻貴的東西,因為信用卡的真正持有人只要發現自己的信用卡突然被刷爆了,他立刻會警覺到自己的卡被盜用,因此上門的不會是送貨員而會是警察。相較之下,在現代這種忙碌的工商業社會,許許多多的信用卡持有者檢視自己的帳單時候常常不會逐項確認明細(因為甚至有可能他自己都記不得,或者是,我們來講一個成年人的秘密:如果一個成年人有用信用卡購買了任何「不好意思讓人知道的商品」的話,線上商家通常都會很貼心地跟你強調及保證「信用卡帳單上絕對不會出現任何不雅字眼」,於是「你的帳單上會出現陌生的消費項目但是你卻心知肚明那是什麼」,這是有可能會發生的事。只是一旦有這種消費習慣的成年人,他也會對「陌生的消費記錄」失去戒心,因此也成了偽卡集團可鑽的漏洞),而只會看看總金額是否合理。

於是,所謂「杜鵑卡」的持有者,很有可能會做一些微不足道或極不起眼的小額消費(甚至現在許多信用卡是「小額消費免簽名」,則盜卡者更可能明目張膽地拿著偽卡去使用),或是將它綁定在一些無法追查來源的付費網站訂閱上頭,換言之,「盜刷信用卡」的「安全模式」常常是有跡可循的。在早些年代,發卡銀行每天會面臨數以萬計的消費記錄,通常發卡銀行會要求持卡人「自主警覺」,也就是當你將卡片掛失的時候,銀行願意吸收某一個時段(比方說:你掛失時間點起算的的24小時以前)之內被盜刷的金額,通常這是透過「保險」處理掉的。(那是最早的年代,但自從「手機」開始普及了以後,銀行則通常能夠做到「善意確認」,也就是你刷了大筆金額的時候打通電話問你是不是真的有這筆消費。)

可是隨著資料探勘技術的發達,發卡銀行變成也可以「協助警覺」,因為他們可以從數以萬計的消費記錄當中先過濾出「可疑」的消費記錄。我剛剛提到,發卡銀行在持卡者作巨額消費時會來電確認,甚至現在的信用卡消費確認電話進步到什麼程度呢?你會發現它是電腦語音打來的,但你只要跟他講「是」或「不是」,它會辨識你的回答(怎麼做到的,請參見「你的Siri真的聽得懂你的話嗎?──自然語言處理的奧妙一章」)。這麼說來的話,銀行人手不足的問題好像得到解決,可是站在消費者的角度,如果連小額消費銀行都要打電話問你的話,你一定覺得煩都煩死了。所以發卡銀行不論能不能將消費行為確認這樣的動作交給機器人來做,他們都還是只會針對「可疑」的消費記錄才向持卡者電話確認。

您曾經瀏覽過的商品

購物須知

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:90 288
庫存:1

暢銷榜

客服中心

收藏

會員專區