2012年4月21日 星期六

統計學家寫讀書報告

英文科要做讀書報告,小明逼不得已來到圖書館,書架放着三本經典名著。

名著一:215,517 字
名著二:75,118 字
名著三:136,955 字

揀哪本好呢?小明討厭看書,第二本最薄當然是不二之選。翻開一看,句子密麻麻的,好像幾頁都沒有分段,令小明卻步。他愛看多分段的文字,頁面多些空白,感覺讀得快一些。

事實上,第二本雖然最薄,但作者最不愛分段。

名著一:215,517 字,平均每段 85.72 字
名著二:75,118 字,平均每段 109.71 字
名著三:136,955 字,平均每段 42.03 字

論分段,第三本分段最短,最合小明的口胃。他應該「理性」地選擇最薄的第二本,還是追求「閱讀感覺良好」的第三本呢?討厭看書的小明被夾在兩本書中間,很痛苦。

為了幫助小明解開困局,我找來更多數據。

 字數平均每段字數平均每句字數平均每字字母字根比率
名著一215,51785.7223.204.400.05085
名著二75,118109.7122.384.420.06504
名著三136,95542.0318.074.250.04796

上表可見,第三本除了分段最短之外,句子和用字都是最短的,雖然最短不一定最淺,但在正式閱讀之前,它們的長短總算是深淺的標誌吧。最後一欄「字根比率」讓我解釋一下:「write」、「writing」、「wrote」、「written」是四個不同的英文字,但它們屬於同一字根(word stem);莎士比亞用的字根肯定比我多,這就是詞彙豐富和貧乏的分別。我把每本名著出現的字根數目除以總字數,就是「字根比率」;「字根比率」愈低表示詞彙愈單一,未必愈淺,但很有可能比較淺。

綜合所有數據,第三本雖然稍長,但它分段最短,句子最短,用詞最短亦最少,小明應看哪一本?你說呢?

故事說完,讀者問:數據是真的嗎?真的話,是哪三本名著?哪裏得來這樣「巨細無遺」的數據?

謎底:名著一是 Herman Melville 的《Moby Dick》,名著二是 Mary Shelley 的《Frankenstein》,名著三是狄更斯的《A Tale of Two Cities》,我中學時代三本都讀過,三本都讀不懂。資料來源為 WolframAlpha 網站(創辦人 Stephen Wolfram 是一名天才,事蹟頗具傳奇性,足以另文介紹),一自稱為 computational knowledge engine 的搜尋器,其與一般搜尋器不同之處是它並非「盲目」列出相關網頁,而是懂得整合出一系列「有意義」的相關資訊,例如輸入某本名著的名稱,除了吐出其作者、出版日、主角等網絡上垂手可得的基本資料外,它更提供一些深入而微的分析,包括每章字數、最常用字、全書最長的字、最長一句、字長分佈、句長分佈等,好像統計學家寫讀書報告;對普通人而言,這些資料有趣卻無甚實用價值,對有硏究需要的人來說(例如我),這是一個寶庫,省去不知多少時間氣力。

WolframAlpha 的資料庫由專人輸入和校對,保證可靠,這是互聯網和維基百科無法比擬的;當然這也是最大的局限,其「知識」無論如何廣博,也無法如互聯網般包羅萬有,例如我嘗試問它「how many novels did Charles Dickens write?」,它只能給我狄更斯的個人介紹,未能直接回答我的問題;問 Google 同一問題,或多或少有個答案。

另一缺點是它不能 copy and paste,下載分析必須加入試用版,試用期完結便要付費,少量數據可以手抄(例如今次),大量硏究便無可奈何得掏腰包了。世上充斥免費資訊,但沒有永遠免費的可靠資訊。

(2012 年 4 月 21 日 信報副刋)

沒有留言:

張貼留言