2011年1月5日 星期三

萬卷書變身文化晴雨計

不建高鐵,香港怕被邊緣化;不建第三條跑道,怕航空樞紐地位不保;內地發展金融業,怕丟失金融中心的名銜;徵收遺產稅,怕資金逃往新加坡。

說得好聽一點,香港「居安慮危」,正合溫總的訓示。從壞處看,香港人心惶惶,草木皆兵,我們真是這樣不濟嗎?

市場學有所謂「品牌知名度」,最重要是人家知道你的存在,聽過你的名字,你有話題談論;一個有價值的品牌,必須街知巷聞。香港堪稱亞洲國際都會,是否名符其實呢?在外國人心目中,亞洲哪個城市最具知名度?

網上最大搜尋器谷歌,正在掃瞄數以百萬計的書本,讓網民查閱,至今共掃瞄超過一千五百萬本(所有書的 12%),出版日期遠至四百多年前;這一大堆文字經過整理,可供各式各樣的統計和研究,片言隻字、流行用語、各類名詞、動詞、形容詞的興衰起跌,標誌着文化的變遷。

一千五百萬本書,沒可能人手整理,谷歌採用字體辨識技術,把工序自動化。由於紙張、印刷等參差,只有約五百萬本(所有書的 4%)的掃瞄質素容許自動辨識,其中英文居多,法文、西班牙文、德文、中文、俄文、希伯來文都有,最舊的書籍遠至十六世紀。早期每年只得寥寥數本作品,不夠字數作有意義的統計,1800 年增至每年六千萬字,1900 年達十四億字,2000 年達八十億字。八十億字有多少?通常洋人每分鐘閱讀 200 字,不吃不睡也要八十年才讀完;不要忘記,這只是所有書的 4%,是現代「資訊泛濫」的另一寫照。

普通人都可以查看這些資料,谷歌有個 Books Ngram Viewer,只要輸入詞彙,便可看到歷年用字的興衰起跌。單字叫「1-gram」,兩個字的 phrase 叫「2-gram」,三個字的 phrase 叫「3-gram」,如此類推,故有「Ngram Viewer」之名,不僅可以查看單字的頻率,也可查看 phrase 的頻率。

亞洲哪個城市最具知名度?香港的對手,我首先想起新加坡,再而東京,我輸入「Hong Kong,Singapore,Tokyo」,得下圖:


可見香港在八十年代超越新加坡,數年後再超越東京。東京由 1990 年開始下滑,相信與日本經濟衰落不無關係。留意上圖截至 2000 年,十年人事幾番新,近十年的知名度有何變化,圖中沒有顯示。據我的觀察,Ngram Viewer 的數據近至 2008 年,可是 2000 年後三個城市的「見書率」不約而同大幅下滑,我懷疑谷歌尚未完全掃瞄近期書籍,2000 年後的數據暫時未必完整。那 2000 年的數據肯定完整嗎?以 2000 年為截止有何根據?首先,Ngram Viewer 的預設年期為 1800 年至 2000 年。其次,一篇在學術期刊 Science 發表、以谷歌數據作基礎的研究也用 1800 年至 2000 年這個時段,看來以 2000 年作結應該是準確的。

中國城市中,香港知名度又如何?對手城市,我想起上海和北京,北京舊譯「Peking」,現譯「Beijing」,我輸入「Hong Kong,Shanghai,Peking,Beijing」,得下圖:


三、四十年代是上海的輝煌歲月。此外,留意「Beijing」在七十年代開始採用,代替沿用了一百五十年的「Peking」,上圖見證了慣用譯名的演變。

文首提過「邊緣化」一詞,來自英語「marginalized」或「marginalised」,這是近三十年才流行的用語,哪個串法較通行呢?


Ngram Viewer 也可搜尋中文字,它註明是「Chinese (simplified)」,令人以為只可搜尋簡體字,其實它繁簡體均適用,可是繁簡不能互通。舉例,輸入「國」字,它只會搜尋這個繁體字,不包括簡體;輸入「国」字,它只會搜尋這個簡體字,不包括繁體。繁簡體均可搜尋,但是獨立不互通。同時搜尋「國」和「国」,便知道繁體何時沒落,簡體何時興起。

已掃瞄的中文書籍,先於五十年代的十分少,不夠字數作有意義的統計,因此我把年限定為 1960 年之後。國內言文,強調人民、黨、國家、社會等概念,哪個最常提及呢?我輸入「人民,党,国家,社会」,得下圖:


黨包尾,有點驚喜。人民漸次低於社會和國家,是不是好現象呢?

溫家寶早前大談民主,大家不必見怪。下圖顯示,民主斷斷續續談了四十年,但一談改革,是經濟改革居多;民主依然在談,民主改革免問。


最後順帶一提,如果搜尋「共产主义」,必須在「共产」與「主义」之間加一個空白,這是英語主導的「後遺症」。上面說過,谷歌用字體辨識軟件分析掃瞄影象,英文詞與詞之間以空白分隔,非常易辦;中文沒有分隔詞語,辨識軟件看見「共产主义」四字,怎知是「共」「产主义」、「共产」「主义」還是「共产主」「义」呢?有些叫「segmenter」的軟件,懂得「共产」為一常用詞,「主义」為另一常用詞,故在兩詞之間加一個「虛擬」的空白,讓辨識軟件能把英文的分詞法用於中文。「共产主义」四字,載到資料庫裡拆成三行:「共产」這個單詞(1-gram)出現一次,「主义」這個單詞出現一次,「共产」「主义」這個雙詞 phrase(2-gram)出現一次。為了迎合資料庫的「口味」,當搜尋「共产主义」,我們必須主動分詞,在中間加一空白,資料庫才知道我們真正想搜尋什麼。

Ngram Viewer 很好玩,大家上網試試吧。

(2011 年 1 月 5 日 信報副刊)

學術參考:
Jean-Baptiste Michel, et al. (2010), “Quantitative Analysis of Culture Using Millions of Digitized Books,” Science. doi:10.1126/science.1199644

其他報導:Technology Review, Science News, Seed Magazine, Not Exactly Rocket Science, ars technica

免費贈送多幾幅圖……

那個中國聲稱屬於中國,日本聲稱屬於日本的地方,應該叫作「钓鱼台」,還是「钓鱼岛」?



二次大戰三巨頭加毛主席,誰最有名?(留意,羅斯福總統的父親堂兄也是美國總統,那 1920 年的「山頭」應該屬於他父親堂兄。此外,「Churchill」很明顯有其他用途,可能是地方名吧。)



資本主義、共產主義、法西斯主義、社會主義,哪種意識形態歷久常新?

7 則留言:

  1. 香港的見書率到1996,1997年去到接近頂峰。

    回覆刪除
  2. 出乎意料,我去歐洲幾國遊歷時,唔少歐洲人竟然都識香港!似乎香港的知名度冇一般人想像中咁低!

    回覆刪除
  3. 對,大細楷有分別的,人名和地名記住要大楷開頭。

    回覆刪除
  4. 兩個羅斯福總統是遠房堂兄弟,不是父子!

    回覆刪除
  5. 噢,對不起,多謝柏卓力哥夫提點。

    http://www.whitehouse.gov/about/presidents/franklindroosevelt

    http://en.wikipedia.org/wiki/Roosevelt_family

    回覆刪除
  6. 噢,再對不起,譯錯了你的名字,派翠可夫。

    回覆刪除