本帖最后由 考研論壇 于 2015-5-28 11:57 編輯
寫在前面:很多人認(rèn)為語言學(xué)是人文類學(xué)科,但其實(shí)并不是這樣,它也需要許多數(shù)理學(xué)的輔助。今天我就和大家分享一下統(tǒng)計(jì)學(xué)和語言學(xué)結(jié)合后的內(nèi)容,這篇文章還挺有意思的呢!
1.png (92.52 KB, 下載次數(shù): 42)
下載附件
2015-5-28 11:57 上傳
語言學(xué)是數(shù)學(xué)和人文科學(xué)之間的橋梁。 ——[法] 數(shù)學(xué)家阿達(dá)瑪(J.Hadamard)
一、統(tǒng)計(jì)學(xué)下的創(chuàng)作調(diào)侃
幾年前,從網(wǎng)上有篇很火的文章,題目叫做《文科生終于可以被消滅了》。是一位程序員心血來潮地對(duì)《全宋詞》中的兩字詞語做了頻率統(tǒng)計(jì),并取了頻率最高的前100名。[1]
數(shù)據(jù)統(tǒng)計(jì)結(jié)果的前24名制成表格后顯示如下:
(注:排名第一的“**”為無效詞)
接下來,這位網(wǎng)友指出,使用一個(gè)最基本的無理數(shù),就能寫下一手頗有意境的宋詞[2]:
《清平樂·圓周率》
回首明月
14 15
悠悠心事空
92 65
西湖何事寂寞中
35 89 79
風(fēng)吹斜陽匆匆
32 38 46
自然,這樣的創(chuàng)作失去了文學(xué)的真情,也不一定符合格律。但對(duì)語言學(xué)家來說,統(tǒng)計(jì)學(xué)方法的確具有很大的啟發(fā)性。
制作上述表格的時(shí)候,小編注意到,關(guān)于回憶、孤獨(dú)的詞語和凄涼、冷清的意象成為宋詞中出現(xiàn)頻率最高的詞匯。這樣的表格,更加直觀并且客觀地反應(yīng)了當(dāng)時(shí)文人墨客的傷春懷秋的心情,隨之展現(xiàn)出當(dāng)時(shí)的時(shí)代特征。
千百年來,不同的語言逐漸形成了自己的規(guī)律與體系。然而這個(gè)過程是緩慢且無意識(shí)的,語言含義的繁復(fù)性與多樣性,讓研究工作變得非常龐大。面臨古今中外宏大的文學(xué)寶庫或者語言資料時(shí),即使是學(xué)者,單憑自己的感受和記憶,也不能有效整理大量的信息。
而借助數(shù)學(xué)的客觀性,或許能夠幫助我們找到語言發(fā)展的脈絡(luò),或是從整體上宏觀地分析一個(gè)時(shí)代的語言。
二、幾個(gè)運(yùn)用統(tǒng)計(jì)學(xué)研究語言的小例子
小編原來看過一本書,叫做《語言與數(shù)學(xué)》[3]。里面有一個(gè)章節(jié)論述了語言符號(hào)與統(tǒng)計(jì)數(shù)學(xué)的關(guān)系。書中指出,語言符號(hào)具有極強(qiáng)的隨機(jī)性。那么自然,可以引進(jìn)統(tǒng)計(jì)學(xué)的知識(shí)對(duì)它進(jìn)行統(tǒng)計(jì)和分析。
也許想不到,有了統(tǒng)計(jì)學(xué)做武器,語言學(xué)家可以做出許多有價(jià)值的分析:
——可以通過研究漢語語音中聲母與韻母的統(tǒng)計(jì),繪制漢語中五個(gè)聲調(diào)在一個(gè)單字里的音節(jié)分布直方圖,得出漢語的發(fā)聲規(guī)律。由此得出漢語富有音樂性的奧秘所在。
——可以通過對(duì)中國十七個(gè)城市方言的聲母、韻母以及聲調(diào)的分析,得到漢語各方言之間的親屬關(guān)系的聚類樹形圖。以清晰地展現(xiàn)各大方言的組合情況,找出各地的人學(xué)習(xí)普通話時(shí)容易出現(xiàn)的不同問題。
——可以通過對(duì)基本詞匯保留情況的百分比估算出語言的起源時(shí)間,也可以將英語與德語基本詞匯保留情況百分比代入公式,估計(jì)出它們大約在公元六世紀(jì)時(shí)開始分化。
三、計(jì)算風(fēng)格學(xué)與作者考證
以上幾種研究的公式都比較復(fù)雜,有興趣的讀者可以參考原書。下面,小編為大家介紹其中一種稍微簡(jiǎn)單一點(diǎn)的“計(jì)算風(fēng)格學(xué)”(1964年提出)。
首先,有人分析過22部風(fēng)格迥異的,包括文學(xué)、文學(xué)理論、哲學(xué)、經(jīng)濟(jì)學(xué)、考古學(xué)和自然科學(xué)的德語作品。統(tǒng)計(jì)其平均詞長(音節(jié)總數(shù)/單詞總數(shù))和平均句長(單詞總數(shù)/句子總數(shù))。
(注:《意》為《意大利游記》,《赫》為《赫爾曼與多羅苔》,《詩》為《詩與真實(shí)》。) 看到這份統(tǒng)計(jì)表,我們可以非常直觀地說:1)由18世紀(jì)到20世紀(jì)德語的書面語句子在逐漸變短;2)人文科學(xué)和社會(huì)科學(xué)的作品句長要長于文學(xué)作品;3)句長和詞長沒有直接聯(lián)系;以及4)歌德的作品風(fēng)格如此多變…
通過這樣的分析,我們直觀地感受到了不同文體與不同作者的風(fēng)格,而不僅僅是給出一系列描述詞來闡述文體間的差異。
這種統(tǒng)計(jì)學(xué)的方法也被成功地運(yùn)用到“作者考證”這個(gè)充滿爭(zhēng)議的研究領(lǐng)域中。以往,某本名著的作者產(chǎn)生爭(zhēng)議時(shí),我們只能夠憑借經(jīng)驗(yàn)和歷史文獻(xiàn)、作家生平記錄來進(jìn)行考證。如今有了計(jì)算風(fēng)格學(xué),我們可以拿出嚴(yán)謹(jǐn)而有說服力的證據(jù)。
《靜靜的頓河》的作者曾在肖洛霍夫和克留柯夫之間存在爭(zhēng)議。然而當(dāng)學(xué)者采取了肖洛霍夫、克留柯夫其它作品和《靜靜的頓河》中140, 000個(gè)單詞的樣品之后,對(duì)其句長、語言要素(主謂賓定狀補(bǔ))在句子中的位置以及詞頻進(jìn)行了統(tǒng)計(jì)和分析,發(fā)現(xiàn)肖洛霍夫的作品風(fēng)格與《靜靜的頓河》幾乎完全吻合。這就比任何謠言和匿名的誹謗信都更能說明真正的作者是誰。也比學(xué)者的學(xué)術(shù)考證更能讓公眾普遍接受和信服。
讀者們一定十分熟悉《紅樓夢(mèng)》的作者之爭(zhēng)。從前,普遍的說法是,《紅樓夢(mèng)》的后四十回系高鶚?biāo)鳌H欢@個(gè)結(jié)論遭到了進(jìn)入文學(xué)研究領(lǐng)域的統(tǒng)計(jì)學(xué)的挑戰(zhàn)。1981年美國威斯康星大學(xué)的講師陳炳藻發(fā)表論文《從詞匯上的統(tǒng)計(jì)論<紅樓夢(mèng)>的作者問題》。通過對(duì)重要關(guān)鍵詞的詞頻統(tǒng)計(jì)與分析得出后四十回仍為曹雪芹所寫的結(jié)論。[4]
同樣的分析也發(fā)生在美國。美國歷史上,有12篇?dú)v史文獻(xiàn)署名“聯(lián)邦主義者”。為了找出這個(gè)人的真實(shí)身份,數(shù)學(xué)家也利用統(tǒng)計(jì)學(xué),將兩位候選人漢密爾頓與麥迪遜的虛詞使用頻率進(jìn)行了對(duì)比。發(fā)現(xiàn)漢密爾頓喜歡用“while”,而麥迪遜喜歡用“whilst”;漢密爾頓常用“upon”和“enough”,而麥迪遜則幾乎不用。最終,漢密爾頓的風(fēng)格特征與“聯(lián)邦主義者”合拍,解決了這個(gè)長時(shí)間困擾美國的問題。
這些,都是離開了統(tǒng)計(jì)學(xué)后,我們難以得到的結(jié)論。
四、你也可以來點(diǎn)統(tǒng)計(jì)方法
那位程序員的統(tǒng)計(jì)使宋詞的樣貌變得簡(jiǎn)單起來。雖然這種用模板寫詩的方式實(shí)在不可取,不過我們?nèi)匀豢梢酝ㄟ^這些系統(tǒng)化的分析研究更多關(guān)于語言學(xué)的問題。
比如,通過統(tǒng)計(jì)二十世紀(jì)英美詩人(如奧登、王爾德、艾略特等人)詩作里相似詞性與句長的統(tǒng)計(jì)分析,可以比較這些人之間的相互影響程度。
比如,統(tǒng)計(jì)莎士比亞作品中最常出現(xiàn)的意象,以了解這位偉大的詩人和作家生平最關(guān)注的事物——這也許是莎翁自己都不甚了解的。
比如,可以研究某種語言(如蓋爾語)與其平行分支的相似性,追溯其共同的源頭,來復(fù)原、拯救和保存這些瀕危的語種。
正如國外的新聞媒體會(huì)將一年的新聞熱點(diǎn)詞匯進(jìn)行頻率統(tǒng)計(jì),選出“年度單詞”,歷史學(xué)家也曾將過去幾個(gè)世紀(jì)不同時(shí)期的詞匯進(jìn)行頻率統(tǒng)計(jì),從詞語使用的逐漸變化中,清晰的看出人類發(fā)展的歷程。
同樣,統(tǒng)計(jì)學(xué)也為語言研究帶來了實(shí)用的方法。當(dāng)語言學(xué)遇見統(tǒng)計(jì)學(xué),就好像遇見了一位理智的引導(dǎo)者。像一切探索本質(zhì)的旅程一樣,往往會(huì)有意料之外的發(fā)現(xiàn)。
參考資料:
1.yixuan,《東風(fēng)何處是人間》,2011年3月2日
2.魯西西的北,《文科生終于可以被消滅了!》,2011年12月2日
3.馮志偉,《語言與數(shù)學(xué)》,世界圖書出版社,2011年1月第1版
4.葛斌華,梁超,武修文,《數(shù)學(xué)文化漫談》,經(jīng)濟(jì)科學(xué)出版社,2009年10月第1版 【本文轉(zhuǎn)自語言學(xué)午餐】
|