精品日本亚洲一区二区三区,伊人久久狼人色精品无码 ,日鲁夜鲁天天鲁视频,国产精品久久亚洲,秋霞理论理论福利院久久,国产日韩欧美视频一区二区三区,色九九,国产精品美女久久久久久免费 ,九九干,韩国精品一区二区三区

考研論壇

 
查看: 4755|回復(fù): 4
打印 上一主題 下一主題

[其他] 當(dāng)語言學(xué)遇上統(tǒng)計(jì)學(xué)

[復(fù)制鏈接]

26

主題

28

帖子

108

積分

一般戰(zhàn)友

Rank: 2

精華
0
威望
0
K幣
108 元
注冊(cè)時(shí)間
2014-2-1
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 2015-5-28 11:53 | 只看該作者 |只看大圖 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
本帖最后由 考研論壇 于 2015-5-28 11:57 編輯

  寫在前面:很多人認(rèn)為語言學(xué)是人文類學(xué)科,但其實(shí)并不是這樣,它也需要許多數(shù)理學(xué)的輔助。今天我就和大家分享一下統(tǒng)計(jì)學(xué)和語言學(xué)結(jié)合后的內(nèi)容,這篇文章還挺有意思的呢!


      語言學(xué)是數(shù)學(xué)和人文科學(xué)之間的橋梁。  ——[法] 數(shù)學(xué)家阿達(dá)瑪(J.Hadamard)
  一、統(tǒng)計(jì)學(xué)下的創(chuàng)作調(diào)侃
  幾年前,從網(wǎng)上有篇很火的文章,題目叫做《文科生終于可以被消滅了》。是一位程序員心血來潮地對(duì)《全宋詞》中的兩字詞語做了頻率統(tǒng)計(jì),并取了頻率最高的前100名。[1]
  數(shù)據(jù)統(tǒng)計(jì)結(jié)果的前24名制成表格后顯示如下:

排名

詞語及其出現(xiàn)頻率

排名

詞語及其出現(xiàn)頻率

排名

詞語及其出現(xiàn)頻率

排名

詞語及其出現(xiàn)頻率

1

**  1485

2

東風(fēng)1382

3

何處1230

4

人間1202

5

風(fēng)流 857

6

歸去 812

7

春風(fēng) 802

8

西風(fēng) 779

9

歸來 771

10

江南 765

11

相思 753

12

梅花 732

13

千里 676

14

回首 656

15

明月 651

16

多少 648

17

如今 642

18

闌干 630

19

年年 613

20

萬里 590

21

一笑 582

22

黃昏 550

23

當(dāng)年 542

24

天涯 537

(注:排名第一的“**”為無效詞)    
  
      接下來,這位網(wǎng)友指出,使用一個(gè)最基本的無理數(shù),就能寫下一手頗有意境的宋詞[2]:
  《清平樂·圓周率》
  回首明月
  14 15
  悠悠心事空
  92 65
  西湖何事寂寞中
  35 89 79
  風(fēng)吹斜陽匆匆

  32 38 46
  自然,這樣的創(chuàng)作失去了文學(xué)的真情,也不一定符合格律。但對(duì)語言學(xué)家來說,統(tǒng)計(jì)學(xué)方法的確具有很大的啟發(fā)性。
  制作上述表格的時(shí)候,小編注意到,關(guān)于回憶、孤獨(dú)的詞語和凄涼、冷清的意象成為宋詞中出現(xiàn)頻率最高的詞匯。這樣的表格,更加直觀并且客觀地反應(yīng)了當(dāng)時(shí)文人墨客的傷春懷秋的心情,隨之展現(xiàn)出當(dāng)時(shí)的時(shí)代特征。
  千百年來,不同的語言逐漸形成了自己的規(guī)律與體系。然而這個(gè)過程是緩慢且無意識(shí)的,語言含義的繁復(fù)性與多樣性,讓研究工作變得非常龐大。面臨古今中外宏大的文學(xué)寶庫或者語言資料時(shí),即使是學(xué)者,單憑自己的感受和記憶,也不能有效整理大量的信息。
  而借助數(shù)學(xué)的客觀性,或許能夠幫助我們找到語言發(fā)展的脈絡(luò),或是從整體上宏觀地分析一個(gè)時(shí)代的語言。

  二、幾個(gè)運(yùn)用統(tǒng)計(jì)學(xué)研究語言的小例子
  小編原來看過一本書,叫做《語言與數(shù)學(xué)》[3]。里面有一個(gè)章節(jié)論述了語言符號(hào)與統(tǒng)計(jì)數(shù)學(xué)的關(guān)系。書中指出,語言符號(hào)具有極強(qiáng)的隨機(jī)性。那么自然,可以引進(jìn)統(tǒng)計(jì)學(xué)的知識(shí)對(duì)它進(jìn)行統(tǒng)計(jì)和分析。
  也許想不到,有了統(tǒng)計(jì)學(xué)做武器,語言學(xué)家可以做出許多有價(jià)值的分析:
  ——可以通過研究漢語語音中聲母與韻母的統(tǒng)計(jì),繪制漢語中五個(gè)聲調(diào)在一個(gè)單字里的音節(jié)分布直方圖,得出漢語的發(fā)聲規(guī)律。由此得出漢語富有音樂性的奧秘所在。
  ——可以通過對(duì)中國十七個(gè)城市方言的聲母、韻母以及聲調(diào)的分析,得到漢語各方言之間的親屬關(guān)系的聚類樹形圖。以清晰地展現(xiàn)各大方言的組合情況,找出各地的人學(xué)習(xí)普通話時(shí)容易出現(xiàn)的不同問題。
  ——可以通過對(duì)基本詞匯保留情況的百分比估算出語言的起源時(shí)間,也可以將英語與德語基本詞匯保留情況百分比代入公式,估計(jì)出它們大約在公元六世紀(jì)時(shí)開始分化。

  三、計(jì)算風(fēng)格學(xué)與作者考證
  以上幾種研究的公式都比較復(fù)雜,有興趣的讀者可以參考原書。下面,小編為大家介紹其中一種稍微簡(jiǎn)單一點(diǎn)的“計(jì)算風(fēng)格學(xué)”(1964年提出)。
  首先,有人分析過22部風(fēng)格迥異的,包括文學(xué)、文學(xué)理論、哲學(xué)、經(jīng)濟(jì)學(xué)、考古學(xué)和自然科學(xué)的德語作品。統(tǒng)計(jì)其平均詞長(音節(jié)總數(shù)/單詞總數(shù))和平均句長(單詞總數(shù)/句子總數(shù))。

序號(hào)

作者

平均詞長

平均句長

序號(hào)

作者

平均詞長

平均句長

1

凱斯特奈

1.732

8.432

12

索墨菲爾德

2.100

21.597

2

里爾克

1.451

8.747

13

紹爾

2.270

22.600

3

法拉達(dá)

1.530

10.676

14

歌德《意》

1.715

22.724

4

封丹奈

1.724

14.440

15

歌德《赫》

1.575

22.825

5

施托姆

1.631

18.825

16

普朗克

2.019

23.531

6

托馬斯·曼

1.804

18.850

17

霍夫曼

1.721

24.868

7

沙米索

1.612

19.754

18

艾森多夫

1.566

24.900w

8

海斯

1.716

20.011

19

歌德《詩》

1.686

29.100

9

海森堡

1.919

20.530

20

黑格爾

1.836

21.381

10

豪夫

1.645

20.700

21

馬克思

2.021

32.688

11

愛因斯坦

1.929

21.097

22

施里曼

1.892

42.134

(注:《意》為《意大利游記》,《赫》為《赫爾曼與多羅苔》,《詩》為《詩與真實(shí)》。)
  看到這份統(tǒng)計(jì)表,我們可以非常直觀地說:1)由18世紀(jì)到20世紀(jì)德語的書面語句子在逐漸變短;2)人文科學(xué)和社會(huì)科學(xué)的作品句長要長于文學(xué)作品;3)句長和詞長沒有直接聯(lián)系;以及4)歌德的作品風(fēng)格如此多變…
  通過這樣的分析,我們直觀地感受到了不同文體與不同作者的風(fēng)格,而不僅僅是給出一系列描述詞來闡述文體間的差異。
  這種統(tǒng)計(jì)學(xué)的方法也被成功地運(yùn)用到“作者考證”這個(gè)充滿爭(zhēng)議的研究領(lǐng)域中。以往,某本名著的作者產(chǎn)生爭(zhēng)議時(shí),我們只能夠憑借經(jīng)驗(yàn)和歷史文獻(xiàn)、作家生平記錄來進(jìn)行考證。如今有了計(jì)算風(fēng)格學(xué),我們可以拿出嚴(yán)謹(jǐn)而有說服力的證據(jù)。
  《靜靜的頓河》的作者曾在肖洛霍夫和克留柯夫之間存在爭(zhēng)議。然而當(dāng)學(xué)者采取了肖洛霍夫、克留柯夫其它作品和《靜靜的頓河》中140, 000個(gè)單詞的樣品之后,對(duì)其句長、語言要素(主謂賓定狀補(bǔ))在句子中的位置以及詞頻進(jìn)行了統(tǒng)計(jì)和分析,發(fā)現(xiàn)肖洛霍夫的作品風(fēng)格與《靜靜的頓河》幾乎完全吻合。這就比任何謠言和匿名的誹謗信都更能說明真正的作者是誰。也比學(xué)者的學(xué)術(shù)考證更能讓公眾普遍接受和信服。
  讀者們一定十分熟悉《紅樓夢(mèng)》的作者之爭(zhēng)。從前,普遍的說法是,《紅樓夢(mèng)》的后四十回系高鶚?biāo)鳌H欢@個(gè)結(jié)論遭到了進(jìn)入文學(xué)研究領(lǐng)域的統(tǒng)計(jì)學(xué)的挑戰(zhàn)。1981年美國威斯康星大學(xué)的講師陳炳藻發(fā)表論文《從詞匯上的統(tǒng)計(jì)論<紅樓夢(mèng)>的作者問題》。通過對(duì)重要關(guān)鍵詞的詞頻統(tǒng)計(jì)與分析得出后四十回仍為曹雪芹所寫的結(jié)論。[4]
  同樣的分析也發(fā)生在美國。美國歷史上,有12篇?dú)v史文獻(xiàn)署名“聯(lián)邦主義者”。為了找出這個(gè)人的真實(shí)身份,數(shù)學(xué)家也利用統(tǒng)計(jì)學(xué),將兩位候選人漢密爾頓與麥迪遜的虛詞使用頻率進(jìn)行了對(duì)比。發(fā)現(xiàn)漢密爾頓喜歡用“while”,而麥迪遜喜歡用“whilst”;漢密爾頓常用“upon”和“enough”,而麥迪遜則幾乎不用。最終,漢密爾頓的風(fēng)格特征與“聯(lián)邦主義者”合拍,解決了這個(gè)長時(shí)間困擾美國的問題。
  這些,都是離開了統(tǒng)計(jì)學(xué)后,我們難以得到的結(jié)論。

  四、你也可以來點(diǎn)統(tǒng)計(jì)方法
  那位程序員的統(tǒng)計(jì)使宋詞的樣貌變得簡(jiǎn)單起來。雖然這種用模板寫詩的方式實(shí)在不可取,不過我們?nèi)匀豢梢酝ㄟ^這些系統(tǒng)化的分析研究更多關(guān)于語言學(xué)的問題。
  比如,通過統(tǒng)計(jì)二十世紀(jì)英美詩人(如奧登、王爾德、艾略特等人)詩作里相似詞性與句長的統(tǒng)計(jì)分析,可以比較這些人之間的相互影響程度。
  比如,統(tǒng)計(jì)莎士比亞作品中最常出現(xiàn)的意象,以了解這位偉大的詩人和作家生平最關(guān)注的事物——這也許是莎翁自己都不甚了解的。
  比如,可以研究某種語言(如蓋爾語)與其平行分支的相似性,追溯其共同的源頭,來復(fù)原、拯救和保存這些瀕危的語種。
  正如國外的新聞媒體會(huì)將一年的新聞熱點(diǎn)詞匯進(jìn)行頻率統(tǒng)計(jì),選出“年度單詞”,歷史學(xué)家也曾將過去幾個(gè)世紀(jì)不同時(shí)期的詞匯進(jìn)行頻率統(tǒng)計(jì),從詞語使用的逐漸變化中,清晰的看出人類發(fā)展的歷程。
  同樣,統(tǒng)計(jì)學(xué)也為語言研究帶來了實(shí)用的方法。當(dāng)語言學(xué)遇見統(tǒng)計(jì)學(xué),就好像遇見了一位理智的引導(dǎo)者。像一切探索本質(zhì)的旅程一樣,往往會(huì)有意料之外的發(fā)現(xiàn)。

  參考資料:
  1.yixuan,《東風(fēng)何處是人間》,2011年3月2日
  2.魯西西的北,《文科生終于可以被消滅了!》,2011年12月2日
  3.馮志偉,《語言與數(shù)學(xué)》,世界圖書出版社,2011年1月第1版
  4.葛斌華,梁超,武修文,《數(shù)學(xué)文化漫談》,經(jīng)濟(jì)科學(xué)出版社,2009年10月第1版
     【本文轉(zhuǎn)自語言學(xué)午餐】


    回復(fù)

    使用道具 舉報(bào)

    162

    主題

    1萬

    帖子

    5萬

    積分

    論壇元老

    Rank: 7Rank: 7Rank: 7

    精華
    3
    威望
    18106
    K幣
    32053 元
    注冊(cè)時(shí)間
    2014-7-27

    池塘

    沙發(fā)
    發(fā)表于 2015-5-28 12:36 | 只看該作者
    有趣
    回復(fù)

    使用道具 舉報(bào)

    2

    主題

    65

    帖子

    208

    積分

    一般戰(zhàn)友

    Rank: 2

    精華
    0
    威望
    0
    K幣
    208 元
    注冊(cè)時(shí)間
    2016-2-15
    板凳
    發(fā)表于 2016-2-18 13:21 | 只看該作者
    統(tǒng)計(jì)學(xué)考研有哪些方向?求指導(dǎo)
    回復(fù)

    使用道具 舉報(bào)

    0

    主題

    83

    帖子

    110

    積分

    一般戰(zhàn)友

    Rank: 2

    精華
    0
    威望
    2
    K幣
    108 元
    注冊(cè)時(shí)間
    2017-2-4
    地板
    發(fā)表于 2017-3-14 20:29 | 只看該作者
    有意思誒!
    回復(fù)

    使用道具 舉報(bào)

    0

    主題

    83

    帖子

    110

    積分

    一般戰(zhàn)友

    Rank: 2

    精華
    0
    威望
    2
    K幣
    108 元
    注冊(cè)時(shí)間
    2017-2-4
    5
    發(fā)表于 2017-3-14 20:29 | 只看該作者
    {:1_155:}
    回復(fù)

    使用道具 舉報(bào)

    您需要登錄后才可以回帖 登錄 | 注冊(cè) 人人連接登陸

    本版積分規(guī)則   

    關(guān)閉

    您還剩5次免費(fèi)下載資料的機(jī)會(huì)哦~

    掃描二維碼下載資料

    使用手機(jī)端考研幫,進(jìn)入掃一掃
    在“我”中打開掃一掃,
    掃描二維碼下載資料

    關(guān)于我們|商務(wù)合作|小黑屋|手機(jī)版|聯(lián)系我們|服務(wù)條款|隱私保護(hù)|幫學(xué)堂| 網(wǎng)站地圖|院校地圖|漏洞提交|考研幫

    GMT+8, 2026-5-15 13:33 , Processed in 0.085045 second(s), Total 11, Slave 11(Usage:4.5M, Links:[2]1,1_1) queries , Redis On.

    Powered by Discuz!

    © 2001-2017 考研 Inc.

    快速回復(fù) 返回頂部 返回列表
    × 關(guān)閉