本帖最后由 首經貿考研校 于 2022-12-2 15:43 編輯
學姐介紹:
一諾學姐,考研初試總分400+,702專業135+,916公共管理綜合140+,初試復試排名前三,善于歸納總結抓住考試重點難點,為考生提供高效學習秘訣和應試技巧,指導同學們精準、高效有戰略的復習。
導論1、統計學
舉例:市場研究,財務分析,經濟預測
統計學是收集、處理、分析、解釋數據并從數據中得出結論的科學。
2、描述統計與推斷統計
(1)描述統計
第三章、第四章
描述統計研究的是數據收集、處理、匯總圖表、描述概括與分析等統計方法。
(2)推斷統計
第七章參數、估計、假設、檢驗
推斷統計是研究如何利用樣本數據來推斷總體特征的統計方法,即抽出部分個體樣本推斷總體特征。
3、統計數據的類型
(1)分類數據
比如:性別男女
它是只能歸于某一類別的非數字型數據,數據表現是類別,是用文字來表述的。
(2)順序數據
比如:一等獎學金、二等獎學金、三等獎學金
它是某一有序類別的非數字型數據,順序數據也是類別,但類別是有序的。
(3)數值型數據
它是按數字尺度測量的觀察值,其結果表現為具體的數值。
分類數據和順序數據說明的是事物的品質特征,通常用文字表述,其結果均表現為類別,因此也稱為定性數據或品質數據;數值型數據說明的是現象的數量特征,通常是用數值來表現的,因此也稱為定量數據或數量數據。
(4)按搜集方法不同,分為觀測數據和實驗數據
①觀測數據
調查、觀測得到的,沒有人為控制條件。
②實驗數據
實驗組、控制組
(5)按時間不同,分為截面數據和時間序列數據
①截面數據
近似時間點:今天不同行業GDP
②時間序列數據
不同時間段:不同年份的GDP
4、統計學中幾個基本概念:
(1)總體:它是包含所研究的全部個體(數據)的集合,組成總體的每一個元素稱為個體。按照總體所包含元素數目可分為有限總體和無限總體。
(2)個體:組成總體的每個元素。
(3)樣本和樣本量:樣本是指從總體中抽取一部分元素的集合,樣本也是總體的一個子集;樣本量是構成樣本元素的數目。
(4)參數:它是描述總體特征的概括性數字度量,是研究者想要了解總體某種特征的數量表現。
(5)統計量:它是描述樣本特征的概括性數字度量,是根據樣本數據計算出來的一個量,是為了實現推斷統計,對原始數據進行運算,利用有用的樣本信息構造的不含任何未知參數的樣本函數。統計量是隨機變量,是統計推斷的基礎。
比如:總體有500個,總體數量太多,不可能一一調查,隨機選擇30個,求出平均數,進行估計計算。
(6)變量:它是描述現象某種特征的概念,特點是從一次觀測值到下一次觀測值呈現出的變化的差別。
①分類變量:描述事物的一個類別的一個名稱,取值是分類的一個數據。
②順序變量:事物有序類別的一個特征取值是順序數據。
數據的搜集
1、數據的來源?
數據的來源有兩個:直接來源和間接來源
①間接來源的數據稱為二手數據,它是指研究對象的原信息已經存在,對數據進行重新整理、加工可以直接用于分析的數據。
優點:
獲取方便,采集成本低,能夠很快得到并利用。
缺點:
針對性差、無法保證數據的準確性和及時性。
在使用二手數據之前要進行評估,即二手數據是誰搜集的、什么時候搜集的、為什么而收集的、用什么辦法收集的;還要注意數據的定義、計算口徑和方法,避免錯用、濫用、誤用;還要注明數據來源,尊重他人勞動成果。
②直接來源的數據是經過自己的調查或實驗等直接實踐活動取得的一手數據。
2、概率抽樣:
概率抽樣也稱為隨機抽樣,是指遵循隨機原則進行的抽樣。
特點:
①抽樣采取隨機原則,每個單位都有一定的概率被抽中。
②每個單位被抽樣中的概率是已知的或者是可以計算的。
③在用樣本估計總體目標量的時候要考慮每個單位被抽中的概率,估計量不僅與樣本單位的觀察值有關,而且與入樣概率有關,能夠用來估計總體參數。
3、常見的概率抽樣方式?
每一種抽樣優缺點找課本補充背誦。
(1)簡單隨機抽樣:是從總體N個單位中隨機抽取n個單位作為樣本,每個單位以相等的概率入選,是最基本的抽樣方法,其他抽樣方法的基礎。
優點:簡單直觀,抽樣框比較完整,可以直接從總體中抽取樣本。
缺點:如果抽取的總體比較大,則構造相應的抽樣框是不容易的。抽取的單位比較分散,也會加大調查的難度。沒有其他的一個輔助信息,提高效率。
(2)分層抽樣:是將總體單位按照不同的特征或規則劃分不同的層,然后從每層中獨立、隨機地抽取一定數量的單位組成樣本。
優點:樣本的結構和總體結構是比較相近的。為組織實施調查提供了方便。對總體參數進行估計時,可以用各層的目標量進行估計。
(3)整群抽樣:是先將總體中部分單位合并為組,即稱為群,然后以群為單位直接抽取樣本,在對入選群中的所有單位實施調查。
優點:抽樣只需按照群,構造抽樣框,簡化了工作量。調查地點相對比較集中,節省了相應的調查費用。
缺點:估計誤差比較大。
(4)系統抽樣:是先將總體各單位按照一定的順序進行排序,在一定范圍內隨機抽取一個單位定為初始單位,再按照一定規則選取其他單位組成樣本。
優點:操作比較簡便,有效的提高估計精度。
缺點:對方差的估計比較困難的。
(5)多階段抽樣:先抽取群,但不是直接調查群內所有的單位,而是在每個群中抽取樣本單位。因接受調查的單位需經兩個步驟產生而命名二階段抽樣,將該方法延續,使抽樣的段數增多,就成為多階段抽樣。
優點:保證樣本相對集中,節約了調查費用。不包含基階段的抽樣框,可以在更廣的范圍內展開。
4、常見的非概率抽樣方式:
不是根據隨機的原則,只是根據對數據的一個需求,進行的一種方式。
優點:就成本比較低,容易實施。
缺點:沒有辦法對總體進行估計。
(1)方便抽樣:調查過程中由調查員依據方便的原則,自行確定入抽樣本的單位。
(2)判斷抽樣:指研究人員根據經驗、判斷和對研究對象的了解,有目的地選擇一些單位作為樣本。
(3)自愿抽樣:指被調查者自愿參加,成為樣本中的一分子,向調查人員提供有關信息。
缺點:結果是有偏的。
(4)滾雪球抽樣:往往使用于對稀少群體的調査中。在滾雪球抽樣中,首先選擇一組調査單位,對其實施調査之后,再請他們提供另外一些屬于研究總體的調查對象,調查人員根據所提供的線索,進行此后的調查。
(5)配額抽樣:類似于概率抽樣中的分層抽樣,它是首先將總體中的所有單位按一定的標志(變量)分為若干類,然后在每個類中采用方便抽樣或判斷抽樣的方式選取樣本單位。
5、概率抽樣和非概率抽樣的區別?
(1)非概率抽樣適合探索性的研究和市場調査中的概念測試,其特點是操作簡便、時效快、成本低,而且對于抽樣中的統計學專業技術要求不是很高。
如果調查的目的是用樣本的調查結果對總體相應的參數進行估計,并計算估計的誤差,得到總體參數的置信區間,就應當使用概率抽樣的方法。
(2)概率抽樣是依據隨機原則抽選樣本,此時樣本統計量的理論分布是存在的。概率抽樣的技術含量更高,無論抽選樣本和對調查數據進行分析,都要求有較高的統計學專業知識,調查的成本也比非概率抽樣的調査成本高。有時在一項研究性項目中,可以把概率抽樣和非概率抽樣相結合,發揮各自的特點,滿足研究中的不同需求。
6、搜集數據的基本方法?
區分搜集數據和調查方法。
(1)自填式問卷調查:在無調查員協助的情況下由被調查者自己完成調查問卷。
(2)面訪式問卷調查:調查員與被調查者面對面提問、被調查者回答。
(3)電話式調查問卷:通過各種電訊工具向被調查者實施調查。
(4)觀察式調查:調查員通過直接觀察的方式獲取信息。
調查方式:普查、統計報表、抽樣調查、重點調查、典型調查、代表抽樣。
7、數據的誤差
數據的誤差泛指通過調查得到的數據與研究對象真實結果之間的差異,數據的誤差有抽樣誤差和非抽樣誤差兩種。
(1)抽樣誤差:由于抽樣的隨機性引起的樣本結果與總體真值之間的誤差。它描述的是所有樣本可能的結果與總體真值 之間的平均性差異。并且是一種隨機性誤差,只存在于概率抽樣中。
抽樣誤差的影響因素:
①樣本單位數目,數目越大,誤差越小 ②總體差異程度,差異越大,誤差越大 ③抽樣方法:采取不重復抽樣 ④抽樣組織形式,不同組織形式抽樣誤差大小不同
(2)非抽樣誤差:指除抽樣誤差之外的,由于其他原因引起的樣本觀察結果與總體真值之間的差異。無論是概率抽樣、非概率抽樣,或是在全面性調查中,都有可能產生非抽樣誤差。
8、誤差的幾種表現及產生原因?
(1)抽樣框誤差:統計推論的錯誤是由于抽樣框的不完善造成的,把這種誤差稱為抽樣框誤差。
(2)回答誤差:指被調查者在接受調查時給出的回答與真實情況不符。
而導致回答誤差的原因有多種,主要有:
①理解誤差; ②記憶誤差; ③有意識誤差。
(3)無回答誤差:被調査者拒絕接受調査,調查人員得到的是一份空白的答卷。
無回答誤差有時是隨機的,有時是系統性的。
解決無回答的系統性誤差的途徑主要有:
①預防,即在調查進行前做好各方面的準備工作,盡量把無回答降到最低程度;
②當無回答出現后,分析無回答產生的原因,采取一些補救措施。
(4)調査員誤差:由于調查員的原因產生的誤差。
(5)測量誤差:由于測量工具不同產生的誤差。
數據的整理與展示
1.數據的預處理?
它是在對數據分類或分組之前所做的必要處理,包括數據的審核、篩選、排序等。
(1)數據審核是檢查數據中是否有錯誤,對于通過調查取得的原始數據主要從完整性和準確性兩個方面去審核,而對于通過其他渠道獲得的二手數據應著重審核數據的適用性和時效性。
(2)數據篩選是根據需要找出符合特定條件的某類數據。
(3)數據排序是按一定順序將數據排列,以便研究者通過瀏覽數據發現一些明顯的特征或趨勢,找到解決問題的線索。
2.分類數據的整理和圖示?
(1)整理
①頻數:是落在某一特定類別或組中的數據個數。
②頻數分布表:將各個類別及落在其中的相應頻數全部列出,并用表格的形式表現出來。
③比例:是一個樣本(或總體)中各個部分的數據與全部數據之比,通常用于反映樣本(或總體)的構成或結構。
④百分比:將比例乘以100得到的數值。
⑤比率:是樣本(或總體)中不同類別數據之間的比值。
(2)分類數據的圖示
①條形圖 ②帕累托圖 ③餅圖 ④環形圖
3.順序數據的整理?
向上累積:10%+20%=30% 向下累積:100%-30%=70%
①累積頻數:將各有序類別或組的頻數逐級累加起來得到的頻數,有向上累積和向下累積。
②累積頻率:將各有序類別或組的百分比逐級累積起來,也有向上累積和向下累積。
4.數值型數據的分組?
分組有單變量值分組(適用于數據較少的離散型變量)和組距分組(適用于數據多的連續型變量)。
(1)分組步驟:
①確定組數:一般來說組數k區間為5≤k≤15,確定組數的公式為k=1+lgn≒lg2。
②確定組距:組距是一組上限和下限的差,計算方法是數據最大值減去最小值除以組數(要采用5或10的倍數)。
③根據分組整理成頻數分布表。
(2)組距分組的注意事項
①組距分組需要遵循“不重不漏"的原則即:
“不重”是指一項數據只能分在其中的某一組,不能在其他組中重復出現;“不漏"是指組別能夠窮盡,即在所分的全部組別中每項數據都能分在其中的某一組,不能遺漏。
為解決“不重”的問題,統計分組時習慣上規定“上組限不在內”,即當相鄰兩組的上下限重疊時,恰好等于某一組上限的變量值不算在本組內,而計算在下一組內。
比如:一組:70—80;二組:80—90
80屬于二組
5.數值型數據的圖示?
①直方圖(分組數據)
②莖葉圖(未分組數據)side width=10,則數據組11、12、13
③箱線圖(未分組數據)重點復習一下
6.直方圖與條形圖的聯系與區別?
聯系:都是用矩形來表示數據的分布情況,當矩形寬度相等時都是用高度來表示數據分布情況。
區別:
①直方圖的高度寬度均有意義,高度表示每一組的頻數或頻率,寬度表示各組組距,面積表示各組頻數的多少;條形圖的寬度是固定的,高度表示頻數多少。
②直方圖的各矩形是連續排列的,而條形圖是分開排列的。
③直方圖是用來展示數值型數據,條形圖用來展示分類型數據。
7.鑒別圖形優劣的準則?
①能夠在短時間內給讀者提供大量的信息 ②能夠反應數據的真實情況 ③應該是多維的 ④能夠洞察問題的實質 ⑤能夠將復雜的問題簡明、明確、高效闡述出來
數據的概括性度量
1.集中趨勢的度量?
集中趨勢是指一組數據向某一中心值靠攏的程度,它反映了一組數據中心點的位置所在。
集中趨勢的度量有眾數、中位數、分位數、平均數,通常不同類型的數據采用不同的集中趨勢測度值,低層次數據的測度值適用于高層次的測量數據,而高層次數據的測度值不適用于低層次的測量數據。
2.眾數、中位數、平均數的關系和應用場合?
(1)關系:從分布的角度看,眾數始終是一組數據分布的最高峰值,中位數是處于一組數據中間位置上的值,平均數是全部數據的算術平均。
①若數據分布為對稱分布 ②若數據分布為左偏分布 ③若數據分布為右偏分布
![]()
(2)眾數、中位數和平均數的特點與應用場合
①眾數是一組數據分布的峰值,不受極端值的影響。其缺點是具有不唯一性,眾數只有在數據量較多時才有意義,當數據量較少時,不宜使用眾數。眾數主要適合作為分類數據的集中趨勢測度值。眾數不唯一。
②中位數是一組數據中間位置上的代表值,不受數據極端值的影響。中位數主要適合作為順序數據的集中趨勢測度值。
③平均數是對數值型數據計算的,而且利用了全部數據信息,它是實際中應用最廣泛的集中趨勢測度值。
當數據呈對稱分布或接近對稱分布時,3個代表值相等或接近相等,這時則應選擇平均數作為集中趨勢的代值。但平均數的主要缺點是易受數據極端值的影響,對于偏態分布的數據,平均數的代表性較差。因此,當數據為偏態分布,特別是當偏斜程度較大時,可以考慮選擇眾數或中位數。
3.離散程度的度量?
數據的離散程度,它反映的是各變量值遠離其中心值的程度。數據的離散程度越大,集中趨勢的測度值對該組數據的代表性就越差;反之,離散程度越小則代表性就越好。
離散程度的度量有異眾比率、四分位差、極差、平均差、標準差、方差、離散系數。
(1)異眾比率是指非眾數組的頻數占總頻數的比例,用表示
![]()
異眾比率主要用于衡量眾數對一組數據的代表程度。異眾比率越大,說明非眾數組的頻數占總頻數的比重越大,眾數的代表性越差;反之,代表性越好。異眾比率主要適合測度分類數據的離散程度,對于順序數據以及數值型數據也可以計算異眾比率。
(2)四分位差是上四分位數與下四分位數之差,用Qd=Qu-Ql表示。(先排序再計算)
四分位差反映了中間50%數據的離散程度,其數值越小,說明中間的數據越集中;其數值越大,說明中間的數據越分散。四分位差不受極端值的影響。
極差:一組數據的最大值與最小值之差稱為極差,也稱全距,用R表示。
其計算公式為:
![]()
平均差:也稱平均絕對離差,它是各變量值與其平均數離差絕對值的平均數。
方差:各變量值與其平均數離差平方的平均數。
標準差:方差的平方根。
4.相對位置度量的經驗法則?
(全面背誦)
當數據對稱分布時,經驗法則表明:約有68%的數據在平均數 +1個標準差范圍內;約有95%的數據在平均數 +2個標準差范圍內;約有99%的數據在平均數 +3個標準差范圍內。
當不是對稱分布,則運用切比雪夫不等式(至少有
![]()
的數據落在 k 個標準差之內),則至少有75%的數據在平均數2個標準差范圍內;至少有89%的數據在平均數3的標準差范圍內;至少有94%的數據在平均數4個標準差范圍內。
+1個標準差范圍內:29 30 31 +3個標準差范圍內:27 30 33
5.相對離散程度:
離散系數是一組數據的標準差與其相應的平均數之比。
計算公式為:
![]()
離散系數是測度數據離散程度的相對統計量,主要是用于比較不同樣本數據的離散程度。離散系數大,說明數據的離散程度也大;離散系數小,說明數據的離散程度也小。
6.偏態與峰態的度量
(考前兩個周背誦公式)
偏態及其測度:它是對數據分布對稱性的測度。測度偏態的統計量是偏態系數,記作SK。
(1)未分組數據:
如果一組數據的分布是對稱的,則偏態系數等于0;如果偏態系數明顯不等于0,表明分布是非對稱的。若 偏態系數大于1或小于一1,被稱為高度偏態分布;若偏態系數在0.5?1或-1~0.5之間,被認為是中等偏態分布;偏態系數越接近0,偏斜程度就越低。
![]()
抽樣與抽樣分布
(統計量概念找課本)
1.次序統計量:
設X1 X2 X3...Xn為總體X中抽取的樣本, 稱為第i個次序統計量,它是樣本X1 X2 X3...Xn滿足以下條件的函數:每當樣本得到一組觀測值X1 X2 X3...Xn時,將其從小到大排序,第i個值 就作為次序統計量 的觀測值,而X1 X2 X3...Xn稱為次序統計量。
2.充分統計量:
統計量加工過程中一點信息都不損失的統計量。
3.抽樣分布:
抽樣分布是從容量為N的總體中抽取容量為n的樣本時,所有可能的樣本統計值所形成的分布。假設從容量為N的有限總體中最多可以抽取m個容量為n的不同樣本,那么把所有m個樣本統計值形成頻率分布,就是抽樣分布。抽樣分布是研究樣本分布與總體分布之間關系的橋梁。
4.中心極限定理:設從均值為μ,方差為σ^2(有限)的任意一個總體中抽取樣本量為n的樣本,當n充分大時,樣本均值X的抽樣分布近似于服從均值為μ、方差為σ^2/n的正態分布。基于此,中心極限定理就是,隨著樣本量n的增大(n≥30),不論原來的總體是否服從正態分布,樣本均值的抽樣分布都將趨于正態分布,其分布的數學期望為總體均值μ,方差為總體方差的1/n。
(公式要進行背誦)
參數估計
(公式背誦并理解)
1.參數估計的基本原理?
參數估計就是用樣本統計量去估計總體參數,在參數估計中,用來估計總體參數的統計量稱為估計量,根據一個具體的樣本計算出來的估計量的數值稱為估計值。參數估計的方法有點估計和區間估計兩種。
2.點估計和區間估計
(1)點估計:是用樣本統計量的某個取值直接作為總體參數的估計值。
(2)區間估計:是在點估計的基礎上,給出總體參數估計的一個區間范圍,該區間通常由樣本統計量加減估計誤差得到。
3.置信區間和置信水平
(1)置信區間:由樣本統計量所構造的總體參數的估計區間,其中區間的最小值稱為置信下限,最大值稱為置信上限。
(2)置信水平(置信度/置信系數):置信區間中包含總體參數真值的次數所占的比例。
4.評價估計量的標準?
評價估計量的標準有三個:無偏性、有效性、一致性。
①無偏性,指估計量抽樣分布的數學期望等于被估計的總體參數。
②有效性,指對同一總體參數的兩個無偏估計量(有效估計量一定是無偏估計量),有更小標準差的估計量更有效。
③一致性,指隨著樣本量的增大,點估計量的值越來越接近被估計總體的參數,即一個大樣本給出的估計量要比一個小樣本給出的估計量更接近總體的參數。
5.對置信區間的理解需要注意的地方?
(1)如果用某種方法構造的所有區間中有95%的區間包括總體參數的真值,5%的區間不包括總體參數的真值,那么用該方法構造的區間稱為置信水平為95%的置信區間。(其他置信水平的區間也可這樣表示)
(2)總體參數的真值是固定的、未知的,而用樣本構造的區間則是不固定的。置信區間是一個隨機區間,若抽取不同的樣本,用該方法可以得到不同的區間。
(3)在實際問題中,進行估計時往往只抽取一個樣本,此時所構造的是與該樣本相聯系的一定置信水平(例如95%)下的置信區間。由于用該樣本構造的區間是一個特定的區間,而不再是隨機區間,所以無法知道這個樣本所產生的區間是否包含總體參數的真值。我們只能希望這個區間是大量包含總體參數真值的區間中的一個,但它也可能是少數幾個不包含參數真值的區間中的一個。
假設檢驗
(計算題考的概率比較大)
1.假設檢驗和參數估計的區別
參數估計和假設檢驗是統計推斷的兩個組成部分,它們都是利用樣本對總體進行某種推斷,但推斷的角度不同。參數估計討論的是用樣本統計量估計總體參數的方法,總體參數在估計前是未知的。而在假設檢驗中,則是先對的值提出一個假設,然后利用樣本信息去檢驗這個假設是否成立。
2.假設檢驗的基本原理?
回答相關問題都要回答這一部分。
假設檢驗是指利用樣本信息判斷假設是否成立的過程,它是先對總體參數提出某種假設,然后利用樣本信息判斷假設是否成立的過程。
(1)原假設是研究者想收集證據予以反對的假設。
(2)備擇假設通常是研究者想要收集證據予以支持的假設。
(3)假設檢驗的目的主要是收集證據拒絕原假設。
3.兩類錯誤:
當原假設為真時拒絕了假設稱為第一類錯誤,也稱棄真錯誤,概率用α表示;當原假設為假時沒有拒絕原假設稱為第二類錯誤,也稱取偽錯誤,概率用β表示。
4.P值的含義與決策步驟?
P值就是當原假設為真時所得到的樣本觀察結果或更極端結構出現的概率。用P值進行決策的準則是 值<α,拒絕H0;P值 >α,不拒絕H。
如果P值很小,說明這種情況發生的概率很小,而如果出現了,依據小概率原理,就有理由拒絕原假設。P值越小,拒絕H0的理由越充分。
5.假設檢驗的基本步驟?假設檢驗的基本原理+P值+假設檢驗的基本步驟?
(1)根據問題的要求給出原假設H0,同時給出備擇假設H1。
(2)在H0成立的前提下,選擇合適的檢驗統計量,這個統計量應包括要檢驗的參數,同時它的分布已知。
(3)根據顯著性水平α,按照備擇假設H1和檢驗統計量的分布,寫出小概率事件及其概率表達式。
(4)由樣本值計算出檢驗統計量的數值,并查出對應的臨界值。
(5)依據計算結果作出拒絕H0或接受H0的決策。
![]()
|