平行檢驗和順序檢驗所造成 Sensitivity, Specificity, False Negative Rate and False Postive Rate 的改變



假設檢定與偽陽性、偽陰性

虛無假設:陰性

對立假設:陽性

實際上為陽性

實際上為陰性

拒絕虛無假設、

判斷為陽性

正確

power

Type 1 error

偽陽性

接受虛無假設、

判斷為陰性

Type 2 error

偽陰性

正確

試劑一,各有其偽陽性(type 1 error)和偽陰性(type 2 error)的機率分別為alphabeta

若有試劑二,針對在試劑一中被判斷為陽性(拒絕虛無假設)的人,再做一次檢驗。由於偽陰性者已經在試劑二中被判斷為陰性,並不會進入試劑二的檢驗,所以試劑一所造成的偽陰性並無法透過試劑二而減少。

至於試劑二能否減少偽陽性或偽陰性的發生,則需視試驗二的性質而訂(例如更加敏感、或較不敏感)。

假設:若試劑二結果是判斷為陰性,則推翻試劑一的判斷、而改判斷為陰性。

那麼使得試劑二對陰性特質越敏銳(對陽性特質越不敏銳),則意味著擴大認定陰性的臨界點。於是原來那些偽陽性的人則有機會被改判為陰性,減少偽陽性(型一誤差)的發生;不過,仍有一些實際上為陽性的人、卻在試劑二被判為陰性。所以上述對陽性特質越不敏銳的試劑二,可能增加了偽陰性(型二誤差)的發生。

太乙真人

閱讀全文〈平行檢驗和順序檢驗所造成 Sensitivity, Specificity, False Negative Rate and False Postive Rate 的改變〉

統計迴歸的Reliability與Validity–指鹿為馬

統計迴歸的ReliabilityValidity–指鹿為馬

 

統計是一個檢驗 Reliability 的工具,而非檢測 Validity 的工具,而好的統計模型,也就是證實我們找到測量架構的 index (Measure)自變數應變數是有高度的相關性。

在研究設計上,我們找到的構念(Construct),卻用一些和鹿變數(Indexes)
去衡量,這個問題被其它的研究者描述為 “Construct Validity” 的強度。某些變數應變數的指標和自變數的結合,無法映射出一個良好的 Construct Validity

 

上述這些變數組合,用來型容鹿時Construct Validity相對於形容馬時,卻是不好的。,Construct
Validity
低,就出現了 指鹿為馬問題。

 

研究者時常犯了錯誤,就是曲解了這群變數所建立的統計Model,或過份解釋這個模型能代表的意思,這就是迴歸上指鹿為馬的故事。

 

如果出現指鹿為馬的情況,也就是這群變數所構成的組合,沒有 Discriminat Validity。也就我們要測量馬的構念和鹿的構念,是不能利用這組自變數組合來分析的。

 

當我們用 Step In, or Step off 的這種方法,來尋求高解釋能力的自變數,是不是真正找出了一群具有 Construct Validity 的模型組合。

 

                                             Migrate Alone

 

 

 

當人們面對未知事物時,為檢測該事物的存在與否、或希望透過可能影響因子的訊息以預測該事物的發生,便經常希望建立一套檢驗工具或準則。這就如同:

1)醫院並不知道患者是否「真的」罹患該疾病,醫院以某部檢驗儀器,判斷患者在某一疾病上呈現「陽性」或「陰性」;

2)學校不知道學生的智能如何,於是以某份智力測驗,評量學生的智能程度;

3)在統計學上,經常使用線性模型來說明某一應變數的可能影響因子、及其影響方向和程度,並以此迴歸的結果預測應變數的發生數值。但此一迴歸分析中的線性模型是研究者「設計」出來的,而分析目標(應變數)背後真實的模型是否為線性、是否納入多餘的自變數、是否漏掉其他未被納入的自變數,其實沒有人知道。

 

不過,該事物的真象為何是未知的,利用工具或準則所產生的結果,只能說是一種判斷,而它不見得等於真象。而人為設計工具所得到的判斷結果與預測與真象之間的誤差,可分為「系統性」和「非系統性」的誤差,系統所指的便是人為的設計工具。這兩種誤差會決定ReliabilityValidity的大小,Reliability描述每次的檢驗或判斷結果的穩定程度,Validity則是描述檢驗或判斷工具的準確程度。

 

如果造成誤差的並非因為系統設計,則是屬於「非系統性誤差」。若此一「系統」或「儀器」所得到的判斷或檢驗結果很穩定、具一致性,例如以同一部儀器對患者進行多次的檢驗,而每次的檢驗結果是很一致的,那麼這代表「非系統性誤差」很小,也就是「Reliability」很大。反之,因為系統設計所造成的誤差,則是屬於「系統性誤差」。若檢驗的工具或儀器,因為本身的設計與真象有所差異,使其得到的判斷或檢驗結果總是向上或向下偏誤,這就是「系統性誤差」。當「系統性誤差」越大時,就意味著「Validity」越小。Validity改善通常需透過其他外在的訊息,才得以進一步鑑別,例如醫院對檢驗儀器的調整;而且,會因為使用的外在訊息不同,而有不同的Validity指標。

 

 

利用「設計」的線性模型以最小平方法進行的迴歸,所使用的線性模型即是人為的檢驗工具或系統。應變數的真實值與估計值(利用係數估計結果推算而來的預測值)之間的差值,就是模型無法捕捉的部分,即是與系統設計無關的「非系統性的誤差」,而R-square的計算便是將應變數的全部變異程度排除「非系統性的誤差」。所以,當各個應變數觀察值的「非系統性的誤差」很小時,意味每次檢驗結果很穩定,所得到的R-square會很不錯,也代表Reliability大。不過,當迴歸模型有設計偏誤時,只要在既定的設計模型下,統計或迴歸分析的結果將永遠無法排除因模型設計所產生的誤差(也就是「系統性的誤差」)。因此,常見的R-square指標,並不能呈現Validity的大小(準確程度)。

 

可利用一個小故事進一步說明「系統性的誤差」和「非系統性的誤差」。我們知道「馬是一種四隻腳、有尾巴、有長毛、但沒有長角的動物」,由此敘述知道:「四隻腳」、「有尾巴」和「有長毛」三項特性和「馬」具有高度的相關性;「有長角」則與「馬」沒有相關性。於是設計了一套檢驗工具,其中包括「四隻腳」、「有尾巴」和「有長毛」三項特性,用作判斷眼前的動物「是不是馬」。

在此一包括「四隻腳」、「有尾巴」和「有長毛」三項特性的模型或系統下,人們會根據眼前的動物是否符合這些指標,就判斷牠是否為馬。若符合這三項特性,就「認定這動物是馬」;若未符合這三項特性,就「認定這動物不是馬」。

想一想這個系統會發生什麼結果:當一隻鹿出現時,鹿有四隻腳、有尾巴、有長毛,完全符合模型中的三項指標,於是這隻鹿會被認定為馬。—-「指鹿為馬」

 

而此一系統的ReliabilityValidity如何?首先,不論你進行多少次檢驗,在每一次判斷結果中,鹿都都會被認定為馬,判斷的結果是相當穩定的,顯然「非系統性的誤差」很小,系統的Reliability相當高。但其實鹿不是馬,牠之所以被「誤認」為馬,是因為鹿有長角、而模型中模型並未能把「有長角」的特性排除(設計的模型與真象之間有差距),只要模型設計是既定的三項特性,「指鹿為馬」的誤判必然發生,這種因模型設計有誤而產生「系統性的誤差」都無法被排除,而且「系統性的誤差」越大時Validity越小。

 

 

                                         太乙真人,

powered by performancing firefox

制度化或資訊化

要讓組織順利的運行,有兩種方法,第一種是健立制度,讓在系統的內的操作者,可以依制度的規定而做事,
制度的設計原則,要能讓操作者知道,按照制度上的規定,是可以讓個人福祉(Utility)最大的(Maximum )或是最好的 (Optimal)。
重點所在是”理性”。

另一種方式,就是改善管理,增加資訊的通透性,增加處理資訊的能力,使得管理者可以即時(Real Time) 順利的得知問題所在,找出可行的 (Feasible)解決方法。
重點所在是”資訊”。

當系統龐大時,資訊取得的成本高昂,管理變成非常困難,就只能走第一種方式,大型系統就是這種典型的設計。
把運作所需要的規則(智慧),操作者是有限理性,透過制度能把大量的規則融入制度,使得系統運作的結果,對每個人
都能達到效能最佳化。

如果組織較小,資訊取得容易,管理工作足夠,管理者可以知道問題所在,快速的解決問題,如果資訊收集不易,管理工具缺乏,
就不可以輕易嘗試。

美國是個幅員遼闊的國家,人民知法,安分守己,按照規則運作,雖大而不僵。
台灣是個資訊通達的國家,管理能力有和工具不足,靈活度雖好,但是早於制度設計不佳,派系傾軋,內耗嚴重,遇到問題,利益紛爭,大魚吃小魚,強者先行。

中國是怎麼樣的國家,資訊不足,管理工具缺乏,能力不良,制度設計不良,上者驕其民,富者驕其勢,而其下者挺而走險的國家,遇到問題,就開始喊口號,無力解決。

中國多刁民,台灣多悍民,美國多順民…

Powered by Zoundry

Internal & External Validity

Internal Validity

Internal Validity — A research study or experiment has internal validity if the outcome is a function of the variables that are measured, controled or manipulated in the study. Did in fact the experimental treatments make a difference in this specific instance?

Artifact — If the results of a research study or experiment are due to some factor or factors outside of the study then the results are said to be an artifact.

Threat Definition Associated Terms
History Unanticipated events occurring while the experiment is in progress. confounding, teacher effect
Maturation processes within the subjects operating as a function of time.
Testing The effect of taking one test upon the scores of a subsequent test. pretest/post test, practice effect
Instrumentation An effect due to changes in a measuring instrument or changes in observers or scorers. instrument drift, fatigue effect
Statistical
regression
An effect operating where subjects selected on the basis of extreme scores regress toward the mean of that variable.
Differential
selection
of subjects
Biases resulting from selection or creation of groups that are not equivalent. random sampling, random assignment, intact groups
Experimental
mortality
The differential loss of subjects from one or more groups on a nonrandom basis.
Selection-maturation
interaction
Nonequivalent groups of different ages creating a bias such that selection and maturation interact. interactive combinations of factors
Expectancy A bias caused by the expectations of either the experimenter or the subjects or both. experimenter bias, demand characteristics


External Validity

External Validity — A research study or experiment has external validity if the results obtained would apply to other similar programs or approaches.

Generalizability — The degree to which the results of a research study or experiment can be generalized to other groups, settings or situations.

Threat Definition Associated Terms
Reactive effect
of testing
Pretest interacts with the treatment resulting in an effect that will not generalize. sensitization
Interaction effects
of selection biases
and the experimental
treatment
An effect of some selection factor of intact groups interacting with the treatment that would not have occurred in randomly formed groups.
Reactive effects
of experimental
arrangements
An effect due to subjects knowing that they are participating in an experiment. Hawthorne effect
Multiple
treatment
interference
In subjects receiving multiple treatments there may be carry-over effects between treatments such that the results cannot be generalized to single treatments.

Adapted from: Campbell, Donald T. & Stanley, Julian C. (1963). Experimental and quasi-experimental designs for research. Chicago: Rand McNally & Company.

Powered by Zoundry