稀有的正常人
「正常人」,這似乎是個再普通不過的詞,但它到底是什麼意思呢?「正常人」是指跟大多數人一樣的人嗎?
這篇文章,我想說說為什麼我認為我們不應該用「正常人」這個詞。 Here we go...

是的,就如同圖片所暗示的,這篇文章內含數學 (* 過敏提示:本文含有數學,或是在製作過程被其他含有數學的內容汙染)。不過,在這篇文章出現任何數學之前,我要先說第一個不該用「正常人」這個詞的原因:
(1) 當我們使用「正常」或「不正常」時,常常帶有主觀的價值判斷
事實是,大多數時候,當我們說某些人是「正常人」而另一些人是「不正常人」的時候,我們不是真的在說這些人是不是跟大多數人一樣。我們比較常把不符合社會價值觀的人,或是在社會價值觀下屬於比較「低下」的族群,貼上「不正常」的標籤。舉例來說,在學校裡,成績在前 1% 的人相較於成績在最後 1% 的人,前者比較不會被說是「不正常」。同樣地,非常高的人相較於非常矮的人也比較少被說是「不正常」。
在這些例子中,我們利用「正常」與「不正常」這些詞來掩飾我們的主觀評價。我認為這是不好的,因為 (1) 我們不應該用是否符合社會價值觀來評斷一個人,且 (2) 就算我們要評斷一個人,我們不該把自己的主觀意見用看似客觀的詞彙包裝起來。
這是我認為我們不該用「正常人」這個詞的第一個原因。
那是不是說只要我們真正客觀地使用「正常」這個詞就可以了呢?當然沒什麼不行,但如果是那樣,「正常人」這個詞的客觀意義可能跟你想像的很不一樣。這就進入了我想講的第二個原因:
(2)「正常人」其實是很稀有的
直覺上來說,「正常」的意思大概是指「跟多數人一樣」。不過這裡有兩個陷阱:什麼是「多數人」?什麼是「一樣」?以身高來說,因為身高是個實數 (real number),所以理論上,如果我們可以無窮精準地量測身高,那這世界上沒有任何兩個人的身高會是「一樣」的。所以「跟多數人一樣」並非是個很明確的定義。另一個例子則是性別,是男生算是跟多數人一樣,還是女生算是跟多數人一樣呢?如果所謂的「跟多數人一樣」可以有兩種可能,那為什麼不能有三種、四種、五種呢?
顯然「跟多數人一樣」不是很好的定義。不過身為物理學家,這時候就要做些假設來把問題簡化一下 XD。讓我們先假設真的有某個辦法定義「正常」(註一):以身高或體重這類的單峰分佈連續變量來說,我們可以把「正常」定義為最接近中間值的那 90% 的人,而離中間值最遠的 10% 的人則定義成「不正常」,這樣如何?
首先我們會注意到,在這個定義下,身高最高的跟身高最矮的會一起被視為「不正常」,所以的確是沒有我們一開始討論的不客觀的問題。但這裡就有另一個問題了 --- 讓我們假設每個人可以被 20 種不同的「變量」形容好了,這 20 種可能包括身高、體重、智力、體力、財富等等。那麼,在每個變量上都「正常」的「正常人」的比例會是有多少呢?
為了要能簡單地計算這個比例,我們還要進一步假設這 20 種變量在機率上彼此是獨立的。像身高跟體重很明顯就不是獨立的變量,但我們可以做一些座標變換來解決這個問題 (例如改成身高跟 BMI) (用行話來說就是轉換到特徵向量所展開的座標)。當這 20 種變量在機率上是獨立的,要計算「正常人」的比例就很容易了:在一個變量上是正常的機率是 90%,總共有 20 個獨立變量,所以在每個變量上都「正常」的「正常人」的比例就是:

沒錯,12%。換句話說,隨便選一個人,會有 88% 的機率這個人至少在某一個變量上「不正常」--- 在那個變量上他會是離中間值最遠的 10% 的人之一。如果從這個角度看起來,「正常人」好像也是滿不正常的 XD。
如果形容一個人的獨立變量有 30 個,「正常人」的比例更會下降到 4%。而就算我們假設形容一個人的獨立變量只有少少 10 個 (即便明顯應該不只),「正常人」的比例也只有 35% 而已。
的確,我們或許可以說某個人的身高「正常」、體重「正常」(假如我們不是在做主觀評價的話),但除非當我們講「正常人」這個詞的時候真的只有在指稱那 10% 的在每個變量上都「正常」的人,我們就不該使用這個詞,尤其是當我們真正想表達的常常只是「多數人」的概念,而根據上面的計算,「多數人」通常在某些面向上都有點「不正常」。
用「正常」與「不正常」來形容人,就算不帶有主觀的價值評斷,也是大大把「人」如此複雜的個體,簡化成一個一維或二維上的變量。不幸的是,我們的大腦其實很懶,所以我們很容易脫口而出「正常人」這樣的詞,包括我自己也是。所以我們更需要時常有意識地提醒自己:大部分的人都不是所謂的「正常人」。
We ain't simple, so don't settle for being normal.
--
註一:(nerd alert)
如果真的要針對某個變量 x 定義「正常」,我的定義應該會是這樣:假設 x 的機率分佈是 P(x) dx, 那我們要在 x 的定義域上找一個最小的子集合 S 使得 x 在 S 這個事件的總機率大於某個閾值 (e.g. 90%),寫成數學式就是

這個定義也可以推廣到離散變量。而對於連續變量,我們要假設 x 的定義域是可測度的。
這篇文章,我想說說為什麼我認為我們不應該用「正常人」這個詞。 Here we go...

是的,就如同圖片所暗示的,這篇文章內含數學 (* 過敏提示:本文含有數學,或是在製作過程被其他含有數學的內容汙染)。不過,在這篇文章出現任何數學之前,我要先說第一個不該用「正常人」這個詞的原因:
(1) 當我們使用「正常」或「不正常」時,常常帶有主觀的價值判斷
事實是,大多數時候,當我們說某些人是「正常人」而另一些人是「不正常人」的時候,我們不是真的在說這些人是不是跟大多數人一樣。我們比較常把不符合社會價值觀的人,或是在社會價值觀下屬於比較「低下」的族群,貼上「不正常」的標籤。舉例來說,在學校裡,成績在前 1% 的人相較於成績在最後 1% 的人,前者比較不會被說是「不正常」。同樣地,非常高的人相較於非常矮的人也比較少被說是「不正常」。
在這些例子中,我們利用「正常」與「不正常」這些詞來掩飾我們的主觀評價。我認為這是不好的,因為 (1) 我們不應該用是否符合社會價值觀來評斷一個人,且 (2) 就算我們要評斷一個人,我們不該把自己的主觀意見用看似客觀的詞彙包裝起來。
這是我認為我們不該用「正常人」這個詞的第一個原因。
那是不是說只要我們真正客觀地使用「正常」這個詞就可以了呢?當然沒什麼不行,但如果是那樣,「正常人」這個詞的客觀意義可能跟你想像的很不一樣。這就進入了我想講的第二個原因:
(2)「正常人」其實是很稀有的
直覺上來說,「正常」的意思大概是指「跟多數人一樣」。不過這裡有兩個陷阱:什麼是「多數人」?什麼是「一樣」?以身高來說,因為身高是個實數 (real number),所以理論上,如果我們可以無窮精準地量測身高,那這世界上沒有任何兩個人的身高會是「一樣」的。所以「跟多數人一樣」並非是個很明確的定義。另一個例子則是性別,是男生算是跟多數人一樣,還是女生算是跟多數人一樣呢?如果所謂的「跟多數人一樣」可以有兩種可能,那為什麼不能有三種、四種、五種呢?
顯然「跟多數人一樣」不是很好的定義。不過身為物理學家,這時候就要做些假設來把問題簡化一下 XD。讓我們先假設真的有某個辦法定義「正常」(註一):以身高或體重這類的單峰分佈連續變量來說,我們可以把「正常」定義為最接近中間值的那 90% 的人,而離中間值最遠的 10% 的人則定義成「不正常」,這樣如何?
首先我們會注意到,在這個定義下,身高最高的跟身高最矮的會一起被視為「不正常」,所以的確是沒有我們一開始討論的不客觀的問題。但這裡就有另一個問題了 --- 讓我們假設每個人可以被 20 種不同的「變量」形容好了,這 20 種可能包括身高、體重、智力、體力、財富等等。那麼,在每個變量上都「正常」的「正常人」的比例會是有多少呢?
為了要能簡單地計算這個比例,我們還要進一步假設這 20 種變量在機率上彼此是獨立的。像身高跟體重很明顯就不是獨立的變量,但我們可以做一些座標變換來解決這個問題 (例如改成身高跟 BMI) (用行話來說就是轉換到特徵向量所展開的座標)。當這 20 種變量在機率上是獨立的,要計算「正常人」的比例就很容易了:在一個變量上是正常的機率是 90%,總共有 20 個獨立變量,所以在每個變量上都「正常」的「正常人」的比例就是:
沒錯,12%。換句話說,隨便選一個人,會有 88% 的機率這個人至少在某一個變量上「不正常」--- 在那個變量上他會是離中間值最遠的 10% 的人之一。如果從這個角度看起來,「正常人」好像也是滿不正常的 XD。
如果形容一個人的獨立變量有 30 個,「正常人」的比例更會下降到 4%。而就算我們假設形容一個人的獨立變量只有少少 10 個 (即便明顯應該不只),「正常人」的比例也只有 35% 而已。
的確,我們或許可以說某個人的身高「正常」、體重「正常」(假如我們不是在做主觀評價的話),但除非當我們講「正常人」這個詞的時候真的只有在指稱那 10% 的在每個變量上都「正常」的人,我們就不該使用這個詞,尤其是當我們真正想表達的常常只是「多數人」的概念,而根據上面的計算,「多數人」通常在某些面向上都有點「不正常」。
用「正常」與「不正常」來形容人,就算不帶有主觀的價值評斷,也是大大把「人」如此複雜的個體,簡化成一個一維或二維上的變量。不幸的是,我們的大腦其實很懶,所以我們很容易脫口而出「正常人」這樣的詞,包括我自己也是。所以我們更需要時常有意識地提醒自己:大部分的人都不是所謂的「正常人」。
We ain't simple, so don't settle for being normal.
--
註一:(nerd alert)
如果真的要針對某個變量 x 定義「正常」,我的定義應該會是這樣:假設 x 的機率分佈是 P(x) dx, 那我們要在 x 的定義域上找一個最小的子集合 S 使得 x 在 S 這個事件的總機率大於某個閾值 (e.g. 90%),寫成數學式就是
這個定義也可以推廣到離散變量。而對於連續變量,我們要假設 x 的定義域是可測度的。
留言
張貼留言