文字中的性別偏見 精選

2019.05.14   陳宜欣|國立清華大學 資訊工程學系 副教授
刊載於專欄 專題報導
给本項目評分
(0 得票數)

機器學習法通常是不帶成見的,是訓練資料本身帶來的偏見,透過機器學習法而具象化。 針對台灣的Facebook貼文的詞語分析顯示,如果讓家庭這詞指定偏女性的話,比較偏男性的詞是:社會、環境、子女、觀念、成就。相反的,當我們讓這一個詞指定偏男性的話,偏女性的詞是:婚姻、丈夫、夫妻倆、生活。

在 2016年, 神經資訊處理系統大會 (是非常頂尖的機器學習大會,當時的英文名稱為Conference on Neural Information Processing System,NIPS)由Bolukbasi等人提出的一篇有趣論文『 Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings(男人之於電腦程式設計師等於女人之於家庭主婦?消除詞嵌入中的偏見 』。

所謂詞嵌入法,是在2013年由 Mikolov等人發明的一個劃時代的方法,他們利用機器學習法學習字與字在句子中的關聯,透過這個方法,文本中的每個字詞都可以學到一個代表向量,不同字詞的向量加減會得到很有趣的語意關係,例如:king - man + woman = queen。

2016年的這篇論文中提到一個詞嵌入法會有些性別偏見,例如標題所說的:『男人 - 女人』 近似於 『電腦程式設計師 - 家庭主婦』,或是『男人 - 女人』 近似於 『外科醫師 - 護士』。機器學習法通常是不帶成見的,是訓練資料本身帶來的偏見,透過機器學習法而具象化。筆者猜測,機器會帶出這樣的偏見是因為訓練文本中,電腦程式設計師大部分都是男性,而即使英文中的Homemaker是不帶性別的(和中文不太一樣,中文會用家庭主婦或是家庭主夫),但是通常Homemaker都是和女人連結在一起。為了解決這樣的偏見,2016年的論文中花了不少篇幅在探討如何識別這樣的詞偏見以及如何消弭。

 


Bolukbasi在論文中討論有哪些用字是有偏見的

 

有趣的是像是要跟上時代不歧視的潮流一般,刊登這篇論文的神經資訊處理系統大會也因為名稱不雅(其縮寫NIPS和女人的乳頭縮寫是一樣的),從2017年開始有不少風波,例如:在2017也有女性研究員表示在大會中被性騷擾,或是有人開了NIPS的玩笑讓參加會議的女性研究員表示不舒服,所以2018年有很多學者聯名這個老牌會議該改名,最後在識時務者為俊傑的風潮下,從2018年開始NIPS不再是NIPS,而是 NeurIPS!

 

我們一直很好奇台灣是否也有這樣的歧視呢?早些年會有知識分子疾呼「穿裙子的不適合當三軍統帥」,到最近會發現不同性別似乎都受到不同社會價值觀所干擾,例如:『女人比較沒魄力』,『後宮不能干政』等等,為了要簡單抽樣台灣社會的性別偏見,我們蒐集了2016年八月到2018年一月間,台灣接近2500個臉書粉絲頁(包含新聞、話題、人物、品牌等),近一千一百萬則貼文,一樣透過詞嵌入法來學習字與字的關聯。

 

和英文比起來中文的詞嵌入稍微複雜一點,中文字詞間沒有空白隔開,也因此需要另一套斷詞系統來幫忙切開這些中文字,我們利用簡單的統計規則來找出比較常見的詞彙。接下來另一個問題是:國人在使用文字的時候,在許多情況下字詞本身就已經帶有性別偏見,例如:科學家通常都泛指男性,只有遇到女性的時候才會用『女科學家』來稱呼;所以我們會有女總統、女立委、女教授、女工程師、女立委、或是男護士…等,在試了一些原始論文提到和男女相關詞彙後,我們發現用『她』和『他』在中文似乎比較能看到字彙的性別偏見。

首先讓我們來試試2016年這篇論文標題中所提到的職業『電腦程式設計』,我們透過類似的詞嵌入向量的加減,來找出對比的詞彙,由於在台灣我們泛用『電腦工程師』這樣的名稱,而電腦工程師在斷字上會被斷成『電腦』和『工程師』,因此我們用工程師來測試是否能看到類似的性別偏見,得到的結果如下圖(對比越近似的字詞的字體會越大):

工程師一詞的性別偏見



詞嵌入給出的對比還蠻驚悚(或是好笑)的,如果當我們指定工程師希望是偏女生的話,那有什麼會比較偏男性呢?答案是商人、AI、或是紫光!但是如果我們指定工程師是偏男性的話,得到的結果就是作業員、OL、人妻、富商等,至於情飛又是什麼呢?我們估計應該是某幾首歌名中有『為情飛』的歌曲,常常在工程師相關的文章中當背景音樂。

科學家一詞的性別偏見



女科技人電子報的閱聽大眾們除了工程師外,另外一個大宗應該就是科學家,讓我們來看看科學家一詞,如果我們指定科學家是偏女性的話,那什麼詞會偏男性呢?答案是:人類!那下一個詞是什麼呢?AI,AI怎麼又是你呀?!從詞嵌入來看,AI可能比較接近男性概念。那如果換個性別來看,科學家如果是指男性的話,有什麼會是偏女性呢?答案是:研究、社會學家、生物學家、貝內…等,等等貝內是什麼?我們查了一下後猜測這應該跟斷詞錯誤有關,不少地名和專有名詞都有貝內兩個字,所以可能是在斷詞出錯了。

醫生一詞的性別偏見



接下來看另一個名詞『醫生』,當我們指定醫生是偏女性的話,什麼詞會偏男性呢?答案是醫師、病患、病人。然而當我們指定醫生是偏男性的話,出來的詞彙就頗讓人深思,例如:護理師、護士、媽媽、醫師…等,不過也不至於讓人訝異,這兩張圖的對照下,倒是讓我們發現醫師這詞似乎男女通吃

家庭一詞的性別偏見



上面這幾個例子和原始論文中所提到的幾個案例,其實是很雷同的。但是我們想要來看看那些原始論文沒探討到的地方,在這個光輝的五月,很多餐廳都在歌頌母親偉大、要吃母親節大餐的這個月,來看看家庭這一詞的性別偏見吧!如果讓家庭這詞指定偏女性的話,比較偏男性的詞是:社會、環境、子女、觀念、成就。相反的,當我們讓這一個詞指定偏男性的話,偏女性的詞是:婚姻、丈夫、夫妻倆、生活。這樣的結果反映出什麼呢?是不是有那麼些微的隱性傾向:覺得女生還是待在家庭內就好,而男生該去追求社會的成就?

 

家務一詞的性別偏見



理論上,家庭中有很多工作應該是男生女生要一起分擔的,讓我們試試看另一個字詞『家務』,看看會得到什麼結果?結果如上圖:如果家務是偏女性的話,男性相關詞有:壞亂、單獨、燒飯…等,不知道會不會有許多女性讀者讀到此紛紛點頭,而如果家務是偏男性的話,女性相關詞則是:老公、媽媽、暖爸、家事、濕疹!不知道這是不是暗示,如果媽媽們得到濕疹的話,爸爸就會成為暖爸了!?透過這一系列的分析,難道對女性同胞們來說,最大的收穫就是:示弱!另一半才會變強?!

 

7016 最後修改於 %2019.%05.%14
此分類更多內容: