如何避免自動翻譯把大家都變成「男人」？

如何避免自動翻譯把大家都變成「男人」？ ^精選

2023.04.14 科科性別｜Facebook｜2023.03.29

刊載於專欄好文

给本項目評分

(0 得票數)

拜自動翻譯功能的發達，網路使用者在接觸非中文素材時，也能夠大略了解意義，不再需要擔心完全看不懂。

不過許多人可能也有類似的使用經驗：自動翻譯經常混淆文中提及的性別，導致女人變成男人、單數變複數，甚至人變成「物」。為什麼會發生這種情形？又該怎麼避免呢？

✹ 語料庫中的性別落差，造成翻譯系統以陽性詞稱呼女性

機器翻譯系統需要透過大型的語料庫（也就是收錄大量文本的電子資料庫）進行訓練。一份研究發現，Google Books當中的英文陽性代名詞出現頻率比陰性代名詞更多，尤其在1960年代出版的書籍中，前者曾多達後者的四倍。這種情形很有可能造成翻譯系統經過學習後，錯誤地使用陽性代名詞來指涉女性。

由於代名詞的性別落差在近年持續下降，使得相關的語料庫逐漸走向平等，若自動翻譯經常將男性預設為標準，可能使網路中的男性代名詞大量增加，導致語料庫的性別落差又再次擴大。

✹ 研發演算法辨認社會性別

為了解決前述問題，史丹佛大學的「性別化創新」（gendered innovations）研究團隊建議，可研發一套演算法辨識被指涉對象的社會性別（文化面向的態度、行為與表現）。這套演算法進行的方式如下：

✹ 納入性別中立語言，使機器翻譯更加包容與精確

若要更精確地翻譯性別，系統也可以進一步學習納入性別中立的語言。

一來，由於特定的語言當中具有中性的代名詞（例如土耳其語的「o」），如此能提供更貼切的翻譯。目前Google翻譯土耳其語的中性句「o bir doktor」，會同時顯示「她是醫師」與「他是醫師」。

另一方面，透過使用如「他們」或瑞典語中的「hen」等性別中立的代名詞，也能更加包容例如雙性人等非二元性別者。