计算机理应是中性客观的,但创造它的人类不是,人类的偏见无意识地体现在了分析语言的算法当中。这种隐藏在算法中的偏见被证实已造成影响
计算机理应是中性客观的,但创造它的人类不是,人类的偏见无意识地体现在了分析语言的算法当中。这种隐藏在算法中的偏见被证实已造成影响。
今年7月,波士顿大学的 Tolga Bolukbasi 和微软研究院的研究者就发现,被大量研究者用以机器翻译和智能网页搜索的数据库Word2vec就存在性别歧视。
如果你在数据库里输入:”巴黎:法国::东京:x”,那么系统会告诉你x =日本。
但如果我们输入:”父亲:医生::母亲:x”,系统给出的答案则是x=护士。
如果输入:”男性:程序员::女性:x”,答案x=主妇。
这意味着当用人单位在搜索时输入”程序员简历”时,搜索结果则会优先显示男性,因为“程序员”这个词跟男性的关系,比跟女性的更强更紧密。这极其不公平,但这一切就是发生了。
出现这个问题的根本原因是,Word2vec库中文本带有性别歧视。更可怕的是,数据库文本300万个单词来自Google新闻,这都是由专业记者撰写的新闻。
这些在算法联想上出现的性别歧视,本质是因为语言本身就带有历史文化沉淀下的偏见。
语言世界西先于个体存在,每个人都只能后来降生于已经存在的语言世界里。在我们使用了某个文字的时候,就已经接受了文字中蕴含的偏见。我们用“娘娘腔”来形容一个男人的时候,当我们用“女汉子”来形容一个女性的时候,这背后是根深蒂固的偏见。
当然,程序员也在试图帮助人工智能摆脱某些单词所带来的偏见。
微软研究院程序员Adam Kalai就与波士顿大学研究人员合作,他们使用一种名为“词向量(word embedding)”的技术,去教育计算机从发掘词语之间的关系来处理语言。
该研究小组正在利用一种被称为“词向量(Word Embedding)”的技术,教育机器通过寻找单词之间的关系来处理语言。通过该方法,机器可以通过上下文来比较“她”和“他”。具体应该时,能够找到文本适合的配对,如“姐姐-哥哥”、“女王-王帝”。
他们发现,能够训练机器忽略单词的某些关联,同时又保有其关键信息。通过调整他们的算法,能够去除单词间的某些关联,如“前台”和“女性”,同时保留合适的配对,如“女王”和“女性”。
研究人员表示,“这是一项很微妙的工作,要去理解种族、民族和文化刻板印象产生的直接和简介的偏见。这项工作今后的重要方向就是量化和消除这些偏见。”
所有技术都会反映造物者的价值观,假若我们没有谨慎对待机器学习,那么我们创造出来的人工智能就会变成社会的缩影,一个被隐藏无数偏见却不自知的社会缩影。
标签: 然而 都在 人类 自己 微软 发现 AI 也有 性别
声明:本文内容来源自网络,文字、图片等素材版权属于原作者,平台转载素材出于传递更多信息,文章内容仅供参考与学习,切勿作为商业目的使用。如果侵害了您的合法权益,请您及时与我们联系,我们会在第一时间进行处理!我们尊重版权,也致力于保护版权,站搜网感谢您的分享!