AI存偏见歧视?算法让用户喜好趋同?科学家『给』出证据

来源: 南方日报网络版     时间: 2020-08-07 17:00

澳门网络赌博有限公司【欧宝娱乐信誉平台www.obob7.com】张信哲独家代言信誉平台:79145人送赞!澳门网络赌博有限公司【欧宝娱乐信誉平台www.obob7.com】张信哲独家代言信誉平台:79145人送赞!澳门网络赌博有限公司【欧宝娱乐信誉平台www.obob7.com】张信哲独家代言信誉平台:79145人送赞!

  

AI存偏见歧视?算法让用户喜好趋同?科学家『给』出证据

  AI存『在』『偏』见和歧『视』,算法让用户喜好趋『同』?科学家给出『了』『证』据

  或『许』你已『经』注『意』到了,当你『在』电影评分网『站』给刚看完的『电』影评『完』分后,网站后续给你推荐的影片风『格』会『与』你看完的电影『类』似。『举』个更常见的例『子』,当『你』在购物网站搜索『过』某样物品『后』,第二天『推』荐『页』面上『显』示『的』都是『类』似款。

  人『工』智『能』可『以』帮助『商』家获得客户喜好,但同时也在逐『渐』根据用户『的』反馈,形成喜好偏见,『让』用户『的』需『求』同化。不『仅』如此,『在』人脸识别领域,『算』法自带的『歧』视和偏见『导』致的问题,『已』经引发了诸『多』争『议』。

  近日,『来』『自』多所大『学』学者『的』研究结果为『上』『述』的偏见和『歧』视提供了证据。他们的研究『论』文目前已在预印本网『站』Arxiv上『发』布。

  算法『推』荐『系』统会放大偏『见』,并让用『户』『喜』好趋同

  推荐『系』统的本质『是』一种『基』于产品内容或用『户』行『为』『的』信息过滤。如『今』,我『们』『用』的很多应用程序和『网』站都嵌有算法推荐系统。假如你在某视频网『站』给一『部』电影打了高分,那么系『统』就会为你推荐更『多』同『类』型的电影。『如』果你给系『统』『推』『荐』『的』电『影』也打了分,系统就会将你『的』反馈行为添加到系『统』中,『这』就是一种反馈循环。

  『但』是推荐算法会受到流『行』『性』偏见(popularity bias)的影『响』。『流』行性偏见是指,一些流行的项目会被经常推荐,而其『他』项目会被忽略。在上面的例子中,一些电影被更『多』『的』人喜爱,获得了更高的评分,就属于流行的项目,或『者』可以叫做热门项目,这些项目会『被』更多『推』荐给用户,『这』就是流行性偏见。

  流行『性』偏『见』『的』『产』生『一』部分源于训『练』数『据』『本』身『存』在不同的流行度,『另』一部分原因『来』自推荐算『法』。随『着』时间『的』推移,这种流行性偏见将会被加强。因为如果『用』户在『反』馈循『环』中不『断』为热门电影打高分,这些电影就变得更热门,『被』推荐的几率『也』就更大。

  为了研究反馈循环对推荐『系』统放大『偏』见和其他方面的影响,来自『埃』因霍『温』科技大学、『德』保罗大学和科罗拉多大学『博』尔德分校的『研』究『人』员『在』一个电『影』数『据』集上使用三种推荐算法进『行』了『仿』真,『模』『拟』『推』荐系统『的』交互过程。

  作为研究数据『的』MovieLens 1M『数』『据』集包含了6040个用户对3706部电影给出的1000209个评分,分数范围在1-5之间。研『究』人员使用『的』三种『推』荐算法分别是:『基』于用户的协『同』『过』滤(UserKNN)、贝『叶』斯个性『化』『排』序(BPR)和一『种』向所有人推『荐』最流行产『品』的『算』法MostPopular。

  『通』过使用这些数据和算法进行迭『代』——系统『不』断为用户生『成』推荐『列』表,用户『又』不断对推荐列表中『的』项『目』进『行』打分,研『究』人员发现,随着时『间』的推移,三种『算』『法』『下』的数『据』『平』均流『行』度都『有』『所』上升,但总体『多』样性『呈』现下降,这『也』『就』证明了推荐系统在『反』馈循环『后』『的』偏见『被』放大。

  流行性『偏』『见』的放『大』还『改』变了系统『对』『用』户『兴』趣的判断。在所有的推荐算『法』中,用『户』的偏『好』『与』其初『始』偏好之间的『偏』差『随』着时『间』的推移而增加。也就是说,这将导致『推』荐系统『为』用户做出的推『荐』越来越偏离『用』户的真实喜好,『系』统『推』荐给『你』的电影『将』不再符合你的『口』味。

  除此『之』『外』,由于推荐『系』统的偏见被放大,『用』户几乎只能接触『到』流行『度』高『的』项目,只能看到『那』些被更『多』『人』打了『高』分的热门电影。于是,在推荐『系』统中他们的偏好都会向一个『共』同的『范』围『集』『中』,『这』就表现为用『户』『偏』好的同质化。而反馈循环造『成』的『偏』『见』对少『数』群体用户的影响『更』大。

  “解决算法偏『见』的方法变得至关重要。『因』为如果『处』『理』不『当』,随着时间的推移,推荐系统中一个很『小』的『偏』差『也』可能会被『极』度『放』大。”研究人员在论文结尾『处』『写』『道』。

  人脸识别用于训练的数据存『在』巨大『偏』差

  『针』对『人』脸识别算法带来的偏见越『来』越受到『关』注。例如,能将模糊照片清『晰』化的PULSE算法将美『国』『前』总统奥巴马『的』模糊照片“『还』原”出了『一』张白人面孔,在『全』美BLM运『动』(Black Lives Matter,黑人的命也是命)如火如荼的背景『下』,『就』引发了巨大『的』争议。

  人脸『识』别领域里出现算『法』『偏』差和『歧』『视』,『一』『个』重要『原』因是用『于』训练的『数』『据』集存『在』很大『的』偏差性。来自剑桥大学和中『东』『科』技『大』『学』的研究人『员』就从两个用于『识』『别』人脸『表』情的数据集中『找』到了证『据』。

  这两个数据『集』『分』别『为』:RAF-DB和CelebA。其『中』,RAF-DB包含来自互联网的数『以』万计的图片,这些图片包括『面』部表『情』和『属』性注释,而CelebA拥有202599张图像,包含10177人的4 0种属『性』注释。

  『为』了确定『两』个数据集存在偏差的程度,研究人员对随机『子』集进行『了』采样,并裁剪了图像,以『使』『面』『部』在方向上保持一致。然后,他们使用分类器『来』衡量准确性『和』公平性。

  理『论』上来『说』,为了让算法保持准确和公平,这个分类器应在整个过程中提供不同的人口『群』体『的』『相』『似』结果。但实际『情』况并『非』如此。

  在RAF-DB『数』据『库』『中』,绝大多数的『图』片来自年龄『在』20-39岁之间的『白』人。从具体的『数』据来看,这些图片有77.4%来自白人,15.5%来自亚裔,而只有7.1%『来』自『非』洲裔『美』国人;在性别方面,女性『为』56.3%,『男』性为43.7%;『在』年龄上,超过一『半』的图片来自20-39『岁』的年轻人,3岁『以』下和70『岁』以『上』的『人』『甚』至少于10%。

  为『进』一步研究『数』『据』库存在偏见的程度,研究人员分别使『用』『了』『三』种算法对数据库的准确性和公平性进行评『估』。结果发『现』,在准确『性』方面,RAF-DB数据库『对』少数『族』『裔』的识别准确性低于白『人』;在『公』平性方『面』,性『别』属性相对更公『平』,『为』97.3%,种族『和』年龄的公平性相对较『低』,为88.1%『和』77.7%。

  『而』在CelebA数据库的图片来源中,女性比『例』为61.4%,而男性只有38.6%。在『年』龄上,年轻人占75.7%,明显超过了『占』『比』24.3%『的』老年『人』。

  在准确性方『面』,CelebA『数』据库对『年』轻『女』性的准确『率』『为』93.7%,但对老年男性的准『确』『性』较『低』,为90.7%。『而』『该』『数』据库在性『别』和年龄方面的公平性表现『都』较好,『分』别为98.2%『和』98.1%。

  许多公司『曾』用人脸识『别』软件给面试者的情『绪』打分,如果『整』个系统『都』是有偏『见』的,对于面『试』『者』『来』说就意味着『不』公平。『面』『部』表情数据『集』中偏见的存也『凸』显『了』监管的必要性。『如』何用法律『防』『止』技『术』滥用,成为『未』来这一领域『里』值得思考的问题之『一』。

  澎湃新闻记者 王心馨 实习生 何青『怡』

【编辑:刘羡】



相关报道:【海港城娱乐赌场】海港城娱乐赌场:77193人送赞!
相关报道:【利澳娱乐官网】利澳娱乐官网:86314人送赞!
相关报道:【必搏娱乐真钱游戏】必搏娱乐真钱游戏:233604人送赞!
相关报道:博狗存款_博狗存款_【官网认证~欢迎光临】@
相关报道:全讯网6969_全讯网6969【官网首页】*欢迎阁下光临*
相关报道:【钜亨娱乐赌博网】钜亨娱乐赌博网:210443人送赞!
相关报道:【新财经博彩现金开户】新财经博彩现金开户:125944人送赞!
相关报道:【处女星号娱乐平台】处女星号娱乐平台:65989人送赞!
相关报道:【处女星号娱乐平台】处女星号娱乐平台:65989人送赞!
相关报道:【怡彩官网】怡彩官网:151555人送赞!

【字体:
版权所有:南方新闻网粤ICP备05070829 网站标识码4400000131
主办:南方新闻网 协办:广东省经济和信息化委员会 承办:南方新闻网
建议使用1024×768分辨率 IE7.0以上版本浏览器 nimingQQ接单505361524