又一种认知分歧:数据商用中的模糊化处理

最近由Facebook数据滥用引发的风波,成为了整个硅谷监管环境升级的导火索。

而一直以来,关于大数据时代数据隐私话题的讨论从来没有停止过。

不过,时谈时新。

在初期,当用户在互联网上留下的种种痕迹并没有显现出任何商业价值的时候,我们所享受到的互联网所带来的便利,更多的是以一种单向的、像是慈善事业或是社会福利的形态呈现

也就是在这个过程中,我们曾经不太重视的上网轨迹,随着网络技术的增强,被广泛应用于商业活动。用户主动或是被动提供的信息,在经历了密集的数据挖掘之后,带来了更有效率的筛选结果和更为优质便捷的服务内容,实实在在地改变了我们的生活。

从这个角度看,用户和平台双方的角色早已经发生了变化,但是从这一系列的数据隐私危机的爆发还有公众对个人信息泄露由来已久的担忧来看,双方对于数据隐私和自身角色变迁的理解,存在了巨大的缺口和分歧。

近日,《华尔街日报》科技专栏作家克里斯托弗·米姆斯(Christopher Mims)撰文称,在用户隐私保护上,美国科技巨头过去几乎处于自由放任的监管环境中,自律意识淡薄,但是一切即将改变。

也就是说,虽然现在被“人赃并获”曝光的只有Facebook一家,但是谷歌、苹果、亚马逊等各大科技公司对数据的需求程度并不比Facebook低,并不是谁比谁用得高尚的原因,很可能只是自家的问题还未到达全面爆发的缺口而已。

在数据驱动的经济中维持信任(更准确的说应该是重建信任)的方式,目前看来并没有发挥应有的作用,甚至在一定情况下起了反作用的效果。

这是由于我们在建设平台角色的时候,更倾向于保持一种中立的非营利组织的形象,至少在对数据使用这方面,这些科技公司在有意弱化其商业模式对于数据变现的依赖程度。

正如Facebook此次的数据滥用,能够引起如此大的用户反应,与其此前一直保持的无辜中立的平台形象不无关系。

尽管如此,在越来越难以掌控的危机爆发之前,但凡存在一点侥幸心理,比起在广告盈利模式的质疑中披露平台的信息被如何使用的,保持数据使用中立的形象,哪怕只是一个假面,也显得更为体面。

也由此,像是本能一般,数据在广告商业模式中的使用,呈现出更加隐秘的复杂化趋势。

基于谷歌等公司对于其用户认知资本的收益依赖,此次被Facebook所波及在所难免,相似的是,谷歌搜索引擎的“关键词自动完成功能”(autocomplete),也曾卷入到操纵美国大选的“阴谋论”风波之中。

两年过去了,针对这种数据或者算法呈现的带有相似的偏见信息,却依旧不断地在引发追问和反思。

在很早之前,谷歌发言人就此已经回应过:“我们的自动填充文本算法在设计时就避免了与人名同时出现时推荐带有攻击或者侮辱性的词汇。这项过滤操作不是针对某一个人的,对所有人都是如此。’犯罪’属于具有攻击性的词汇。谷歌的自动完成功能不会因任何一种原因偏向任何一位总统候选人。”

关键词自动完成功能的设计初衷是为了避免用户输入错误的搜索词,以提升用户的搜索体验和输入效率。而真正实现这一工具功能,将用户引导到他们最希望得到的相应关键词上的,却依赖于背后大量使用搜索引擎的用户自己。也就是说在用户输入的关键词中,被输入的次数越多,它对应的查询就越热门,出现在关键词排序靠前的几率也就越高。

也因此,在当时揭示出一种导致“算法偏见”的结果:很可能是用户自身更倾向于关注负面的而非积极正面的关键词搜索建议,所以才导致了这种选举的“阴谋论”。

这种类似于算法恶作剧的恶性循环,在Facebook也曾出现过,某些无益的恶搞内容,却因为不断地被不喜欢的用户怒而评论,这种带有误导性的标记,却最终被当作热门内容不断转载传播。

《算法时代》的作者卢克·多梅儿在书中谈到:“从严格意义上讲,搜索算法无法提交不受意识形态影响的搜索结果,而且这些搜索结果为了取悦我们的个人主义观念,往往会进一步加强我们对某些问题的’既有看法’,同时,对于与我们现有观点格格不入的那些问题,则会降低其重要程度。”

工具将使用者某种无意识的行为,在相对无束缚的网络检索环境中被放大和量化了。甚至是与初衷完全相反的意愿,仅仅是基于好奇心或者批判心理而产生点击的动作,却也由此也留下了不可磨灭的数据痕迹。

因此综合了的算法本身的隐秘性和用户某种无意识行为,共同促成了这场阴谋:谷歌呈现出的带有偏见的检索关键词可能真的隐藏着伤害某个特定对象的潜在能力。或许其他潜在势力真的存在,但是它的偏向性及其产生的后果,至少是在这种恶性循环之中被放大了。

这只是数据使用中造成分歧的其中一个方面。我们本质上更习惯于去放大数据使用的结果,却对造成结果的数据使用过程知之甚少。

也就是说我们能够理解,为什么网页上的广告在我们几个星期之前搜过一块手表并且已经购买完成以后,还在不断推送相关的广告信息的时候,意识到我们的搜索数据和隐私被利用了。

但是我们并不能理解为什么系统会在推送其他广告或者呈现信息的时候,出现一些看起来与我们并不太相关或者与我们观点不同的东西,及其在实际中到底会给我们带来什么影响。

百度早前就曾因为基于关键词检索而对用户进行定向广告投放,被控告侵犯隐私。法院一审判决认为,网络活动踪迹属于个人隐私,且百度公司的相关提示非常不显著,无法起到规范的说明和提醒作用,故判定其侵犯了用户的隐私权。

但上诉审判过程中,法院以“百度公司在《必读》中已经明确告知网络用户技术使用情况和退出机制”、“网络活动轨迹及上网偏好一旦与网络用户身份相分离,便无法确定具体的信息归属主体,不再属于个人信息范畴”等为由,最终判定百度的这种个性化推荐行为不构成侵犯该网友的隐私权,撤销原审判决。

虽然这个事件已经过去很久了,但是它最核心的矛盾并没有改变。

一方面,平台愈加依赖于这种复杂而模糊的服务条款的原因在于,他们不需要过多的去解释它们是如何做决策的,以此来争夺利益空间和进行自我保护。

用户们为了享受服务,往往对条款表示同意,且他们更倾向于更轻松的选择,即过滤信息,勾选默认选项,绝大多数用户根本不会认真看条款内容。所谓的用户知情同意,可能只是一种过于理想的幻觉。

而这些由商家制定的服务协议中必然会存在更加偏向于商家利益的内容。且要在数据采集环节针对不同的使用范围进行权限界定,既模糊又困难,实现起来并不现实。

但另一方面,用户越来越在意被使用的那些数据隐私。

有越来越多的人倾向于认为,平台获得个人信息已经非常方便,个人信息泄露问题既广泛又难以避免,所以有必要对个人信息的使用实施更为严格的管制。

最近集中爆发的越来越多的数据问题分歧,正在打破以往数据商用中的这种隐秘和复杂化带来的平衡。用户有必要对他们的数据到底发生了什么有更多的了解。

数据的隐私保护和商用需要寻找新的平衡。在监管之外,至少科技公司不应仅限于满足持续的模糊化和复杂化的数据使用,不至于为了避免保护数据隐私而面临一禁了之的被动局面。

曾翩翩/文

声明:本文内容和图片仅代表作者观点,不代表蓝时代网立场。蓝时代 » 又一种认知分歧:数据商用中的模糊化处理

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址