关于大数据的神奇,《大数据时代》引述了一个故事。一天,一个男人冲进了一家位于明尼阿波利斯市郊的塔吉特商店,要求经理出来见他。他气愤地说:“我女儿还是高中生,你们却给她邮寄婴儿服和婴儿床的优惠券,你们是在鼓励她怀孕吗?”而当几天后,经理打电话向这个男人致歉时,这个男人的语气变得平和起来。他说:“我跟我的女儿谈过了,她的预产期是8月份,是我完全没有意识到这个事情的发生,应该说抱歉的人是我。”为什么一个商店竟然会比一个女儿的父亲还了解她?因为,塔吉特公司通过大数据的分析注意到,登记簿上的妇女会在怀孕大概第三个月的时候买很多无香乳液。几个月后,她们会买一些养品,比如镁、钙锌。公司最终找出了大概20多种关联物,这些关联物可以给顾客进行“怀孕趋势”评分。这样就能够在孕期的每个阶段给客户寄送相应的优惠券,从而掌握销售的主动。类似的案例还有沃尔玛公司在季节性飓风来临时,会把手电筒与蛋挞放在一起,这也是基于大数据的分析;被同样发现的一个很有意思的现象是,婴儿尿布和啤酒有很高的相关度,即跟尿布一起购买最多的商品竟然是啤酒,这大概是那些初为人父的男人们一种无奈的习惯!
上述的案例还仅仅是大数据的冰山一角。事实上,大数据时代,每个人都是数据的贡献者。有关研究预计,到2020年一个中国普通家庭一年产生的数据相当于半个国家图书馆的信息储量。利用互联网搜索信息,用微信、QQ维护社交关系,上网购物,都会产生海量数据。于是大数据在今天也就无孔不入,无处不在了。
互联网上的每一次点击、每一次搜索,都是数据,商家将海量数据整合分析,就能获知不同群体的偏好和习惯,实现精准营销,这样的应用其实已经普遍应用于互联网广告业。比如,同时打开一个同样的网页,不同的个人电脑上出现的广告却是不同的,女性朋友的页面可能是很多服饰类广告,而男性朋友可能是电子产品的广告。如果在网上购书,可能会经常发现,网站给你的推荐,很多确实是你想买的,这是因为图书网站分析了你的浏览网页数据和购物记录,推导出你的消费习惯和可能需要,从而精准地投放广告。
既然大数据如此神奇,问题便随之而来,个人能否在大数据的年代独善其身?答案是否定的。网络匿名在网络上并没有作用,只要想找得到真实的改名,则通过大数据分析就可以精确找到。因为,大数据通过相关性分析,照样可以精确地推断出匿名的是谁。可以说,在海滩上游泳,只有退潮时才知道谁在裸泳,而互联网上则已经是人人都在裸泳,只要上网、上微信、上博客,个人信息都会被获取,最终通过数据的收集与分析推断出匿名的人是谁。比如《纽约时报》曾经在几天内通过搜索记录的综合分析,发现数据库中的4417749号代表的是佐治亚州利尔本的一个62岁寡妇塞尔玛·阿诺德,记者据此找到了本人。当然,这事引起了公愤,最终当事的技术官和两名员工被开除。美国在线的案例表明,我们被我们所搜索的内容出卖了!
不仅大数据让你的过去无处可藏,而且让你的现在像玻璃一样透明,更要命的是,大数据的分析而不是信息的窃取就能让你的未来行为或工作计划提前曝光,一目了然。于是在国外出现了警察依据大数据分析对一个可能要行凶的人提前进行逮捕的事例,迅速地引起了法律与道德上的争论。一个重要的问题是,一个人有了行凶的念头,是不是就必然犯罪;况且,在一个人没有犯罪的时候,依靠数据分析就宣布他的罪行,又在法律上如何解释?
这样,一个重要的道德和安全疑虑便产生了,在大数据的年代,谁来保证个人的隐私不泄露,个人的信息安全受保护,特别是因为个人信息泄露而带来的人身安全谁来负责?比如谷歌的街景,可以详细到将沿街的每户住宅场景予以发布,如果你不愿意,可以用涂白来标示,这可能会引起更多人的关注,包括盗贼在内。怎么办?《大数据时代》提出的观点是,不能再由客户来负责,签订所谓的隐私信息授权书,而是应该由用到个人数据的企业来负责,由企业向客户申请数据的使用权并承诺隐私保护,在使用数据后及时删除。百度公司发展研究中心副主任率鹏说,“个人隐私,比如用户登录信息泄露,其实不是大数据带来的问题,而是企业没有尽到相关信息保护责任。在法律法规的约束下,如果企业尽到责任的话,还是有能力保障大数据时代用户信息安全问题的。”可是在中国的当下,公众又该如何相信这些使用数据的公司们的承诺呢?又以什么法律制度去保驾护航?
(二〇一四年三月四日夜)