自爱德华·斯诺登近日揭露美国国家安全局(NSA)是如何从技术公司获取电话记录和数据以来,乔治·奥威尔所著《1984》的销量便一直在上升。英国《金融时报》17日发表专栏作家约翰·加普的文章,称迄今为止,为了换取安全保障,即便人们不那么喜欢“老大哥”,他们也做好了放弃部分隐私权的准备。
可是,对于“大数据”而言一切都不再如此简单。一些公司正凭借手中规模迅速增长的个人信息,利用各种新型数据分析方法和人工智能,来进行产品和服务决策,以及预测客户的需求。谷歌***执行官拉里·佩奇表示,他眼中的理想技术就像“一名高度智能化的助手,为你做各种事情,免得你自己操心。”
设想一下,你就好像生活在一座虚拟的“唐顿庄园”中,有一台计算机为你规划日程,为你推荐***出行路线、你可能想看的电影和最理想的航班(甚至帮你预订)。这种生活确实让人向往。现代人的生活节奏很快,希望能轻松地生活。比起被淹没在海量信息中且被迫要做出选择,能享受个性化服务确实不错。
尽管美国国家安全局监控活动的曝光让人们大吃一惊(虽然这项活动已进行了60年),但约翰?加普怀疑,多数人可能没有意识到,自己每天制造了多少数据,以及一些大数据企业用以利用这些数据的科技已经发展到了怎样的地步。技术发展如此迅速,两年前还不可想象的事情如今已变得稀松平常。
有媒体人表示:“这是一幅既美好又可怕的前景。拥有海量数据的公司会比你自己还了解你。它们将能够预测出你接下来可能要做什么。”
约翰·加普将谷歌比作19世纪末的通用电气——那个创新型工业企业、新技术的“弄潮儿”。而另一方面,谷歌、亚马逊、微软等技术巨擘正在积聚各种必须严加管控的力量。
美国国家安全局和那些大数据公司将自己的数据库和计算能力用于了不同的用途——前者将其用于识别间谍和恐怖分子,后者将其用于为用户提供合适的服务。它们都使用了超大型数据库、模式识别以及网络分析等技术。
这种技术的前沿领域会演变为一种人工智能,例如:在你拼错的时候猜测到你实际想搜索的关键词,即时语音翻译,或通过浏览无数张图像学习如何识别一张猫的照片。
计算机与类似人类的方式学习的能力被称为“深度学习”。令人瞩目的是,谷歌已聘请多位该领域的先驱人物,包括科学家兼作家雷?库兹韦尔。美国国家安全局提出愿意移交给美国私营公司的技术中,有一项是“***机器学习技术”。
如美国国家安全局对来自Verizon(或许还有其他运营商)的通话元数据的分析所示,只要零散信息的数量足够大,此类软件便可从中推断出许多事实。美国总统奥巴马向美国人保证“没有人在偷听你的电话”,但这个保证本身也意外暴露了一些问题。
哈佛大学教授拉塔尼娅·斯威尼(Latanya)的研究显示,只要知道一个人的年龄、性别和邮编,并与公开的数据库交叉对比,便可识别出87%的人的身份。社交网络和互联网公司收集的数据呈现出很强的身份特征。
大数据公司之所以非常强大,是因为它们能够将客户的个人信息与他们的行为特征结合起来,从他们购买了哪些商品,到他们身在何处(来自从手机上收集的全球定位卫星测量数据)。这可以生成一系列关于客户可能需求的“推测数据”。
例如,如果一个人在印度时用一部安卓(Android)手机搜索“泰姬陵”(Taj Mahal),谷歌将优先显示位于印度北方邦(Uttar Pradesh)的那座圣地。如果一个人在东伦敦砖块街(Brick Lane)进行同样的搜索,谷歌将列出位于那里的的孟加拉餐馆。当一个人在黄昏时分漫步在异国城市时,谷歌会根据一个人对其他餐馆的评价为他/她预订一家餐馆——这样的事情还要过多久才能变成现实?
试想,一方面,如果谷歌能帮你预定,你会很高兴(只要它预定的那家餐馆靠谱),因为这将省去你自己去做的麻烦。另一方面,正如世界经济论坛一份关于个人数据的报告所说:“推测数据可能像一个无所不知、盯着监控摄像头的‘老大哥’。”
这引发的担忧之一是,拥有这类软件的大数据公司,将是很难打败的竞争对手。用户提供给它们的数据越多,它们就越能预测用户想要什么。计算机的“大脑”在使用中会越来越聪明。
另一个问题是信任。社交网络在保护用户数据方面一直不力,用户行为、习惯和意图方面的信息,只有很小一部分免于被这种新一代网络服务公诸于众。难怪NSA会找上它们——NSA有计算能力,而它们有海量信息。
第三个问题是所有权。我们每个人对自己的信息拥有权利,但如果个人信息与其他人的信息混在一起,进入了一个关于用户意图的庞大数据库,会发生什么?如果我改变主意,我如何能把我的信息消除?
最重要的是,我们都不知道大数据技术意味着什么,因为大数据时代才刚刚开始。