2019年7月24日,美国联邦贸易委员会对社交网络巨头脸书公司开出高达56亿美元的罚单,并对剑桥分析公司(简称剑桥分析)提出了行政诉讼,指控其采用欺骗手段从脸书数千万用户那里收集个人信息并进行选民分析。至此,脸书公司因剑桥分析发生的大规模数据泄露丑闻暂告一个段落。该事件充分印证了我国《国家网络空间安全战略》关于“网络渗透危害政治安全”的判断:“政治稳定是国家发展、人民幸福的基本前提。利用网络干涉他国内政、攻击他国政治制度、煽动社会动乱、颠覆他国政权,以及大规模网络监控、网络窃密等活动严重危害国家政治安全和用户信息安全。”本文以剑桥分析丑闻为切入点,在微观层面分析剑桥分析为什么能够获取海量脸书用户数据、如何影响选民的投票偏好、脸书公司为何无法有效阻止丑闻发生,并探讨了该事件带给我们的启示。

一、剑桥分析为什么能够获取海量脸书用户数据

美国联邦贸易委员会起诉书中指出,剑桥分析造成6500万用户数据泄露,对于一个成立仅3年的小公司而言,所获取的数据可以用海量来形容,导致海量数据泄露的原因有两方面:

内因是脸书的盈利模式。脸书公司是美国五大科技巨头之一,运行模式很独特,它只是提供自由交流和分享的平台,本身并不提供任何内容,脸书上所有内容都是由用户自愿创造上传的。2006年,为了促进公司发展,扎克伯格宣布全面开放脸书,所有人都可以在平台上开发软件并提供服务,包括游戏、娱乐、工作、资讯等。

毫无疑问,脸书开放式运行模式获得了巨大成功,但是,自由上传、信息分享也为用户数据安全埋下了巨大隐患。因为脸书公司的核心财产其实是用户数据,收割数据是脸书的基本盈利模式,正是通过分析海量数据分析用户行为,脸书才能实现广告的精准投放,成为与谷歌比肩的互联网广告增益巨头。那么,脸书用户是否可以选择不接受这些广告呢?按照扎克伯格的说法,答案是肯定的,但是他同时承认,因为用户一般不会完整阅读隐私保护条款,所以,如果用户选择了“同意”,其实并不意味着用户已经清楚免费软件及广告商将会如何使用自己的数据及其后果。CNN曾一针见血地评论“收割用户数据的盈利模式已写进脸书的DNA”。因此,也不难理解在美国国会听证会上,面对议员们的犀利提问,扎克伯格多次选择回避问题或避重就轻。

外因是脸书应用程序中存在的数据获取杠杆效应。如前所述,脸书是众多网民集体智慧创造的成果,平台上有种类繁多的免费测试软件,这些软件既是脸书强化用户粘性的有效武器,也是导致脸书用户数据大规模泄露的潜在威胁。因为免费的前提是可以获取你和你的好友的公开信息,这样就可以形成数据获取的杠杆效应,一些免费测试的应用软件可以轻而易举获得海量用户数据。从美国联邦贸易委员会起诉书看,剑桥分析CEO尼克斯和科根共同开发、经营和使用脸书平台上的应用程序“这是你的数字化生活”(GSR App),收集了25—27万直接使用该应用的用户个人资料,但是,由于同意授权中包含其“好友”的个人信息,所以,最终该软件成功获取了这些用户社交网络中的5000—6500万关系链中的“好友”个人资料。这意味着,如果以27万人为基数、以6500万为总量计算,每个人平均贡献的“好友”数量高达240个,也就是扩大240倍,数据获取的杠杆效应非常惊人。

二、剑桥分析如何影响选民投票偏好

剑桥分析丑闻曝光的导火索有两个,一个是该公司前工程师克里斯托弗?韦利的主动揭发,多家报纸先后披露了丑闻;另一个是英国《第四频道》记者的卧底调查,这位伪装成斯里兰卡用户的记者,成功录下了与首席执行官尼克斯和市场总监特恩布尔的对话,电视台播出了暗访视频。从两条线索曝光的信息看,剑桥分析公司及其母公司干预过世界各地200多场选举,涉及美国大选和英国的脱欧公投,墨西哥、马来西亚、巴西等国的选举等多个国家。这里仅以2016年美国大选为例,分析该公司影响选民偏好的具体路径。

第一,对脸书用户进行分类。对用户偏好进行分类,是精准投放广告的前提,因此,脸书上充斥着各种各样的免费测试软件。其中关于政治偏好的测试,主要从人格测试软件入手,一般会借助心理学的人格测试模型,对脸书用户进行分类,该模型主要从外倾性、随和性、责任心、情绪稳定性、经验开放性5个维度构建个体的人格框架,其应用研究已十分成熟,详见表1。

科根设计的软件“这是你的数字化生活”,正是借助上述五维人格模型确定脸书用户的类型,选择的5个维度简称为开放度、尽责度、亲和度、外向度和神经质,每一个维度都使用最简洁的问题收集关键信息。例如,开放度——你欢迎新生事物吗?尽责度——你追求完美到什么程度?外向度——你喜欢聚会吗?亲和度——你对他人抱有多大的同情心?神经质——你容易焦虑吗?这五大因素结合在一起能呈现一个人的个性,如冒险型、保护他人型、领导型等。在此基础上,剑桥分析还通过大数据分析用户在脸书上的互动情况,把脸书用户按照人格特征进行分类。这一算法十分精确,“你点10个赞,软件就比你的同事更了解你;点150个赞,网络就比你的父母更了解你的喜好;点300个赞,网络甚至比你的配偶更懂你。”除了点赞,用户还发帖、留言、上传照片等,这些都成为网民的数码足迹,为有心人了解他们提供了更多线索。在2017年接受公开采访时,剑桥分析公司负责人尼克斯就曾经表示,该公司已成功预测出美国脸书用户的人格模型,并在 2016年选举期间,利用这一结果通过广告为特朗普阵营服务。

第二,精准投放广告。在剑桥分析的网页上,赫然入目的广告语是:剑桥分析已经重新定义了数据和竞选活动之间的关系,通过更好地了解你的选民,你可以在降低总成本的同时,获得更大的影响力。那么它是如何做的呢?答案是精准投放广告。例如,特朗普在竞选时提出的核心承诺是捍卫美国人的持枪权,剑桥分析公司针对不同用户推送不同的广告:对冒险型用户,通过脸书平台向他们推送以暴制暴型的广告,告诉他们枪能消除外部威胁,捍卫自由;对保护者型性格用户,他们收到的广告是“枪是保护他人不可或缺的工具”;对理性思考、运筹帷幄型性格用户,脸书推送的广告传递的则是“枪能保护家人和美好未来的信息”。这种定向推送的广告影响力不容小觑。

第三,定向发布新闻。脸书的用户范围十分广泛,皮尤研究中心2016年的数据显示,脸书仅在北美地区就拥有2.22 亿用户,其中有40%的用户通过脸书获取天气、交通等信息;有63%的用户通过脸书获取新闻。那么这些网民将获取怎样的新闻呢?通常情况,脸书平台会基于用户的个人情况,借助计算机算法对新闻内容进行筛选排序,然后推送给每个用户,即针对用户偏好的精准投放。但是,这个过程可以人为干预,例如在大选期间,脸书可以修改算法,把候选人不希望网民看到的信息删除,或者大量推送候选人希望选民看到的信息,剑桥分析正是这样把社交工具变成了政治武器。据丑闻曝光者韦利透露,剑桥分析公司可以通过大数据判断用户易于接受的信息形式,包括表达的形式、话题、语气、内容,以及他如何消化信息、一些信息是否令他感到害怕,甚至可以预测需要接触用户多少次才能改变他的想法等。剑桥分析建立了包括心理学、战略策划等各方面的专家团队,负责制作有针对性的新闻信息,再以网站、博客、邮件等各种不同的方式发送给目标群体。他认为“个性化的数据可以让你确切知道,以何种信息瞄准谁,”只要你能“在对的时候,把对的信息,放在对的人眼前”,数据就能发挥威力,潜移默化中,脸书用户的想法开始改变,宣传的目的就达到了。谷歌公司前员工哈里斯在TED公开演讲中把这一过程称为“思想和情感控制”,数以亿计的网民其实进入了“控制室”而不自知。

第四,使用违法手段制造假新闻。从第四频道记者偷拍的视频看,剑桥分析的宣传手段毫无底线并贯穿线上、线下,其中不乏用违法手段构陷对手。如记者询问“如何深度挖掘对手秘密资料并确保真实”时,剑桥分析CEO尼克斯这样回答:“深度挖掘当然很有趣,但是同样有效的是直接和他们谈。向他们提供有丰厚报酬的交易,同时确保暗中录下交易过程,立刻就能获得对方腐败行为的证据。再把视频传到网上,这些策略非常有效。”尼克斯还说,“这些事情不一定是真相,只要人们相信就可以了。”虽然视频播出后,尼克斯被立即停职并接受独立调查,剑桥分析也很快发表声明称“尼克斯被第四频道秘密拍下的个人言论不代表公司的价值观或经营行为”,但是,剑桥分析显然已回天乏力。美国、英国、巴西等国家纷纷表示,要对剑桥分析展开彻底调查,即使公司宣布停业并申请破产保护。

三、脸书公司未能有效阻止丑闻发生的原因

脸书是一家既有强大技术实力,又有雄厚财力支持的跨国公司,之所以未能有效预防这类事件发生,主要有以下两个方面的原因。

内因是脸书公司并没有把用户数据安全问题放在最优先位置,而是像传统商业公司那样优先关注客户增长和营收。但对于传统商业公司而言,安全与发展之间的矛盾并不突出,科技公司则完全不同,没有安全保障的快速增长就意味着风险。而安全与发展又常常无法兼得,因为要确保用户数据安全,就必须全方位加强人力投入,而这势必影响公司的发展速度。以人力投入为例,脸书公司一直设有专门的审核人员,主要职责是判断何时该删除或保留冒犯性内容。但在丑闻曝光前的2017 年5月,脸书在全球范围内仅有4500名审核人员,占当时脸书员工总数23165人的19.4%。可以说,丑闻曝光前的脸书公司,安全人员的投入规模明显不足,因此也就无力处理各种潜在风险。此外,脸书领导层对已经发现的安全问题也没有做到及时处理。例如,脸书平台团队前运行经理桑迪?帕拉吉拉斯,早在2012年前后就发现公司存在安全问题,但高层对此表现冷漠。2018年3月,他甚至在《华盛顿邮报》公开撰文,呼吁“必须让扎克伯格为脸书的疏忽负责。”因此,丑闻曝光前的脸书,并非没有人发现公司运行模式中的巨大安全风险,但这些发现没有引起公司高层的重视,因为高层优先关注的是公司的发展而不是安全问题。

外因主要是脸书的业务范围十分广泛,以至于该公司事实上也没有能力杜绝此类事件的发生。脸书官网信息显示,截至2019年6月底,脸书的月活跃用户的数量高达24.1亿;日活跃用户为15.9亿;平均每天有超过21亿人脸书产品发送信息;每个月还有27亿人至少使用一次脸书的家庭服务。如此量级的人群以如此高的频度活跃在一个社交平台,等于在网络空间建立了一个地球村,监管的难度可想而知。

丑闻曝光后,在股市蒸发、信任危机、天价罚单甚至反垄断调查的多重压力下,脸书公司的高层被迫改变发展理念,把用户数据安全放在第一位。例如大幅增加安全审查人员的数量,从脸书官网可以看到,截至2019年6月底,脸书的全球员工人数快速增长至39651人,涨幅超过70%,2万名安全审查人员已经占员工总数的50.4%。此外,脸书还规范了安全管理过程,发布内容审核指南,“将不可接受的帖子和内容分为六类:暴力和犯罪行为、安全、争议内容、信誉与真实性、尊重知识产权和内容相关请求。”同时“宣布将扩大其内容核查范围,将与第三方视觉机构专家进行合作,把事实核查的部分扩展到图片和视频,并引入机器学习机制,通过AI来识别虚假信息”等。

那么,这些措施是否意味着脸书公司今后一定能有效防止危机事件再次发生呢?答案是否定的,虽然用户数据安全优先战略可以有效减少大规模安全事件的发生,但却很难杜绝此类事件,因为脸书的受众规模和业务范围均过于庞大,远远超出了一个公司可能具备的应付能力。因此,不难解释为什么丑闻曝光后的脸书,之后又连续爆出多起危机事件。

面对媒体的讨伐、网民的批评和政府的惩治,备受压力的脸书公司的管理理念开始出现改变。2019年3月30日,扎克伯格在《华盛顿邮报》上发表了《互联网需要新的规制,可以从四个方面开始》一文,一改之前反对政府干预的坚定立场,转而呼吁强化政府的网络监管责任。扎克伯格提出,要在有害内容、选举安全、隐私和数据迁移4个方面进行重点监管,上述4个方面正是脸书公司近年来发生危机事件的重灾区。一个原本主张互联网自治的跨国企业,转而呼吁政府积极监管,不能把管理责任压给一个企业,足以证明网络安全的复杂性,以及建立多主体协同的网络安全综合治理体系的重要性。

四、结语

通过在微观层面分析脸书用户数据泄露丑闻不难看出,在大数据时代,网络安全的确能够对政治安全产生深刻影响。因此,需高度警惕网络安全风险。

第一,要高度警惕陷入“信息茧房”。互联网时代,每一个网民的生活轨迹、兴趣、偏好都被网络所记录,小到你浏览或购买某种商品后,很快发现无论自己打开什么网页都可以看到相似商品的推送广告;大到你就某一话题发表评论后,发现网上到处都是与自己观点相同的人。这个时候一定要非常清醒,不是你强大到了可以影响互联网的风向,而是大数据让你掉进了“信息茧房”。这个概念由美国学者桑斯坦在2006年出版的著作中提出,用于描述公众对信息的需求并非完整全面,而是倾向于接触符合个人兴趣、使自我感到愉悦的信息。当人们的信息领域习惯性地受制于个人兴趣,慢慢会导致信息选择范围日益狭窄,人们只会看到与其态度一致的内容,听到与其信念一致的声音,接触与其立场一致的人,像蚕茧一样禁锢在“信息茧房”中。从剑桥分析丑闻可以看出,很多互联网公司在网络上发布的信息都是经过精心筛选、基于网民偏好精准推送的,长此以往会导致网民看到的信息可能只是他想看到的,网民接受这样的推送越多,离真实世界的距离就越远,对问题的感知、事件的判断可能会失真。要改变这种状况就要远离指向性非常明显的推送信息,尽可能从多元渠道获取信息资源。

第二,要清醒认识网络对极端思想、负面信息的放大效应。玛丽·米克尔在《2019年互联网趋势》报告中提出,网民们总是更喜欢负面新闻,研究者的“参与者的新闻选择偏见”实验也证明,无论参与者说什么,他们都表现岀对负面新闻内容的偏好,“互联网上存在问题的内容,有可能会被过滤掉的较少,有可能被放大的较多。”以美国国会议员的政治立场变迁为例,1994年以来,也就是互联网快速发展的25年,美国两党议员的政治价值正明显走向极化。调查以稳健自由派、温和中间派、稳健保守派划分两党的政治价值观,图1中左侧图形为民主党,右侧图形为共和党,中间图形是横跨两党的持温和观点的人。

从图1中可以明显看出,1994年两党持温和中间立场的人非常多,所以两党有较大的共识空间。到2004年两党持温和中间立场的人均开始减少,但两党共识空间依然充裕,美国的政治生态依然健康。到了2017年,两党持温和观点的人则出现锐减,民主党的稳健自由主义者和共和党的稳健保守主义者均大幅增加,两党明显正走向极化,两党共识区的顶端几近塌落,因此,在大数据时代,互联网传播对政治观点极化的影响不可小觑。

第三,要牢记天下没有免费午餐。互联网公司绝不是提供各种免费服务的慈善机构,我们在网上注册的全部个人数据,其实就是我们的付费,这是互联网时代新的付费形式。所以,如果你不知道自己的信息被谁卖了,那就该问问自己,是否下载了太多免费应用软件,这些软件都会获取你的在线信息;以及是否在一次次点赞、帮助投票、帮助砍价的过程中,允许第三方使用你的公开信息。要记住,所有互联网公司都是网民数据的收割机,这已经写进互联网公司的DNA,因为我们的数据就是他们实现商业模式的基础。

第四,要慎用大数据预测,这是一把双刃剑。大数据预测能给人类带来很多显见的好处,例如通过大数据预测可以发现世界性流感的传播方向,也可以预测一个人未来某时刻的地点位置,但是与此同时,也意味着人类进入了失去隐私的时代,就像生活在鱼缸里的金鱼。英国剑桥大学的研究显示,他们通过网络数据可以预测一个人的性取向,判断一个人的父母是否曾经离婚。美国东北大学跟踪研究了10万名欧洲手机用户,分析了1600万条通话记录和位置信息,他们得出的结论是,预测一个人在未来某时刻的地点位置,准确率可以达到93.6%。为此《大数据时代》的作者维克托·迈尔一舍恩伯格说,“我的担忧不是因为,我们进入了一个被监视的社会,而是我们进入了一个人类行为被如此精确预测的社会,并且我们将要因此而惩罚人类,我们降低了人类自由的意志,以及人类的个人特征,而这些远比被监视更加危险。”

总之,网络安全和信息化对一个国家很多领域都是牵一发而动全身的。没有网络安全就没有国家安全,就没有经济社会稳定运行,广大人民群众利益也难以得到保障。在大数据时代,一定要高度重视网络安全,积极采取有效措施防止网络渗透,进而确保政治安全和社会稳定。

(原载于《保密科学技术》杂志2020年4月刊)