下载APP | 繁體版 | 发布广告 |常用工具

登录注册找回密码切换风格

我要发布

倍可亲首页 › 日志 › 长白山 › 日志

长白山 (已有 318,406 人访问过博主空间)

https://www.backchina.com/u/98078

哈佛报告：中国网络审查制度如何允许批评政府却禁止群体煽动 ...

作者：长白山于 2013-10-25 00:59 发表于最热闹的华人社交网络--贝壳村

通用分类:热点杂谈|已有1评论

加里哈佛大学肯尼迪政治学院教授

珍妮弗·潘哈佛大学肯尼迪政治学院博士生

玛格丽特·罗伯茨哈佛大学肯尼迪政治学院博士生

【按】本文原载于《美国政治学评论》（American Political Science Review）2013年5月刊，题为《中国网络审查制度如何允许批评政府却禁言群体煽动》（How Censorship in China Allows Government Criticism but Silences Collective Expression），作者为哈佛大学教授金加里（Gary King）和他的学生珍妮弗·潘（Jennifer Pan）与玛格丽特·E·罗伯茨（Margaret E. Roberts）。该论文刊出后不久，观察者网即组织翻译。

金加里教授等通过对中国网络审查制度的大规模、多来源数据分析，得出结论：中国的领导层允许社交媒体发展，允许对政府、政策、领导人的批评。中国人在个体上是自由的，但在群体活动上是受控制的。这其实与我们看到的世界各国政府处理同样问题时采纳的方法基本相似，比较近的例子是英国卡梅伦政府对付社交媒体与骚乱的做法。

哈佛大学的教授等级中，最高级别是“校级教授”（University Professor），全哈佛大学目前一共只有24名。而政治学系金加里（Gary King）的“阿尔伯特•韦瑟黑德三世校级教授”（Albert J. Weatherhead III University Professorship）头衔正是从大名鼎鼎的美国政治学者、前哈佛大学政治学系教授亨廷顿（Samuel Huntington）身上传承而来。

虽然作者功力扎实，又具有重要的学术地位，但由于种种原因，与《外交政策》杂志上此前刊登的《谣言共和国》相比，该论文在中美学术圈和媒体上引起的反响则显得迟缓。《纽约时报》中文网专栏作家欧阳斌近期在哈佛大学就该论文对金加里教授进行了采访。《环球时报》今日则刊发观察者网专栏作家、复旦大学国际政治系讲师沈逸文章《客观研究中国网络，摘下有色眼镜》，评述了该论文在学术圈内的窘境。

观察者网今日特刊出金加里教授领导撰写的此文译文（附录部分有删节），供读者借鉴：

中国网络审查制度如何允许批评政府却禁止群体煽动

How Censorship in China Allows Government Criticism but Silences
Collective Expression

译者：朱新伟、王杨

我们对可能是有史以来最广泛的对人类言论的选择性审查效果进行了首个大规模、多来源的分析。为此我们设计了一套系统，赶在中国政府发现、评估并审查（从互联网删除）他们视为不妥的内容之前，从1400个不同的社交媒体网站上定位、下载并分析数百万的帖子。利用现代电脑文本分析方法，我们分别将85个主题范围中，在一段时间内被审查的帖子与没有被审查的帖子的实质内容进行了对比。跟之前的理解不同，那些对国家、领导人和政策进行消极甚至刻薄批评的帖子遭审查的可能性并不高。但是我们发现审查工程旨在限制群体性事件，对代表、加强或刺激社会动员的言论，不论是什么内容一概禁言。审查的目标是预先阻止当前或未来可能发生的群体性事件，而且，它也明确暴露了政府的这一意图。

介绍

中国政府有选择地审查中国人民言论的项目，其规模和复杂程度在世界历史上是没有先例的。美国的社交媒体集中在少数的网站上，而中国则分布于数以百计的地方站点上。审查的很大一部分责任下放给了这些网站内容提供者，如果他们违反政府审查守则，就有可能遭罚款或关停。为了遵守政府规则，每个网站都雇佣了最高达1000名审查员。此外，来自中央、省级和地方等不同级别的约2万-5万网警和网管办（员工）以及约25万-30万“五毛党”都参与了这项艰巨工程。中国的新闻自由规模在197个国家中与缅甸并列第187位（据2012年自由之家报告），但是中国的审查工作是迄今最大的。

在本文中我们发现，这一旨在限制中国人言论自由的机制，却自相矛盾地包含了异常丰富的信息资源，暴露了中国政府利益、意图和目标——这是学术和政策研究团体一直关注的话题。这样的信息可以不间断地获得，跟通常媒体零星报道的领导人的公开活动不同。我们用该新信息发展新的理论以解释审查机制的总体目标，进而揭示中国领导层的一些最基本目标，这些目标至今备受猜疑，却缺乏实证分析。该信息对于其他很多学术（和实用）用途也很有价值。

我们核心的理论发现是，与很多研究和评论相反，审查机制的目的不是压迫对国家或共产党批评的言论。确实，尽管审查广泛存在于社交媒体，我们发现当中国人对政府或领导人提出尖刻批评时，他们的帖子被封杀的几率并没有上升。但是，我们发现审查的目的是降低群体行为的可能性。只要群体性运动确定或可能发生，他们就会及时删除社交联络。我们阐明上述观点并讨论它们对中国政治和比较政治学的很多研究领域产生的深远影响。

在以下章节中，我们先对中国审查制度提出两种理论。接着我们介绍独特的数据源以及收集数据过程中的挑战。接下来，我们阐明分析的策略，给出结果，并总结。附录包括编码细节，我们的中文文本自动分析方法，并暗示了审查行为如何预示政府在互联网之外的行动。

政府意图以及审查目标

以前衡量政府意图的指标 破译中国领导人隐秘的意图和目标曾是研究中国精英政治研究的焦点。西方学者采用克里姆林学或北京学（中国政策研究）作为其研究方略。随着文化大革命和改革开放的到来，研究者可获得越来越多的数据，而学者也将研究方向转到信息更开放的领域。今天的中国研究总体上依赖于官方数据、民意调查、地方官员访谈以及官员和政府的公开活动。这些资源很适合回答其他重要的政治科学问题，但是对于衡量政府意图，它们显然是间接的、采样过于稀疏且往往价值存疑。比如，官方数据公布的“群体性事件（mass incident）”的数量，可能显示了政府利益的考量，但我们只有将真实数字和政府操作分开才能看到这一点。同样，抽样调查或许有用，但政府显然对普通公民有所隐瞒，而且即使受访者拥有研究者想要的信息，他们可能也不愿透露。在直接访谈官员时，研究者不得不占一卦来确认他们的知情人真正相信什么。

衡量意图就更加困难了，目前的方法提供的信息太少，因为中国政府不是铁板一块。其实，在很多情况下不同的政府部门、不同的领导或不同级别的政府工作目的千差万别，甚至很难确定一个统一的意图或动机，更别说衡量了。我们不能解决所有的问题，但是政府的审查行为中的偏好会透露更多信息，据此我们可能会更好地采用有用的衡量手段。

审查理论 我们试图充实审查的工作方式以及网络如何拓展公共话语的空间的研究。我们首先建立一个基于实证研究的理论，解释政府为什么要审查以及他们想通过这样庞大的机制达到什么目的。当下学者的结论合理但宽泛，即中国政府审查是为了维持政权。而我们着重研究政府到底认为什么事是要紧的，以及它采取了什么行动实现目标。

为此，我们提出了两个理论。这两个理论各自反映了威胁中国政权的某个方面。首先是国家批评论，即假定中国领导层是为了镇压异见并约束指摘中国政府、政策或领导的言论。结果是让看得到的公众言论对掌权者更有利。很多对国家的批评都包括在该理论中，比如差劲的政府业绩。

第二个理论是我们所说的潜在群体行为论，即审查目标是联合起来集体表达意愿的人，他们受政府之外的人的激励，并有引发群体行为的可能。该观点认为，群体表达——很多人在社交媒体上就同一问题交流——涉及真实的群体行为，比如抗议或容易引发群体行为的事件，很可能会被审查。有潜在群体行为的帖子是批评还是歌颂国家，还是不涉及国家，都与本理论无关。

“潜在群体行为”也可以用中国政府鲜明的立场来描述，即不受政府控制的群体表达无异于派系斗争，并最终会导致混乱和无序。比如，在共产党建党90周年前夕，新华社发表社论称，西方式议会制民主将导致中国重蹈文革的动荡史。同样地，在2011年3月召开的第11届全国人大四次会议上，全国人大常委会委员长吴邦国称，鉴于中国的国情，中国将不会借鉴多党轮流执政的体制。这样做的目的，是为了避免中国“陷入内乱深渊”。中国观察家们常会注意到，中国政府对维稳的重视和通过约束社会关系限制群体行为的愿望。中国体制遭遇了大量的争端和群体行为。清华大学社会学系教授孙立平称，2010年，中国共发生了18000起群体性事件。而这些事件将不可避免地对政府处理问题的方式和观念产生影响。因为频繁遭遇群体行为，政府的行动和观念也受到影响。中国政府认为，对横向沟通加以约束是合法且有效的保护人民的手段。

现在的学者无法通过实证研究分析我们提供的两种理论的不同。Marolt (2011) 写道，当“或者批评政党及其政策，或鼓动群体性政治运动”时，网上的帖子会被查封。MacKinnon (2012)称在温州高铁相撞事件中，互联网内容提供者受命“跟踪并审查批判性的帖子。”Esarey和Xiao (2008) 发现中国博主采用讽刺手法批评政府，以避免遭到镇压。Esarey 和 Xiao (2011) 写道，共产党领导人最害怕“有影响力的网民联合对政府施压，要求其改变政策，”但他们认为这种施加的压力就是对政府的批评。Shirk (2011)称审查的目的是约束政治反对派的动员，但她的例子表明批评的观点来自于那些被压迫的人。

抗议这样的群体行为经常被视为是专制政权的丧钟。东德、东欧以及最近的中东抗议都导致了政权革命。很多中国学者都关注导致人们反抗的因素以及人们采取的策略。中国政府似乎要不计代价阻止抗议——而且确实，群体行为的多少是地方官员的考核标准之一。然而，最近的数个研究指出专制政权可能会期待并欢迎潜在的小规模抗议活动。因为了解并处理群众的不满会促进政权稳定。Chen (2012) 指出小规模、孤立的抗议是中国长期的传统，也是政府所期待的。

结论概述

上述两个假说可能都对，也可能一对一错或者全错。根据我们的证据，答案很简单：国家批评论是错误的，潜在群体行为论是正确的。我们的数据表明，中国的审查机制允许对中国政府、官员和政策的广泛批评。结果是，审查首要针对的是限制可能引发群体行为的信息传播，不论这种表达是直接反对政府还是与政策有关，都会审查。如果网上发帖数量大增，且内容与可能引发群体行为（如地面抗议）的事件有关，那么审查就会到来。此外，我们还考察了每个事件中的情绪，发现在这些事件中，政府对支持和批评的观点一概删除。这表明中国政府相信，压制有可能引发群体行为的帖子比压制批评对维持统治更加重要。

数据

我们收集大量具体信息时面临巨大挑战，中国政府不希望任何人看到这些信息，因此会竭尽全力阻止别人获取。下面我们我们将讨论审查的种类，数据收集过程，该研究的局限性，以及我们对数据做后续分析的方法。

审查的种类

中国审查社交媒体上人类表达至少有3种方式，最后一种使我们研究的重点。首先是“中国大（长城）防火墙，”该防火墙完全禁止某些网站在中国运营。大防火墙令很多国外的互联网公司头痛，也阻止了中国人通过这些网站与国外的人交流。但中国人可以用其他的网站，用相似的方式表达自己的观点，对此防火墙就无能为力了。比如，脸书在中国被禁，但人人网是相似的替代品；同样新浪微博也是人气很旺的推特的克隆网站。

第二种方式是“关键词屏蔽”，它防止用户发布含有被禁的词或短语的文本。这对限制言论自由作用有限，因为网民发现比自动程序聪明并不难。他们用类比，比喻，讽刺等方式逃避审查。汉语提供了多种新颖的方法，比如替换汉字，其意思与原意无关但读音相似（同音字）或看上去相近（同形异义字）。比如目田，本意是“眼睛田野”，但被魔兽世界玩家用来代指自由。同音字方面，“hexie”这个音经常被写成河蟹，意思是河里的螃蟹，但它是代指和谐，即官方的“和谐社会”政策。

一旦跨过了前两个障碍，文章就在网上发布了，审查者将阅读并删除那些不妥的文章。根据研究文献、观察家、与数个政府内部人士的谈话以及对数据的审核，我们几乎可以断定，内容过滤很大程度上是人工完成的——审查者手动阅读文章。自动程序似乎只是辅助。跟大防火墙和关键词屏蔽不同，手动审查不会被文字游戏糊弄。因此，这也是最后也是最费力的审查方式，也是本文的研究重点。

收集

我们先收集社交媒体上的博客，至少在审查到来前，作者可以完整的表达他们的思想。

在很多国家，如美国，几乎全部博客都集中在少数几个大网站上（脸书、谷歌博客、Tumblr等）；中国确实有新浪这样的大网站，但还有很大一部分社交媒体资源分布在无数的单个站点上，比如地方bbs论坛等。这种多元对数据的收集工作造成了逻辑上的挑战。由于网址、软件界面、地方审查官员、网络可靠性、访问速度、使用条款各不相同，审查模式也不同，能对我们的数据收集造成潜在妨碍的方式也多种多样。幸运的是，中国独特的社交媒体结构也为研究各地对群体表达的监管提供了绝佳机会，因为大量的本地站点提供了丰富的信息，这比在美国还要便利。

数据收集面临的最复杂的挑战是，赶在中国政府阅读并删除不妥的内容之前，定位、访问并下载相关内容。此外，对每个帖子进行频繁重访以确认删除的时间。还要在中国很多地方收集数据同时不会影响到我们研究的审查机制，研究也不会遭到制止。

我们能完成的原因是数据手机系统高度自动化，而中国审查系统涉及人工操作。我们庞大的工程（由于明显原因将不会在此详述）在全世界很多地方运行，包括中国内地。

中国审查制度

最后，在2011年前半年，我们从1382个中国网站上定位、访问并下载了社交媒体帖子。中国社交媒体结构最显著的特就是它有极长的（幂律状的）尾巴。图1是各网站的样本和中文标识（图片a）以及代表该长尾的网帖数量饼状图（图片b）。最大的网帖来源是新浪博客（占总数的59%），百度嗨，华生论坛，四月论坛和天涯。但尾巴还在一直延伸。

社交媒体帖子涵盖的话题范围太广，以致于企图涵盖一切的随机取样策略很难对单一的话题提供有价值的信息。因此，我们采取了分层随机抽样设计的方法。我们先选取了85个单独的话题范围，并按照假定的政治敏感性分为高（如艾未未）、中（如计划生育）、低（如流行网游）三档。通过回顾以前的研究、咨询中国专家以及对当下事件进行研究，我们分别在这三档中选取某些特定话题。附录A是完整的清单。然后，对每个话题范围（用关键词区分），我们收集6个月时间内所有相关的社交媒体帖子。我们检查每个话题范围的帖子，删除垃圾邮件，再用辅助阅读工具对内容进行研究。(Crosas et al. 2012; Grimmer and King 2011)我们收集了3674698篇帖子，其中随机选出127283篇进行进一步分析。（我们在其他时间段里重复这一过程，有时候会对某些话题范围进行更深入的研究。总共收集并分析了11382221篇帖子。）所有这些来自中国站点的帖子都是用中文写的，不包来自括香港和台湾的文章。我们先阅读每篇文章的内容，将其置于某个话题范围的时间轴上，并重复访问源网站以确定其是否被审查。根据需要，我们将用其他特定的数据对该信息进行补充。

审查者们并不害羞，因为我们发现可以直接区分（有意的）审查和零星的断电或短暂的超时错误。被审查的网页包含这样的字眼：“抱歉，指定的主题不存在或已被删除或正在审核‘，有时候也会有警警和察察的标志。

尽管我们的方法比审查者快，但他们显然也是高度专业的。为了说明这一点，我们随机收集并分析了2011年9月27日上海地铁相撞事件前后的网帖、2012年4月10日到12日薄熙来事件的网帖和有关谷开来的网帖。

中国网络审查制度

我们对上述三个话题范围的帖子进行不间断监控，一共监控了9天。（其他范围的审查遵循同样的基本方式）图2表示的是被审查的帖子数的直方图。在三个事件中，大多数的审查是发生在原文发布后的24小时之内，当然也有一小部分帖子是5天之后再被删除。这是一种惊人的组织能力，它需要大规模的军队般的精确：不同政府级别、分管不同互联网内容提供商的领导需要首先做出决断（通过一致意见、直接命令或折中），决定什么内容需要被审查；他们需要将该决定传达给数十万的个人；然后他们在大约24小时之内完成审查工作。正如埃德蒙（2012）指出，社交媒体上信息源的激增让信息越来越难以控制，然而，中国政府竟然在全国范围内克服了这一困难。鉴于很多人很难达成一致意见，而且文本解释中实现高级别的编码者信度通常会很困难（比如Hopkins and King 2010, Appendix B）政府对审查工作的努力是巨大而专业的。我们发现了一些证据，表明这一庞大芜杂的官僚体制中存在不同意见，比如在不同级别的政府之间。但我们尚未对此进行细致的研究。

局限性

如下所示，我们的方法很大程度上揭示了中国领导层的目标，但它缺少网站的自我审查以及在我们获得内容之前进行的审查；它也没有对大防火墙、关键词屏蔽或搜索过滤的直接效果进行量化。我们也没有研究肢体暴力的效果，如逮捕博主或进行威胁。尽管各级政府和官员会对审查什么、何时审查进行干预，但我们的数据有时候并不能让我们对这些信息源加以区分。

我们当然无法判断这些局限性的后果，不过我们可以合理地推断其中最重要的当属肢体暴力、威胁以及由此导致的自我审查。尽管我们分析的社交媒体数据包含数百万中国人的意见且涵盖了机器广泛的话题和演讲行为，而我们无法观察的更少的讨论活动很可能是对中国政府利益最要紧（或最紧迫的）。

最后，过去对互联网行为的研究是基于他们的测量方式跟“现实世界”行为有多接近；接着，网络行为占据了人类生活很重要的位置，因此今天社交媒体上观察到的思想本身就非常重要，不论它能否很好地衡量非网络自由和行为。但无论是哪种方式，我们难以拿出证据说明，我们对中国社交媒体的研究跟新闻自由或其他的人类表达有什么关联。

分析策略

总体上看，大约有13%的帖子被审查。如果将所有领域所有的帖子汇总起来，这一平均水平随着时间的推移变化不大，但它会随着帖子数量和审查力度的变化产生巨大变化。我们发现，潜在政治敏感性和审查之间的关联性非常低：在低档和中档敏感度事件中，审查率基本一致（分别是16%和17%），仅仅比高档敏感度事件（24%）低了一点。显然还有一些事情。为了发现是什么事，我们接下来讨论我们的编码规则、核心假设和中国政府可能的审查程序。

编码规则

我们分5步进行编码。首先，我们先将社交媒体帖子按分层随即抽样设置的关键词，将其分为85个话题范围。尽管我们做了大量的检查（通过大量阅读并借助现代电脑辅助阅读技术），确保其准确性，我们的话题范围里难免（借助任何机器或人工分类技术）存在一些归类错误的帖子。我们采用了保守的方法，先做出结论，忽略这一错误的影响。随后，我们进行了反复的筛查（用同样的技术），确保我们不会错过任何重要的信息。这种归类错误可以看做是系统性错误，但其中的每个事件都巩固了我们的结论。

第二，众所周知，几乎所有话题范围（和国家）的言论是“阵发”的，即稳定的时期常常被偶然爆发的有关某话题的数量激增打破。我们还发现仅仅有两个例外——色情内容和对审查者的批评，如下所述——审查工作在数量爆发（volume burst）时期（即事件热点时期）力度往往格外大。因此，我们对数量爆发期前后的数据进行了处理。我们将每个话题范围都看做6个月时间序列中每天的数量，并采用文件回归技术计算的权数侦测数量爆发，以确定在剩余时间序列中的离群值（outlaying observations）。

通过这一过程，我们检测到85个话题范围中有67个出现数量爆发，一共出现了87次。

第三，我们将每个事件归为一下五类：1.潜在群体性事件，2.对审查者批评，3.色情内容，4.政府政策，5.其他新闻。每个类别都可能包含批评或不批评政府、领导人和政策的帖子。我们将群体行为定义为：两个（含）以上的人，受到参与者而非政府官员或政府代表的鼓动或控制，追求目标的行为。我们的“潜在群体行为”理论上包括任何有可能引发群体行为的事件，但是为了保守起见，并确保编码规则清楚明确且可以重复，我们将这一范畴限制在a)包含抗议活动或有组织的人群组成；b)与曾经组织或引发群体行为的个人有关；c)与曾经引发抗议或群体行为的民族主义或民族主义情绪有关。

事件是指，对效命于政府或非政府实体的审查者的批判，包括个人和公司。色情是指，包含色情或明显性方面内容的电影、网站或媒体的广告或新闻。政策指政府声明或政府活动报告，包括国内或对外政策。其他新闻是指对上述4类事件以外的事件的报告。

最后，我们进行了一项研究以验证我们编码规则的可靠性。为此我们把上述规则给两位熟悉中国政策的人看，并请求他们对87个话题范围分别进行编码（每个话题范围都与一个数量爆发有关），并将其归入上述的5个范畴中。编码者独立工作，独自对这些事件进行归类。两位编码者的一致率是98.9%，即87个话题中的86个归类都相同。唯一不同的话题是方滨兴（大防火墙的发明者）遭扔鞋事件。这一事件中，既有对审查者的批评，在一定程度上也是群体行为，因为有好几个人一起向方滨兴扔鞋。我们将该事件作为批评审查者的例子，不过不管它怎么编码，都不会影响我们的结果。因为我们估计两个都会遭到审查。

核心假说

我们的核心假说是，数量爆发期间，政府会将话题范围内所有讨论潜在群体行为事件的帖子删除。也就是说，审查者将不管这些帖子是否有群体行为的可能，或许部分是因为编码者信度（intercoder reliability）很低。其实，Kuran (1989)和Lohmann (2002)研究表明，正是有关群体行为事件的信息促进了群体行为的产生，因此，要想把这种信息和明确的对群体行为的号召区分开来，即使不是不可能，也是非常困难的。因此，我们假设审查者采用了更简单的方法判断帖子是否与潜在群体行为有关，而且他们不会考虑帖子是否是批评政府的。

审查者还试图把色情和批评审查者的内容全部删除。但不会删除政府政策和其他新闻范畴内的帖子。

政府的运作程序

中国政府审查的确切运作程序当然无法观察到。但是通过跟接近审查机构的人和内部人士的交谈，我们相信我们的编码规则可以视作接近真实程序。（其实，在文章的一个草稿公布后，我们收到了反馈，证实了我们的观点。）我们手动确定话题范围，用关键词对帖子进行归类，并通过统计发帖数量的时间序列数据，自动甄别数量爆发。某些情况下，对现实世界事件的甄别可能发生在事件发生之前，因为审查者会被秘密告知某事将要发生（比如对某个异见分子的逮捕），而这件事可能引发群体行为。在数量爆发期间对事件进行甄别首先几乎全部需要人工完成，或许有时会辅以算法识别特色词组（statistically improbable phrases）。最后，对单个帖子做出审查决定——根据我们的假说，要检查它是否与某个特定事件有关——几乎肯定是人工完成的，因为没有哪个已知的统计或机器学习技术的精度能与中国审查工作的精确程度相比。审查者可能会先用关键词搜索找到相关事件，但他们需要人工阅读文章，再进行审查。比如，当审查者从网上的讨论中找到增城事件的文章，他们可能采取了关键词搜索的方式，但他们可能必须要阅读全文，这样才能将增城抗议和增城的其他信息区分开来，比如增城荔枝收获。

结果

接下来我们介绍3个具体的测试以验证我们的假说。这些测试是基于：1 帖子数量，2 引发每次数量爆发的事件性质，以及3 被审查的帖子的具体内容。此外，附录C（见文末）提供了一些证据，表明中国政府的审查行为自相矛盾地反映了中国政府的意图。

网帖数量

假如审查的目标是禁止有可能引发群体性事件的讨论，那么我们应该会看到，数量爆发期间会比别的时期有更多审查。我们会看到，一些爆发——有群体行为可能的——审查的级别会更高。

为了研究这一模式，我们引入了“审查强度”的概念，即数量爆发期内被审查（删除）帖子的百分比减去数量爆发期外所有被审查（删除）帖子的百分比。（基本比率在不同的话题范围中变动很小，如下图所示，没有造成天花板或地板效应)。这说明中国政府的举措之严厉，因为在数量爆发期间进行审查明显更加困难，网帖数量更多，时间更紧迫，且没人预先警告什么时候会出事。

表3的a直方图显示的结果似乎支持我们的假说。结果表明，绝大多数的数量爆发的审查强度集中在0附近，但有一条显著的长尾（坐标轴左侧没有相应的长尾）。显然数量爆发往往伴随着审查强度的大幅提高，即使跟接下来的6个月相比也是如此。

中国网络审查制度

能引发数量爆发的事件的性质

我们发现，由群体行为，批评审查者和色情事件引发的数量爆发会遭到审查，但是由讨论政府政策和其他新闻引发的发帖量增加则不会。

我们在下一节讨论国家批评论。这里，我们提出针对本次调查结果的三个结论。

首先来看图3的B列，其审查强度的分布与A列一样均匀，并按时间类型显示。结果很明显：与群体性事件、批评审查者和色情（分别是红、橘红、黄色）相关的事件基本都在坐标系的右边，表明审查强度很高，而关于政策和新闻的事件基本都在坐标系的左边（分别是蓝、紫色）。群体性事件的审查强度平均是27%，而政策和新闻的平均审查强度分别是1%和4%。[横坐标（删除率）基本上数值很小，约为3-5%，上下波动幅度不高。]

第二，我们列出审查强度最高和最低的时间案例，在图4用相同的颜色标注。群体性事件可能性最高的事件包括内蒙古牧民被运煤车撞死事件、增城孕妇遭保安殴打引发民工骚乱事件、艾未未被捕、抚州征地爆炸。明显的是，“群体性事件可能性”最高的事件根本与政治无关：日本地震和核电厂事故发生后，浙江出现谣言，称碘盐可以抵御核辐射，于是民众抢购食盐。这个谣言没有科学依据，也和国家无关，但却遭到了严格的审查；原因大概是，该事件中，政府失去了对群体性情绪在当地的控制。实际上，我们发现在当地网站上的碘盐谣言审查要比全国性网站来得严格。[在图4的两个相关事件中，社交媒体的新闻和讨论中经常会色情内容，以吸引眼球。]

中国网络审查制度

与我们的“潜在群体性事件防范论”结论一致的是，一些审查最严格的事件不是对国家政策的批评或讨论，而是可能引发群体聚集的当地性群体表达。一个例子是，温州的一个当地网站出现了一些帖子，声援环保人士陈飞。陈飞力挺用于保护当地环境的环保彩票。虽然陈飞受到了中央政府的支持，但是，所有关于他的帖子都被当地网站删除了，原因有可能是他过去阻止过群体性活动。2000年后，陈飞建立了绿色环保志愿者协会，拥有超过400名注册会员，创立了中国首个“无塑料袋村庄”，最终推动了关于使用塑料袋的立法程序。另一个例子是关于江苏沭阳儿童铅中毒事件。相关的网络帖子讨论了天能集团的电池厂导致儿童健康状况受污染的事情，医院拒绝向受害儿童父母公布检测报告。2011年1月，沭阳村民在电池厂门前要求解释。审查者绝不容许这类群体性集结，无论它是支持政府或批评政府。

所有被标记为“可能发生群体性活动”的事件中，事件内的审查比事件外的审查更为密集。另外，平均来看，这些事件比其他事件的审查率要高得多。这些事实与我们的分析一致，即，审查者会主动搜寻并删除那些与“可能发生群体性活动”事件有关的帖子。不过，我们想进一步分析审查的不同力度：虽然我们已经采取的定量分析，但显然，“可能发生群体性活动”中的某些事件要比另一些事件敏感性高得多。因此，通过分析个别事件，可以看出，审查程度低的事件，其发生群体性活动的可能性也较低。

以下举例分析。动画电影《功夫熊猫2》上映时，关于电影种族歧视的抗议出现了言论的数量爆发，但未来发生大规模抗议的可能性显然极为有限。另一个例子是钱云会事件，这位浙江农民带领村民抗议当地政府征地补偿不公，后来被卡车压死。钱云会遭遇的这两件事都发生在我们调查以前。在我们调查期间，钱云会的遗属为了争取赔偿又引发了一次热点，但这一事件的数量爆发更为集中、事件本身煽动性较低。

最后，我们给出三类事件更为详细的一些例子，其中每一类事件都基于某一话题领域的随机帖子。首先，图5给出了4个例子，一开始都是审查力度很低，然后相关言论突然出现数量爆发，审查强度也就随之升高。无论是删帖的绝对数量，还是删帖占所有帖子的比例，都是非常高的。4张图表（还有其他例子，本文无法一一列举）的结论很明显：中国政府在言论数量爆发期会加倍投入审查。

中国网络审查制度

我们进一步分析了（按照Grimmer and King 2011的分析方法）可能发生群体性事件的言论数量爆发期间没有被删除的那些帖子，如图5的a坐标所示，红色区域并没有完全覆盖灰色区域。这些未被删除的帖子与事件没有直接关系，而是恰巧包含了事件话题的敏感词。我们再次发现，审查者在增加审查强度时，操作非常精准。自动分类不可能达到如此高的准确度。

第二，我们在表6种给出4个话题，这4个话题都有至少1个数量爆发期，但没有遭到审查。其中包括重大而富有争议性、具有潜在煽动性的话题，计划生育、教育改革、腐败和电价调整，但均与地方性的群体表达无关，所以，审查强度一直非常低。

中国网络审查制度

最后，我们发现，几乎所有的话题都呈现出图5和图6的趋势。两种模式如图7所示。这些话题包括色情内容（坐标a）和对审查者的批评（坐标b）。这些话题的特点是，6个月以来其审查强度始终很高，并且，没有在数量爆发期加大审查强度。美国政客将色情内容视为挑战国家的“道德操守”，中国领导层也将其视为腐蚀年轻人身心健康的产物，并且是社会不稳定因素之一；总之，必须对其进行审查。

更令人惊讶的是审查者的“不当行为”：他们允许中国人批评任何一位政治家，但不允许批评审查者自己；允许批评每一项政策，但不允许批评言论审查政策本身；允许批评每一个项目，但不允许批评他们自己的项目。就算是用中国自己的牵强理由来看，图7所示的结果仍可称得上是惊人之举。

哪些要删除，哪些无需删除

我们的最后一项测试是比较删除的帖子和未删除的帖子的内容。“国家批评防范论”认为，批评政府的帖子都会被删除，无论它有没有引发群体性事件的可能性。相反，“潜在群体性事件防范论”认为，有关群体性事件的帖子都会被删除，无论它是批评或赞扬国家；而那些无关群体性事件的帖子，无论对政府是褒是贬，都不会被删除。

为了执行此次大规模测试，我们需要一种自动文本分析手段。因此，我们将Hopkins和King（2010）分析英语的方法应用到汉语文本。这个方法不需要机器翻译、个别话题分类计算或鉴别每个话题的关键词（当然，免不了会发生错误）；其方法只需一小部分的中文文本。我们采用了一系列严格的测试，并获得高度精确的结果——如同人工阅读和分类一般。我们在附件B中描述这一方法，并列举若干例子。

就我们的分析而言，我们将帖子内容分为3类：（1）批评政府（2）支持政府（3）与事件无关的报道或事实性的报道。不过，我们对每个类别中的帖子比例没有兴趣，对删除的帖子和未删除的帖子的比例也没兴趣——那是Hopkins和King的研究方法。我们的方法是，估计并比较每一个类别中被删除的帖子的比例。因此，我们使用的贝叶斯方法（参见附件2），对Hopkins和King的方法进行改进。

我们首先分析特定的事件，然后从所有的事件中随机抽取帖子。关于群体性事件，我们精确选择了艾未未被捕、内蒙古抗议、抚州拆迁爆炸事件。图8的坐标（a）呈现了每一个事件中删除帖子的比例，其中，批评政府的用红色表示，支持政府的用绿色表示；纵坐标是95%置信区间。显而易见，无论帖子支持或反对政府，删除率都很高，平均是80%。虽然常识认为删帖是为了过滤批评政府的声音，但测试表明，批评政府的帖子的被删概率并不比支持政府的帖子高。这支持了“群体性事件防范论”结论，并与“国家批评论”相悖。

中国网络审查制度

我们还从图6中选取了三个主题，进行平行试验。这三个主题都没有群体性活动的可能性：计划生育、反腐政策和物价上涨的新闻。结论与我们的预期相符：无论支持或反对政府，相关帖子的删除率都很低，平均约为10%。

为了检验以上结论的普遍有效性，我们从所有数量爆发的主题中随机选取没有群体性活动可能性的帖子。图9显示的结论与图8一致，群体性活动可能性高的事件删除率也高，无论帖子是支持还是反对政府，而新闻和政策性事件的帖子删除率较低。同上，支持或反对政府的态度对删除率影响不大，而与群体性活动的关系则很大。

中国网络审查制度

结论很明白：如果帖子牵涉到群体性活动的可能性，那就会被删除；否则就不会被删除。无论帖子支持或反对政府、领导人或政策，都与删除率无关。

最后，我们列举几个中国社交媒体的帖子内容。首先，我们举出两个无关群体性活动可能性的帖子，虽然帖子内容都批评了政府和领导人。例如，以下帖子直接进行了人身攻击，点名当地政府：

这是一个漠视生命的市政府[陕西省榆林市]、一个官员横行的市政府、一个没有公正的市政府，一个低级趣味的市政府，一个包二奶的市政府，一个为钱不要脸的市政府，一个为个权不要人格的市政府，一个没有血性的市政府，一个没有道德底线的市政府，一个出尔反尔的市政府，一个忘恩负义的市政府，一个不要子孙后代的市政府，一个什么怪事都出的市政府，一个什么的市政府，只要你想到的就有……

另一位博主尖锐地批评了中国的计划生育政策，同样未被删除：

可以提倡人民自愿节育，但让人断子绝孙的强制节育，搞30年已是忍辱负重，不能形成路径依赖，将不得已的临时性恶政无限延长……可以毫不夸张地讲，计划生育是农民最痛苦的暴政。虽说是“必要的恶”，却是世界少有，遭到世界舆论的广泛谴责，实在不该以此为豪。

最后，以下博文尖锐批评中国共产党背弃民主和宪政诺言，提及天安门事件，但也没被删除：

我一直将中国的近代史视为一场改良与革命的赛跑，在清末的大赛场上，最终革命跑到了头，改良的一切设计，在武昌起义枪声响起后成了废纸。中共的民主宪政承诺，是抗战结束前开出的远期支票，超过了一个甲子仍未兑现。当今中国社会缺乏诚信，要从毛泽东开始问责。邓小平在80年代提出的政治体制改革，在“8964”事件后被长期搁置……近年所谓“党主立宪”之说，也是主流学者为维系一党执政地位所做的政治设计。

这些帖子既非特例，也不反常：我们的数据库中还有几千条。负面帖子，包括所谓的敏感主题，例如天安门事件和一党执政，并没有瞒过审查体制。证据表明，审查者无意阻止这些帖子的出现。相反，他们注重删除关于群体性活动可能性的帖子，无论是否牵涉到中国领导人或政府的政策。

为了强调以上论点，我们给出两个有关群体性事件可能性的帖子，这两个帖子都支持政府，但却很快遭到删除。在抚州爆炸事件中，政府删除了这个帖子，虽然它明确谴责钱明奇，并褒扬政府在动迁过程中的工作：

爆炸案造成他本人和多名政府工作人员死亡的悲剧，即使钱明奇在微博里所称拆迁造成的个人损失是属实的，我们也应谴责他的极端报复行为……政府在连续出台保护被拆迁者利益的政府法规，媒体也在为公平对待被拆迁者大声疾呼，各地拆迁补偿款上升速度，大多高于商品房售价上升速度，在不少地方，补偿款已经足以改变一个家庭的命运。

另一个例子是下面这个被删的帖子，它同样支持政府。该帖指责当地领导冉建新涉嫌腐败，而他在被警察监禁期间的死亡引发利川游行：

湖北省巴东县委宣传部都在其官方网站发布新闻通稿称，冉建新在担任利川市都亭办事处常委书记、主任期间，利用职务之便，在征地拆迁、工程发包等事项中为他人谋取利益，收受他人贿赂，涉嫌受贿犯罪。

结语

我们提供的新数据和新方法表明了中国人、中国的言论审查机制以及中国政府在不同领域的关注点，还呈现了政府压制信息传播的秘密机制，以及中国领导层的关注点、意图和目标。

证据表明，中国的领导层允许社交媒体发展，允许对政府、政策、领导人的负面、正面批评。因此，政府的政策有时让人感觉非常糟糕，领导人脸面无光，这和民主国家的民选政客并无二致；不过，他们似乎已经意识到，脸面无光不会影响到他们的位子，只要不发生群体性事件——政府以外的权力控制群众的行为。可以说，中国人在个体上是自由的，但群体上是受控制的。

关于政府此类策略的研究已有很多，我们在此提出一些初步性设想。首先，只要不发生群体性事件，社交媒体就是获取对中国政府和官员的意见的良好渠道。当然，公共表达宽松了，政府也越来越懂得如何满足并缓和公众的情绪。从这个角度来看，目前的模式或许是政府利用社交媒体掌握权力的最佳手段。例如，Dimitrov（2008）提出，人民如果不再抱怨政府，政府就会垮台；因为，这表明在人民心中，政府已经没有了合法性。同样，Egorov、Guriev、Sonin（2009）提出，缺少自然资源优势的独裁政府会允许媒体更为自由，以便增强其执政能力。引申开来讲，这与我们的中国研究遥相呼应，即，容许批评可以增强政府的合法性，巩固政权。Lorentzen（2012）提出了一种规范性模式，威权政府调和媒体自由与言论审查这两种政策，在减少地方腐败的同时，巩固政权的稳定性。也许，研究规范性模式的学者可以吸收我们的经验性结论，进一步发展他们的理论。

推开来讲，本文的数据引申出研究中国政治、比较政治学的新方法和新思维。就中国研究而言，我们的方法反映了威权政府的弹性、中央－地方关系、次国家层面的政治、国际关系和中国的外交政策。通过分析国家层面和地方层面不同的敏感话题，本文表明，在某些领域，地方政府可以独立行事。另外，我们的分析明确地揭露了政府的意图，展现出各级政府的意图差异。我们分析了社交媒体和言论审查的实际内容，这有助于揭示中国的国际关系和外交政策，例如，民族主义的呈现是否会限制政府的外交活动？最后，中国的审查机制可以被视为一种建设性机构。Nathan（2003）将其视为威权政府弹性机制的一部分，或可反映中国共产党的体制化和长期执政的秘诀。

就比较政治学而言，我们的工作可以直接展现国家能力、威权政府的长期执政和执政变化。最近关于阿拉伯之春中的互联网和社交媒体的研究（Ada et al. 2012；Bellin 2012）质疑了这些技术组织群体性活动和扩散地区信息的功能，反而强调这些技术创新对维持威权政府执政的积极作用。Edmond（2012）研究了信息资源（互联网、社交媒体等）对政权的坏处，而如果政府拥有足够的经济能力，它就可以控制信息资源。互联网和社交媒体的经济规模目前在中国还不大，而中国政府将言论审查的责任下放到了地方上的互联网内容提供商，因此，中国有能力发展新兴技术的经济规模。中国是一个相对富裕、有弹性的威权国家，审查机制复杂、有效，也许是全世界独裁者的关注对象。

我们分析了中国审查机制的主要目标，揭示了中国人的关注点、中国政府的意图和目标。虽然我们只分析了不同时间段的85个话题，但这种分析还可以延伸到更广泛的领域。在传统媒体没有提供任何线索的情况下，审查行为或可预示政府在线下的下一步行动，为政府政策和商业活动的学术研究和实践提供启发。

我们构建了计算机辅助文本分析法，有效分析了中文文本。这些方法还可推广至其他领域。我们推想，我们的数据手机程序、文本分析手段、总体分析和经验策略可以延伸至世界其他压制言论自由的地域。

附录C

如果说审查行为是衡量政府意图和意愿的一种手段，那么，这可以为预测政府行为提供些许线索。我们就此进行测试。不过，中国政府的大部分行为都是针对外部事件的评论或反应，都可以事先预测。困难的是那些无法预测的事例，我们在此研究其中与群体性活动可能性有关的事例。

我们本来没有就此专门搜集数据，但根据手头的数据，仍可进行间接的验证。我们采用广为流传的数据控制手段（King and Zeng 2001）。首先，我们抽取与群体性活动可能性有关的所有真实事例，然后剔除那些容易被预测的事例。于是，便剩下了两个事件，这两个事件都不能事先预测：2011年4月3日艾未未被捕，以及2011年6月25日与越南的南海争端。我们分析这两个事例，并证明，政府的反应可以从审查行为的数据中预测出来。另外，正当本文于2012年初收尾之际，中国发生了薄熙来事件，这一件事件被认为“是数十年来振动中国政坛的最大丑闻”（Branigan 2012），并将“困扰下一代中国领导人”（Economy 2012）。碰巧，我们的数据监控还没结束。因此，这成为了我们研究的第三个事例。

接着，我们要确定审查行为能够提前多久预测（突发）事件。时间间隔必须足够长，以显示审查行为的存在；但也不能太长，以防数据波动淹没了审查者的干预迹象。我们选择5天为合适的间隔，这不一定准确，但不影响我们此处的数据。因此，我们架设中国当局预先5天采取行动，并且在审查模式上可以体现出这一迹象。

中国网络审查制度

在图11的坐标a中，我们来观察艾未未被捕事件。纵坐标是被删除的帖子比例。灰色区域是从（我们假设的）采取行动的日期到艾未未真正被捕的日期。我们从新闻媒体中无法得知艾未未即将被捕。蓝色线段是实际的审查力度，红色线段是根据此前的数据推算出来的趋势。4月3日红线与蓝线的差距是我们的粗略估计；如果政府没有特别行动，实际的审查力度应该是将近10%；但最终的实际审查力度是预估值的两倍。为了证明这不是偶然现象，我们选取了任意5天间隔，均没有出现如上反常现象。

我们用这个方法再来验证图11坐标b的南海事件。南海的石油勘探导致北京与河内关系持续紧张，审查率暴增。根据媒体报道，冲突一直持续，直到6月25日两国突然达成和平协议。我们再度随机采样，证明这一反常现象绝非偶然。

最后，我们来看薄熙来事件。薄熙来的父亲是中共八大元老之一。薄熙来被认为是2012年秋季召开的中共十八大的新一届常委热门人选。可是，他的政治生命却突然中介，2012年2月6日，王立军逃入成都的美领馆。四天前，王立军刚被薄熙来免职。王立军揭发了薄熙来参与谋杀英国公民的秘密，然后，薄熙来被免职。由于事件的反常性质揭示了中共高层内部的分歧，我们专门来分析2月2日王立军被薄熙来免职的事件。据称，王立军与薄熙来就海伍德之死发生了冲突，引发薄熙来采取行动。

我们的分析如图11坐标c所示，王立军被免职以前的审查力度趋势与实际的审查力度差距很大。王被免职以前，媒体没有任何透露的消息。同样，我们做了验证测试，证明这不是偶然现象。

这三个事例都证明了我们的结论，但我们是事后分析，且只有这三个例子，所以，还需要对审查率的预测性做进一步研究。