ch12 privacy

This commit is contained in:
Vonng 2018-05-27 16:05:11 +08:00
parent 68bad18069
commit 5e96b96b64
2 changed files with 60 additions and 69 deletions

View File

@ -8,17 +8,6 @@
## 法律声明
从原作者处得知已经有简体中文的翻译计划将于2018年末完成。
译者纯粹出于**学习目的**与**个人兴趣**翻译本书,不追求任何经济利益。
译者保留对此版本译文的署名权,其他权利以原作者和出版社的主张为准。
本译文只供学习研究参考之用,不得公开传播发行或用于商业用途。有能力阅读英文书籍者请购买正版支持。
## 译序
@ -83,11 +72,15 @@
## NOTICE
## 法律声明
本书大体上已完成翻译,但有少量章节翻译并不完整(初翻),请读者见谅
从原作者处得知已经有简体中文的翻译计划将于2018年末完成
译者纯粹出于**学习目的**与**个人兴趣**翻译本书,不追求任何经济利益。
译者保留对此版本译文的署名权,其他权利以原作者和出版社的主张为准。
本译文只供学习研究参考之用,不得公开传播发行或用于商业用途。有能力阅读英文书籍者请购买正版支持。

108
ch12.md
View File

@ -734,135 +734,133 @@ COMMIT;
在本书的最后部分,我想退后一步。在本书中,我们考察了各种不同的数据系统架构,评价了它们的优点与缺点,并探讨了构建可靠,可扩展,可维护应用的技术。但是,我们忽略了讨论中一个重要而基础的部分,现在我想补充一下。
每个系统都是为了一个目的而构建的;我们采取的每一项行动既会产生期望的后果,也会导致无意的后果。目的可能只是简单地赚钱,但对世界的影响可能会远远超出最初的目的。我们,建立这些系统的工程师,有责任去仔细考虑这些后果,并有意识地决定我们希望生活在怎样的世界中。
每个系统都服务于一个目的;我们采取的每个举措都会同时产生期望的后果与意外的后果。这个目的可能只是简单地赚钱,但其对世界的影响,可能会远远超出最初的目的。我们,建立这些系统的工程师,有责任去仔细考虑这些后果,并有意识地决定我们希望生活在怎样的世界中。
我们将数据作为一个抽象的东西来讨论,但请记住,许多数据集都是关于人的:他们的行为,他们的兴趣,他们的身份。我们必须带着人性与尊重来对待这些数据。用户也是人类,人类的尊严是至高无上的。
我们将数据当成一种抽象的东西来讨论,但请记住,许多数据集都是关于人的:他们的行为,他们的兴趣,他们的身份。对待这些数据,我们必须怀着人性与尊重。用户也是人类,人类的尊严是至关重要的。
软件开发越来越多地涉及重要的道德抉择。有一些指导原则可以帮助软件工程师解决这些问题例如ACM的软件工程道德规范与专业实践【77】这些很少在实践中被讨论,应用,罔论强制执行。因此,工程师和产品经理有时会对隐私与产品潜在的负面后果采取非常傲慢的态度【78,79,80】。
软件开发越来越多地涉及重要的道德抉择。有一些指导原则可以帮助软件工程师解决这些问题例如ACM的软件工程道德规范与专业实践【77】实践中很少会讨论这些,更不用说应用与强制执行了。因此,工程师和产品经理有时会对隐私与产品潜在的负面后果抱有非常傲慢的态度【78,79,80】。
技术本身并无好坏之分 —— 重要的是它被怎样使用,以及它如何影响人们。这对枪械这样的武器是成立的,而搜索引擎这样的软件系统与之非常类似。我认为,软件工程师仅仅专注于技术而忽视其后果是不够的:道德责任也是我们的责任。对道德推理很困难,但它太重要而无法被忽视。
技术本身并无好坏之分 —— 关键在于它被如何使用,以及它如何影响人们。这对枪械这样的武器,这是成立的,而搜索引擎这样的软件系统与之类似。我认为,软件工程师仅仅专注于技术而忽视其后果是不够的:道德责任也是我们的责任。对道德推理很困难,但它太重要了,我们无法忽视。
### 预测性分析
举个例子,预测性分析是“大数据”炒作的主要部分。使用数据分析预测天气或疾病传播是一码事【81】而预测一个罪犯是否可能再犯一个贷款申请人是否有可能违约或者一个保险客户是否可能进行昂贵的索赔则是另外一码事。后者会直接影响到个人的生活。
举个例子,预测性分析是“大数据”炒作的主要内容之一。使用数据分析预测天气或疾病传播是一码事【81】而预测一个罪犯是否可能再犯一个贷款申请人是否有可能违约或者一个保险客户是否可能进行昂贵的索赔则是另外一码事。后者会直接影响到个人的生活。
当然,支付网络希望防止欺诈交易,银行希望避免不良贷款,航空公司希望避免劫持,公司希望避免雇佣低效或不值得信任的人。从它们的角度来看,错失商机的成本很低,但不良贷款或有问题的员工成本则要高得多,因而组织希望保持谨慎是很自然的事情。如果存疑,它们通常会拒绝
当然,支付网络希望防止欺诈交易,银行希望避免不良贷款,航空公司希望避免劫公司希望避免雇佣效率低下或不值得信任的人。从它们的角度来看失去商机的成本很低而不良贷款或问题员工的成本则要高得多因而组织希望保持谨慎也是自然而然的事情。所以如果存疑它们通常会Say No
然而随着算法决策变得越来越普遍被某种算法准确地或错误地标记为有风险的某人可能会遭受大量这种“No”的决定。系统性地被排除在工作空旅行,保险,物业租赁,金融服务和社会其他关键领域之外。这是一种对个人自由的极大约束因此被称为“算法监狱”【82】。在尊重人权的国家刑事司法系统会做无罪推定默认清白直到被证明有罪。另一方面自动化系统可以系统地任意地将一个人排除在社会活动参与之外,不需要任何有罪的证明,而且几乎没有申诉的机会。
然而随着算法决策变得越来越普遍被某种算法准确地或错误地标记为有风险的某人可能会遭受大量这种“No”的决定。系统性地被排除在工作旅,保险,租赁,金融服务,以及其他社会关键领域之外。这是一种对个体自由的极大约束因此被称为“算法监狱”【82】。在尊重人权的国家刑事司法系统会做无罪推定默认清白直到被证明有罪。另一方面自动化系统可以系统地任意地将一个人排除在社会参与之外不需要任何有罪的证明而且几乎没有申诉的机会。
#### 偏见歧视
#### 偏见歧视
算法做出的决定不一定比人类做出的更好或更差。每个人都可能有偏见,即使他们主动尝试抵抗偏见,而歧视性做法也可能在文化上被制度化。人们希望根据数据做出决定,而不是通过人的主观与直觉评价希望这样能更加公平并给予传统体制中经常被忽视的人更好的机会。【83】。
算法做出的决定不一定比人类更好或更差。每个人都可能有偏见,即使他们主动抗拒这一点;而歧视性做法也可能已经在文化上被制度化了。人们希望根据数据做出决定,而不是通过人的主观评价与直觉希望这样能更加公平并给予传统体制中经常被忽视的人更好的机会。【83】。
当我们开发预测性分析系统时,我们不是仅仅通过指定什么时候Yes什么时候No的规则将人类的决策用软件来自动化。我们甚至是从数据本身推断出规则。但是这些系统学到的模式是不透明的即使数据中存在一些相关性我们也可能压根不知道为什么。如果在算法输入中存在系统性的偏差系统很有可能会在输出中学习并放大这种偏差【84】。
当我们开发预测性分析系统时,不是仅仅用软件通过一系列IF ELSE规则将人类的决策过程自动化那些规则本身甚至都是从数据中推断出来的。但这些系统学到的模式是个黑盒即使数据中存在一些相关性我们可能也压根不知道为什么。如果算法的输入中存在系统性的偏见则系统很有可能会在输出中学习并放大这种偏见【84】。
在许多国家,反歧视法律禁止按种族,年龄,性别,性别,残疾或信仰等受保护的特征区别对待不同的人。其他个人特征也许能会于分析,但是如果这些特征与受保护的特征存在关联会发生什么?例如在种族隔离地区中一个人的邮政编码甚至是他们的IP地址都是种族的强预测指标。这样说的话相信一种算法可以以某种方式将有偏数据作为输入并产生公平和公正的输出【85】,似乎是荒谬的。然而,这种观点似乎常常隐含在数据驱动型决策的支持者中,这种态度被讽刺为“在处理偏差上,机器学习与洗钱很相似”machine learning is like money laundering for bias【86】。
在许多国家,反歧视法律禁止按种族,年龄,性别,性取向,残疾,或信仰等受保护的特征区分对待不同的人。其他的个人特征可能是允许用于分析的,但是如果这些特征与受保护的特征存在关联,又会发生什么例如在种族隔离地区中一个人的邮政编码甚至是他们的IP地址都是很强的种族指示物。这样的话相信一种算法可以以某种方式将有偏数据作为输入并产生公平和公正的输出【85】似乎是很荒谬的。然而这种观点似乎常常潜伏在数据驱动型决策的支持者中,这种态度被讽刺为“在处理偏差上,机器学习与洗钱似”machine learning is like money laundering for bias【86】。
预测性分析系统只是基于过去进行推断;如果过去是歧视性的,它们就会将这种歧视归为法律。如果我们希望未来比过去更好那么就需要道德想象力而这只有人类才能提供的东西【87】。数据与模型应该是我们的工具而不是我们的主人。
预测性分析系统只是基于过去进行推断;如果过去是歧视性的,它们就会将这种歧视归纳为规律。如果我们希望未来比过去更好,那么就需要道德想象力,而这只有人类才能提供的东西【87】。数据与模型应该是我们的工具而不是我们的主人。
#### 责任问责
#### 责任问责
自动决策引发了关于责任与问责的问题【87】。如果一个人犯了错误可以被追受决定影响的人可以申诉。算法也会犯错误但是如果它们出错谁来负责【88】当一辆自动驾驶汽车引发事故时谁来负责如果自动信用评分算法系统性地区分特定种族或宗教的人,他们是否有任何追索权?如果机器学习系统的决定受到司法审查,你能向法官解释算法是如何做出决定的吗?
自动决策引发了关于责任与问责的问题【87】。如果一个人犯了错误他可以被追责受决定影响的人可以申诉。算法也会犯错误但是如果它们出错谁来负责【88】当一辆自动驾驶汽车引发事故时谁来负责如果自动信用评分算法系统性地歧视特定种族或宗教的人,这些人是否有任何追索权?如果机器学习系统的决定受到司法审查,你能向法官解释算法是如何做出决定的吗?
信用评级机构是收集关于人们的数据并进行决策的一个老例子。不良的信用评分会使生活变得更困难,但至少信用评分通常是基于个人实际借款历史记录,而记录中的任何错误都可以得到纠正(尽管机构通常不会让这变得容易)。然而,基于机器学习的评分算法通常使用更广泛的输入,并且更加不透明,因而特定决策是怎样作出的,以及是否有人被不公正地/歧视性地对待变得非常难以理解【89】。
收集关于人的数据并进行决策,信用评级机构是一个很经典的例子。不良的信用评分会使生活变得更艰难,但至少信用分通常是基于个人**实际的**借款历史记录,而记录中的任何错误都能被纠正(尽管机构通常会设置门槛)。然而,基于机器学习的评分算法通常会使用更宽泛的输入,并且更不透明;因而很难理解特定决策是怎样作出的,以及是否有人被不公正地,歧视性地对待【89】。
信用分总结了“你过去的表现如何?”,而预测性分析通常是基于“谁与你类似,以及与你类似的人过去表现的如何?”。与他人的行为画上等号意味着刻板印象,例如,根据他们居住的地方(一个与种族和阶级关系密切的代表)。那么那些放错位置的人怎么办?而且,如果是因为错误的数据而做出的错误决定追索几乎是不可能的【87】。
信用分总结了“你过去的表现如何?”,而预测性分析通常是基于“谁与你类似,以及与你类似的人过去表现的如何?”。与他人的行为画上等号意味着刻板印象,例如,根据他们居住的地方(与种族和阶级关系密切的特征)。那么那些放错位置的人怎么办?而且,如果是因为错误数据导致的错误决定追索几乎是不可能的【87】。
很多数据本质上是统计这意味着即使概率分布总体上是正确的个别情况也可能是错的。例如如果你国的平均寿命是80岁那么这并不意味着你在80岁生日时就会嗝屁。从平均分布和概率分布来看你无法推断特定某个人的寿命。同样,预测系统的输出是概率性的,对于个例可能是错误的。
很多数据本质上是统计性的这意味着即使概率分布在总体上是正确的对于个例也可能是错误的。例如如果贵国的平均寿命是80岁这并不意味着你在80岁生日时就会死掉。很难从平均值与概率分布中对某个特定个体的寿命作出什么判断同样,预测系统的输出是概率性的,对于个例可能是错误的。
盲目相信数据决策至高无上,这不仅仅是一种妄想,而是有切实危险的。随着数据驱动的决策变得越来越普遍,我们需要弄清楚,如何使算法透明负,且责任,如何避免加强现有的偏见,以及如何在它们不可避免地出错时加以修复。
盲目相信数据决策至高无上,这不仅仅是一种妄想,而是有切实危险的。随着数据驱动的决策变得越来越普遍,我们需要弄清楚,如何使算法更负责任且更加透明,如何避免加强现有的偏见,以及如何在它们不可避免地出错时加以修复。
我们还需要弄清楚如何避免数据被用来伤害人并意识到其积极方面的潜力。例如分析可以揭示人们生活的财务特征与社会特征。一方面这种权力可以用来将援助与支持集中在帮助那些最需要援助的人身上。另一方面它有时被掠夺性企业用于识别弱势群体并向其兜售高风险产品比如高利贷与野鸡大学文凭【87,90】[^译注i]。
[^译注i]: 在中国: 莆田医院,高利贷,智商税。
我们还需要想清楚如何避免数据被用于害人如何认识数据的积极潜力。例如分析可以揭示人们生活的财务特点与社会特点。一方面这种权力可以用来将援助与支持集中在帮助那些最需要援助的人身上。另一方面它有时会被掠夺性企业用于识别弱势群体并向其兜售高风险产品比如高利贷智商税与莆田医院【87,90】[^译注i]。
#### 反馈循环
即使那些对人直接影响比较小的预测性应用,比如推荐系统,也有我们必须面对的困难问题。当服务变得善于预测用户想要看到什么内容时,它最终可能只会向人们展示他们已经同意的观点,将其带入滋生刻板印象,误导信息和极端思想的回音室。我们已经看到社交媒体回音室对竞选的影响了【91】。
即使那些对人直接影响比较小的预测性应用,比如推荐系统,也有一些必须正视的难题。当服务变得善于预测用户想要看到什么内容时,它最终可能只会向人们展示他们已经同意的观点,将人们带入滋生刻板印象,误导信息,与极端思想的**回音室**。我们已经看到过社交媒体回音室对竞选的影响了【91】。
当预测性分析影响人们的生活时,由于自我强化反馈循环,会导致特别有害的问题。例如,考虑雇主使用信用分来评估候选人的例子。你可能是一个信用分不错的好员工,但是因为不可抗力的意外陷入财务困境。由于错过了账单付款你的信用分会受到影响进而导致找到工作更为困难。失业使你陷入贫困这进一步恶化了你的分数使你更难找到工作【87】。在数据与数学严谨性的伪装背后隐藏的是由恶毒假设导致的恶性循环。
当预测性分析影响人们的生活时,自我强化的反馈循环会导致非常有害的问题。例如,考虑雇主使用信用分来评估候选人的例子。你可能是一个信用分不错的好员工,但因不可抗力的意外而陷入财务困境。由于不能按期付账单你的信用分会受到影响进而导致找到工作更为困难。失业使你陷入贫困这进一步恶化了你的分数使你更难找到工作【87】。在数据与数学严谨性的伪装背后隐藏的是由恶毒假设导致的恶性循环。
我们无法总是预测这种反馈循环什么时候发生。然而,通过考虑整个系统(不仅仅是计算机化的部分,而且还有与之互动的人),许多后果是能够预测的 —— 一种称为**系统思维systems thinkin**的方法【92】。我们可以尝试理解数据分析系统如何响应不同的行为结构或特性。该系统是否加强和扩大了人们之间现有的差异(例如,损不足以奉有余),还是试图与不公正作斗争?而且,即使带着最好的动机,我们也必须小心意想不到的后果。
我们无法预测这种反馈循环何时发生。然而通过对整个系统(不仅仅是计算机化的部分,而且还有与之互动的人)进行整体思考,许多后果是可以够预测的 —— 一种称为**系统思维systems thinkin**的方法【92】。我们可以尝试理解数据分析系统如何响应不同的行为结构或特性。该系统是否加强和增大了人们之间现有的差异(例如,损不足以奉有余,富者愈富,贫者愈贫),还是试图与不公作斗争?而且即使有着最好的动机,我们也必须当心意想不到的后果。
### 隐私和追踪
除了预测性分析 —— 即使用数据来做出关于人的自动决策 —— 数据收集本身也存在道德问题。收集数据的组织与被收集数据的人之间有什么关系?
除了预测性分析 —— 即使用数据来做出关于人的自动决策 —— 数据收集本身也存在道德问题。收集数据的组织,与被收集数据的人之间,到底属于什么关系?
当系统仅存储用户明确输入的数据时,他们希望系统以特定方式存储和处理数据,系统是在为用户提供**服务**:用户就是客户。但是,当用户的活动被跟踪并记录,作为他们正在做的其他事情的副作用时,这种关系就不那么清晰了。该服务不再仅仅完成用户告诉它要做的事情,而是服务于它自己的利益,这可能与用户的利益相冲突。
当系统只存储用户明确输入的数据时,是因为用户希望系统以特定方式存储和处理这些数据,**系统是在为用户提供服务**:用户就是客户。但是,当用户的活动被跟踪并记录,作为他们正在做的其他事情的副作用时,这种关系就没有那么清晰了。该服务不再仅仅完成用户想要它要做的事情,而是服务于它自己的利益,这可能与用户的利益相冲突。
追踪用户行为数据对于许多面向用户的在线服务而言变得越来越重要追踪用户点击了哪些搜索结果有助于提高搜索结果的排名推荐“喜欢X的人也喜欢Y”可以帮助用户发现有趣且有用的东西; A/B测试和用户流量分析可以帮助指出如何改进用户界面。这些功能需要一定量的用户行为跟踪,而用户可以从中受益。
追踪用户行为数据对于许多面向用户的在线服务而言变得越来越重要追踪用户点击了哪些搜索结果有助于提高搜索结果的排名推荐“喜欢X的人也喜欢Y”可以帮助用户发现实用有趣的东西; A/B测试和用户流量分析有助于改善用户界面。这些功能需要一定量的用户行为跟踪,而用户可以从中受益。
是,根据不同公司的商业模式,追踪往往不止于此。如果服务是通过广告盈利的,那么广告客户就是真正的客户,而用户的利益则位居第二。跟踪的数据就会变得更详细,分析变得更深入,数据会保留很长时间,以便为每个人建立详细画像,用于营销目标
不同公司有着不同的商业模式,追踪并未止步于此。如果服务是通过广告盈利的,那么广告主才是真正的客户,而用户的利益则屈居其次。跟踪的数据会变得更详细,分析变得更深入,数据会保留很长时间,以便为每个人建立详细画像,用于营销。
现在,公司与被收集数据的用户之间,关系开始变得非常不一样了。公司会给用户以免费的服务,并引诱用户尽可能多地使用。对用户的追踪主要不是服务于该个体,而是服务于掏钱资助该服务的广告商。我认为这种关系可以用一个更具罪犯内涵的词来恰当地描述:**监视surveilance**。
现在,公司与被收集数据的用户之间的关系,看上去就不太一样了。公司会免费服务用户,并引诱用户尽可能多地使用服务。对用户的追踪,主要不是服务于该用户个体,而是服务于掏钱资助该服务的广告商。我认为这种关系可以用一个更具罪犯内涵的词来恰当地描述:**监视surveilance**。
#### 监视
作为一个思想实验,尝试用**监视surveillance**一词替换**数据data**,再看看常用的短语是不是听上去还那么好【93】。比如这样:“在我们的监视驱动的组织中,我们收集实时监视流并将它们存储在我们的监视仓库中。我们的监视科学家使用高级分析和监视处理来获得新的见解。“
让我们做一个思想实验,尝试用**监视surveillance**一词替换**数据data**,再看看常见的短语是不是听起来还那么漂亮【93】。比如:“在我们的监视驱动的组织中,我们收集实时监视流并将它们存储在我们的监视仓库中。我们的监视科学家使用高级分析和监视处理来获得新的见解。“
这个思想实验对于本书《设计监控密集型应用》来说是非同寻常的争论但我认为需要强烈的言辞来强调这一点。在我们制作软件“吞噬世界”的尝试中【94】我们已经建立了世界上迄今为止所见过的最伟大的大众监视基础设施。我们正朝着物联网迈进我们正在迅速接近这样一个世界每个有人居住的空间至少包含一个带互联网连接的麦克风以智能手机智能电视语音控制助理设备婴儿监视器甚至儿童玩具的形式存在并使用基于云的语音识别。这些设备中的很多都有着可怕的安全记录【95】。
对于本书《设计监控密集型应用》而言这个思想实验是罕见的争议性内容但我认为需要激烈的言辞来强调这一点。在我们尝试制造软件“吞噬世界”的过程中【94】我们已经建立了世界上迄今为止所见过的最伟大的大规模监视基础设施。我们正朝着万物互联迈进我们正在迅速走近这样一个世界每个有人居住的空间至少包含一个带互联网连接的麦克风以智能手机智能电视语音控制助理设备婴儿监视器甚至儿童玩具的形式存在并使用基于云的语音识别。这些设备中的很多都有着可怕的安全记录【95】。
即使是最为极权与专制的政权,也只能想着在每个房间放置一个麦克风并强迫每个人始终携带能够追踪其位置与动向的设备。然而我们显然是自愿地甚至热情地投身于这个全域监视的世界。不同之处在于数据是由公司而不是由政府机构收集的【96】。
即使是最为极权与专制的政权,可能也只会想着在每个房间装一个麦克风并强迫每个人始终携带能够追踪其位置与动向的设备。然而我们显然是自愿地甚至热情地投身于这个全域监视的世界。不同之处在于数据是由公司而不是由政府机构收集的【96】。
并不是所有的数据收集都称得上监视,但检视这一点有助于理解我们与数据收集者之间的关系。为什么我们似乎很乐意接受企业的监视?也许你觉得自己没有什么好隐瞒的 —— 换句话说你与当权阶级穿一条裤子你不是被边缘化的少数派也不必害怕受到迫害【97】。不是每个人都如此幸运。或者也许这是因为目的似乎是温和的 —— 这不是公然胁迫,也不是强制性的,而只是更好的推荐与更个性化的营销。但是,结合上一节中对预测性分析的讨论,这种区别似乎不是很清晰。
并不是所有的数据收集都称得上监视,但检视这一点有助于理解我们与数据收集者之间的关系。为什么我们似乎很乐意接受企业的监视?也许你觉得自己没有什么好隐瞒的 —— 换句话说你与当权阶级穿一条裤子你不是被边缘化的少数派也不必害怕受到迫害【97】。不是每个人都如此幸运。或者也许这是因为目的似乎是温和的 —— 这不是公然胁迫,也不是强制性的,而只是更好的推荐与更个性化的营销。但是,结合上一节中对预测性分析的讨论,这种区别似乎不是很清晰。
我们已经看到与汽车追踪设备挂钩的汽车保险费,以及取决于需要人佩戴健身追踪设备的健康保险范围。当监视被用于决定生活的重要方面时,例如保险或就业,它就开始变得不那么温和了。此外,数据分析可以揭示出令人惊讶的唐突结果例如智能手表或健身追踪器中的运动传感器可以相当好的准确度计算出你正在输入的内容例如密码【98】。而分析算法只会变得越来越好
我们已经看到与汽车追踪设备挂钩的汽车保险费,以及取决于需要人佩戴健身追踪设备来确定的健康保险范围。当监视被用于决定生活的重要方面时,例如保险或就业,它就开始变得不那么温和了。此外,数据分析可以揭示出令人惊讶的私密事物例如智能手表或健身追踪器中的运动传感器能以相当好的精度计算出你正在输入的内容比如密码【98】。而分析算法只会变得越来越精确
#### 同意与选择的自由
我们可能会断言用户自愿选择使用跟踪其活动的服务,而且他们已经同意了服务条款与隐私政策,因此他们同意数据收集。我们甚至可以声称,用户在用所提供的数据来换取有价值的服务,并且为了提供服务,追踪是必要的。毫无疑问,社交网络,搜索引擎,以及各种其他免费的在线服务对于用户来说都是有价值的,但是这个说法却存在问题。
我们可能会断言用户自愿选择使用服务的,尽管服务会跟踪其活动,而且他们已经同意了服务条款与隐私政策,因此他们同意数据收集。我们甚至可以声称,用户在用所提供的数据来**换取**有价值的服务,并且为了提供服务,追踪是必要的。毫无疑问,社交网络,搜索引擎,以及各种其他免费的在线服务对于用户来说都是有价值的,但是这个说法却存在问题。
用户几乎不知道他们提供给我们的数据,哪些数据被放进了数据库,数据又是怎样被保留与处理的 —— 而大多数隐私政策更多的是闪烁其词,而非打开天窗说亮话。用户不了解他们的数据会发生什么,就无法给出任何有意义的同意。通常,来自一个用户的数据还会提到一些关于其他人的事,而其他那些人既不是该服务的用户,也没有同意任何条款。我们在本书这一部分中讨论的衍生数据集 —— 来自整个用户群的数据,加上行为追踪与外部数据源 —— 就恰好是用户无法获得任何有意义理解的数据类型。
用户几乎不知道他们提供给我们的是什么数据,哪些数据被放进了数据库,数据又是怎样被保留与处理的 —— 大多数隐私政策都是模棱两可的,忽悠用户而不敢打开天窗说亮话。如果用户不了解他们的数据会发生什么,就无法给出任何有意义的同意。有时来自一个用户的数据还会提到一些关于其他人的事,而其他那些人既不是该服务的用户,也没有同意任何条款。我们在本书这一部分中讨论的衍生数据集 —— 来自整个用户群的数据,加上行为追踪与外部数据源 —— 就恰好是用户无法(在真正意义上)理解的数据类型。
而且从用户身上挖掘数据是一个单向过程,而不是真正的互惠关系,也不是公平的价值交换。用户对能用多少数据换来什么样的服务没有发言权与选择权服务与用户之间的关系是非常不对称与单边的。这些条款是由服务而不是由用户提出的【99】。
而且从用户身上挖掘数据是一个单向过程,而不是真正的互惠关系,也不是公平的价值交换。用户对能用多少数据换来什么样的服务,既没有没有发言权也没有选择权:服务与用户之间的关系是非常不对称与单边的。这些条款是由服务提出的而不是由用户提出的【99】。
对于不同意监视的用户,唯一真正管用的备选项就是简单地不使用服务。但这个选择也不是自由的如果一项服务如此受欢迎以至于“被大多数人认为是基本社会参与的必要条件”【99】那么指望人们选择退出这项服务是不合理的 —— 使用它**事实上de facto**是强制性的。例如在大多数西方社会群体中携带智能手机使用Facebook进行社交以及使用Google查找信息已成为常态。特别是当一项服务具有网络效应时人们选择**不**使用会产生社会成本。
对于不同意监视的用户,唯一真正管用的备选项就是简单地不使用服务。但这个选择也不是真正自由的如果一项服务如此受欢迎以至于“被大多数人认为是基本社会参与的必要条件”【99】那么指望人们选择退出这项服务是不合理的 —— 使用它**事实上de facto**是强制性的。例如在大多数西方社会群体中携带智能手机使用Facebook进行社交以及使用Google查找信息已成为常态。特别是当一项服务具有网络效应时人们选择**不**使用会产生社会成本。
因为跟踪用户而拒绝使用服务,这只是少数拥有足够的时间和知识来了解其隐私政策的人才有的特权,并能承受得了错过社会参与,或使用服务有可能带来的专业机会。对于那些处境不太好的人而言,并没有真正意义上的选择:监控是必然的。
因为跟踪用户而拒绝使用服务,这只是少数人才拥有的权力,他们有足够的时间与知识来了解隐私政策,并承受的起代价:错过社会参与,以及使用服务可能带来的专业机会。对于那些处境不太好的人而言,并没有真正意义上的选择:监控是不可避免的。
#### 隐私与数据使用
有时候,人们声称“隐私已死”,理由是有些用户愿意把各种关他们生活的事情发布到社交媒体上,有时是平凡的,有时高度私密的。但这种说法是错误的,并且是基于对**隐私privacy**一词的误解。
有时候,人们声称“隐私已死”,理由是有些用户愿意把各种关他们生活的事情发布到社交媒体上,有时是平凡俗套,但有时是高度私密的。但这种说法是错误的,而且是对**隐私privacy**一词的误解。
拥有隐私并不意味着保密一切东西;它意味着拥有选择向谁展示哪些东西的自由,要公开什么,以及要保密什么。隐私权是一项决定权:在保密到透明的光谱上,它使得每个人都能决定自己希望在不同场合中处于这一光谱上的哪个位置【99】。这是一个人自由与自主的重要方面。
拥有隐私并不意味着保密一切东西;它意味着拥有选择向谁展示哪些东西的自由,要公开什么,以及要保密什么。**隐私权是一项决定权**:在从保密到透明的光谱上,隐私使得每个人都能决定自己想要在什么地方位于光谱上的哪个位置【99】。这是一个人自由与自主的重要方面。
当通过监控基础设施从人身上提取数据时,隐私权不一定受到损害,而是转移到了数据收集者手中。获取数据的公司实际上是说“相信我们会用你的数据做正确的事情”,这意味着,决定要透露什么和保密什么的权利从个体手中转移到了公司手中。
这些公司反过来选择保密这些监视的结果,因为揭示这些会令人毛骨悚然,并会损害它们的商业模式(比其他公司更了解人群)。关于用户的私密信息只会间接显示,例如针对特定人群定向投放广告的工具(如那些患有特定疾病的人群)。
这些公司反过来选择保密这些监视结果,因为揭露这些会令人毛骨悚然,并损害它们的商业模式(比其他公司更了解人)。用户的私密信息只会间接地披露,例如针对特定人群定向投放广告的工具(如那些患有特定疾病的人群)。
即使特定用户无法从特定广告定向的人群中以个体的形式区分出来,但他们已经失去了披露一些私密信息的能动性,例如他们是否患有某种疾病。决定向谁透露什么并不是由个体按照自己的喜好决定的,是由**公司**,以利润最大化为目标来行使隐私权的。
许多公司都有一个目标,不要让人**感觉到**毛骨悚然 —— 先不说他们的数据收集实际上是多么唐突的问题,让我们先来关注用户感知的管理。这些感受经常被管理的很糟糕:例如,事实上可能正确的一些东西但如果会触发痛苦的回忆用户可能并不希望被提醒【100】。对于任何类型的数据我们都应当考虑它出错、不可取、不合时宜的可能性并且需要建立处理这些失效的机制。无论是“不可取”还是“不合时宜”,当然都是由人的判断决定的;除非我们明确地将它们编程为尊重人类的需求,否则算法会无视这些概念。作为这些系统的工程师,我们必须保持谦卑,接受与规划这些失败
许多公司都有一个目标,不要让人**感觉到**毛骨悚然 —— 先不说它们收集数据实际上是多么具有侵犯性,让我们先关注用户感知的管理。这些用户感受经常被管理的很糟糕:例如,在事实上可能正确的一些东西但如果会触发痛苦的回忆用户可能并不希望被提醒【100】。对于任何类型的数据我们都应当考虑它出错、不可取、不合时宜的可能性并且需要建立处理这些失效的机制。无论是“不可取”还是“不合时宜”当然都是由人的判断决定的除非我们明确地将算法编码设计为尊重人类的需求,否则算法会无视这些概念。作为这些系统的工程师,我们必须保持谦卑,充分规划,接受这些失效
允许在线服务的用户控制其他用户可以看到哪些方面数据的隐私设置,是将一些控制交还给用户的起点。但是,无论设置如何,服务本身仍然可以不受限制地访问数据,并能以隐私策略允许的任何方式自由使用它。即使服务承诺不会将数据出售给第三方,它通常会授予自己不受限制的权利,以在内部处理与分析数据,而且往往比用户公开可见的部分要深入的多。
允许在线服务的用户控制其隐私设置,例如控制其他用户可以看到哪些东西,是将一些控制交还给用户的第一步。但无论怎么设置,服务本身仍然可以不受限制地访问数据,并能以隐私策略允许的任何方式自由使用它。即使服务承诺不会将数据出售给第三方,它通常会授予自己不受限制的权利,以便在内部处理与分析数据,而且往往比用户公开可见的部分要深入的多。
这种从个体到公司的大规模隐私权转移在历史上是史无前例的【99】。监控一直存在但它过去是昂贵的和手动的,不是可扩展的和自动化的。信任关系始终存在,例如患者与其医生之间,或被告与其律师之间 —— 但在这些情况下,数据的使用严格受到道德,法律和监管限制的约束。互联网服务使得在未经有意义的同意下收集大量敏感信息变得容易得多,而且无需用户理解他们的私人数据到底发生了什么。
这种从个体到公司的大规模隐私权转移在历史上是史无前例的【99】。监控一直存在但它过去是昂贵的,手动的,不是可扩展的,自动化的。信任关系始终存在,例如患者与其医生之间,或被告与其律师之间 —— 但在这些情况下,数据的使用严格受到道德,法律和监管限制的约束。互联网服务使得在未经有意义的同意下收集大量敏感信息变得容易得多,而且无需用户理解他们的私人数据到底发生了什么。
#### 数据资产与权力
由于行为数据是用户与服务交互的副产品,因此有时被称为“数据废气” —— 暗示数据是毫无价值的废料。从这个角度来看,行为和预测性分析可以被看作是一种从数据中提取价值的回收形式,否则这些数据就会被浪费。
更准确的看法恰恰相反从经济的角度来看如果定向广告是服务的金主那么关于人的行为数据就是服务的核心资产。在这种情况下用户与之交互的应用仅仅是一种诱骗用户将更多的个人信息提供给监控基础设施的手段【99】。在线服务中经常表现出的令人愉悦的人类创造力与社会关系十分讽刺地被数据提取机器滥用
更准确的看法恰恰相反从经济的角度来看如果定向广告是服务的金主那么关于人的行为数据就是服务的核心资产。在这种情况下用户与之交互的应用仅仅是一种诱骗用户将更多的个人信息提供给监控基础设施的手段【99】。在线服务中经常表现出的令人愉悦的人类创造力与社会关系十分讽刺地被数据提取机器滥用。
个人数据是珍贵资产的说法因为数据中介的存在得到支持,这是阴影中的秘密行业,购买,聚合,分析,推断,以及转售侵权性的个人数据主要用于市场营销【90】。初创公司按照它们的用户数量“眼球数”,—— 即它们的监视能力来估值。
个人数据是珍贵资产的说法因为数据中介的存在得到支持,这是阴影中的秘密行业,购买,聚合,分析,推断,以及转售私密个人数据主要用于市场营销【90】。初创公司按照它们的用户数量“眼球数”—— 即它们的监视能力来估值。
因为数据很有价值,所以很多人都想要它。当然,公司也想要它 —— 这就是为什么它们一开始就收集数据的原因。但政府也想获得它通过秘密交易胁迫法律强制或者只是窃取【101】。当公司破产时收集到的个人数据就是被出售的资产之一。而且数据安全很难保护因此经常发生令人难堪的泄漏事件【102】。
这些观察已经导致批评者声称数据不仅仅是一种资产而且是一种“有毒资产”【101】或者至少是“有害物质”【103】。即使我们认为自己有能力阻止数据滥用但每当我们收集数据时我们都需要平衡收益以及这些数据落入恶人手中的风险计算机系统可能会被犯罪分子或敌国特务渗透数据可能会被内鬼泄露公司可能会落入不择手段的价值观迥异的管理层手中,或者国家可能被能毫无愧色迫使我们交出数据的政权所接管。
这些观察已经导致批评者声称数据不仅仅是一种资产而且是一种“有毒资产”【101】或者至少是“有害物质”【103】。即使我们认为自己有能力阻止数据滥用但每当我们收集数据时我们都需要平衡收益以及这些数据落入恶人手中的风险计算机系统可能会被犯罪分子或敌国特务渗透数据可能会被内鬼泄露公司可能会落入不择手段的管理层手中,而这些管理者有着迥然不同的价值观,或者国家可能被能毫无愧色迫使我们交出数据的政权所接管。
老话说的好“,知识就是力量”。更进一步而言“在避免自己被审视的同时审视他人是权力最重要的形式之一”【105】。这就是极权政府想要监控的原因这让它们有能力控制全体居民。尽管今天的科技公司并没有公开地寻求政治权力但是它们积累的数据与知识却给它们带来了很多权力其中大部分是在公共监督之外偷偷进行的【106】。
俗话说,“知识就是力量”。更进一步“在避免自己被审视的同时审视他人是权力最重要的形式之一”【105】。这就是极权政府想要监控的原因这让它们有能力控制全体居民。尽管今天的科技公司并没有公开地寻求政治权力但是它们积累的数据与知识却给它们带来了很多权力其中大部分是在公共监督之外偷偷进行的【106】。
#### 记工业革命
#### 记工业革命
数据是信息时代的决定性特征。互联网数据存储处理和软件驱动的自动化正在对全球经济和人类社会产生重大影响。我们的日常生活与社会组织在过去十年中发生了变化而且在未来的十年中可能会继续发生根本性的变化所以我们会想到与工业革命对比【87,96】。
工业革命是通过重大的技术与农业进步实现的,它带来了持续的经济增长,长期的生活水平显着提高。然而,它也带来了一些重大问题:空气污染(由于烟雾和化学过程)和水污染(工业垃圾和人类垃圾)是可怖的。工厂老板生活在辉煌中,而城市工人经常住在非常糟糕的住房中,并且在恶劣的条件下长时间工作。童工很常见,甚至包括矿井中危险而低薪的工作。
工业革命是通过重大的技术与农业进步实现的,它带来了持续的经济增长,长期的生活水平显著提高。然而它也带来了一些严重的问题:空气污染(由于烟雾和化学过程)和水污染(工业垃圾和人类垃圾)是可怖的。工厂老板生活在纷奢之中,而城市工人经常居住在非常糟糕的住房中,并且在恶劣的条件下长时间工作。童工很常见,甚至包括矿井中危险而低薪的工作。
制定了保护措施花费了很长的时间,例如环境保护条例,工作场所安全条例,宣布使用童工非法,以及食品卫生检查。毫无疑问,生产成本增加了,因为工厂再也不能把废物倒入河流,销售污染的食物或者剥削工人。但是整个社会都从中受益良多,我们中很少会有人想回到这些管制条例之前的时间【87】。
制定了保护措施花费了很长的时间,例如环境保护条例,工作场所安全条例,宣布使用童工非法,以及食品卫生检查。毫无疑问,生产成本增加了,因为工厂再也不能把废物倒入河流,销售污染的食物或者剥削工人。但是整个社会都从中受益良多,我们中很少会有人想回到这些管制条例之前的日子【87】。
就像工业革命有着黑暗面需要应对一样,我们转向信息时代的过程中,也有需要应对与解决的重大问题。我相信收集与使用数据是其中的一个问题。用布鲁斯·施奈尔的话来说【96】
就像工业革命有着黑暗面需要应对一样,我们转向信息时代的过程中,也有需要应对与解决的重大问题。我相信数据的收集与使用就是其中一个问题。用布鲁斯·施奈尔的话来说【96】
> 数据是信息时代的污染问题,保护隐私是环境挑战。几乎所有的电脑都能生产信息。它堆积在周围,开始溃烂。我们如何处理它 —— 我们如何控制它,以及如何摆脱它 —— 对我们信息经济的健康至关重要。正如我们今天回顾工业时代的早期年底,并想知道我们的祖先在忙于建立一个工业世界的过程中是怎么能忽略污染,我们的孙辈在回望信息时代的早期年代时,将会就我们如何应对数据收集和滥用的挑战来评断我们。
> 数据是信息时代的污染问题,保护隐私是环境挑战。几乎所有的电脑都能生产信息。它堆积在周围,开始溃烂。我们如何处理它 —— 我们如何控制它,以及如何摆脱它 —— 是信息经济健康发展的核心议题。正如我们今天回顾工业时代的早期年代,并想知道我们的祖先在忙于建设工业世界的过程时怎么能忽略污染问题;我们的孙辈在回望信息时代的早期年代时,将会就我们如何应对数据收集和滥用的挑战来评断我们。
>
> 我们应该设法让他们感到骄傲。
@ -872,7 +870,7 @@ COMMIT;
但是这个立法在今天的互联网环境下是否有效还是有疑问的【108】。这些规则直接否定了大数据的哲学即最大限度地收集数据将其与其他数据集结合起来进行试验和探索以便产生新的洞察。探索意味着将数据用于未曾预期的目的这与用户同意的“特定和明确”目的相反如果我们可以有意义地表示同意的话【109】。更新的规章正在制定中【89】。
收集了大量有关人的数据的公司反对监管,认为这是创新的负担与阻碍。在某种程度上,这种反对是有道理的。例如,分享医疗数据时,存在明显的隐私风险,但也有潜在的机如果数据分析能够帮助我们实现更好的诊断或找到更好的治疗方法能够阻止多少人的死亡【110】过度监管可能会阻止这种突破。在这种潜在机会与风险之间找出平衡是很困难的【105】。
那些收集了大量有关人的数据的公司反对监管,认为这是创新的负担与阻碍。在某种程度上,这种反对是有道理的。例如,分享医疗数据时,存在明显的隐私风险,但也有潜在的机如果数据分析能够帮助我们实现更好的诊断或找到更好的治疗方法能够阻止多少人的死亡【110】过度监管可能会阻止这种突破。在这种潜在机会与风险之间找出平衡是很困难的【105】。
从根本上说我认为我们需要科技行业在个人数据方面的文化转变。我们应该停止将用户视作待优化的指标数据并记住他们是值得尊重有尊严和能动性的人。我们应当在数据收集和实际处理中自我约束以建立和维持依赖我们软件的人们的信任【111】。我们应当将教育终端用户视为己任告诉他们我们是如何使用他们的数据的而不是将他们蒙在鼓里。