i 制图前问问自己:我对数据足够了解吗-数据挖掘技术-电子人社区 -

电子人社区

 找回密码
 立即注册

今日 : 0|主题 : 576|排名 : 352 
打印 上一主题 下一主题

制图前问问自己:我对数据足够了解吗

发表于 2016-5-6 10:18:01 | 530440 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

[复制链接]
发表于 2016-5-6 10:18:01 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
电子人社区网讯:   作者:Alberto Cario
摘要
  创建图表不只包括设计精美的图表、地图、示意图、解释性插图,还有一个关键性的步骤:尽可能地确保我们将要提供给公众的信息是准确的。
  

       我们都知道,有些事我们知道,
  有些事我们知道我们已经知道,我们同时知道,
  我们知道的有些事情,其实我们并不知道,
  就是说我们知道,世上有些事情我们并不知道,
  但同时我们并不知道:有些事情我们不知道,那些我们不知道的事情我们真的是不知道。
  (翻译来源互联网)——2002年2月12日在一个新闻发布会上,美国国防部长拉姆斯菲尔德对萨达姆给恐怖分子提供大规模杀伤性武器的证据表示质疑。以上是他被载入史册的回应。
  确实困难。可以说,科学推理是伟大的未知的未知的记者职业,作为它的一部分,它也困扰着新闻图表设计师。在我的新书《真实的艺术:传播中的数据、图表和地图(2016)》的尾声,我写道:我的目标受众是我自己,显然这比十年前的目标要少。过去我对数据的思考是如此的欠缺,以至于今天的我在面对七八年前许多我做的图表、地图和信息图时,感到尴尬。
  大多数具有新闻或设计专业背景的人一直以来都没有意识到我们对数字和证据的理解的强烈缺乏。我们相信,我们可以处理它们,但是其实不能。当我们从一个来源获得数据,或者从网站上抓取数据,我们毫无思考也不评估数据质量,就急于设计漂亮的图表。我就做过这种事,相信你也这么做过。对数据的忽视是新闻记者和设计师最危险的盲点。
  在接下来的内容中,我会举出一些例子,这些例子主要是提醒我过去有许多不知道自己的未知从而导致犯错。
1不存在的差异
  2014年12月19日,西班牙《国家报》的标题是“调查显示,加泰罗尼亚的公众对其是否独立表示(偏向)否定”。加泰罗尼亚一直是一个民族感情强烈的地区,对于在马德里的西班牙政府来说,独立公投一直不是一个关键问题,直到2012年最后一个季度,这种情况开始发生改变。加泰罗尼亚的总统马斯说,到了赋予加泰罗尼亚地区自决权利的时候了。
  2012年至2014年期间,公众意见在加泰罗尼亚被分裂为两种:一种是那些想要其成为独立国家的人和不希望加泰罗尼亚成为独立国家的人。当大规模示威的独立运动频繁发生,特别是在2012和2013年,前者多于后者。
  《国家报》的故事是基于从加泰罗尼亚政府调查研究所中心的数据。图1中的第一个图表显示,加泰罗尼亚的局势已经扭转,很显然,当时更多的人士反对独立而不是赞同。
  
图1:误差可以改变你对数据的看法

  隐藏在这个故事里的一个关键数据点是:调查的误差是2.95%。《国家报》评论到“考虑到对于独立的同意和不同意两种观点的十分接近,这是一个相关性事实。”当然!这里应该响警报。
  我们绘制了相同数据点的误差(如图1的第二个图表所示),误差只是置信区间上下边界的另一个名称,这是一个任何图表设计师和记者应该熟悉的概念。
  事实是误差比两个值的差异要大得多,这提醒我们差异可能只是偶然的结果。换句话说,可能根本就没有差别。
  要理解这一点,我们可以来玩魔鬼代言人的游戏,假设没有区别,加泰罗尼亚的公民中,真正的意见分布是平均的:45%的人希望加泰罗尼亚独立,45%的人不希望,10%的人没有答案。因此,我们的假设“是”和“否”之间的真实差异是零,这种没有差异的的假设称为空值假设。
  在我们提出这个假设后,基于扎实的轮询方法,我们得到一个适当大小的调查结果,显示测量的差异是0.8%。不是远离零差异,而是偶然产物的结果,这样的概率是多少呢?
  答案是80%以上。统计学家认为,差异不具有统计学意义,这仅仅意味着它是如此的微小以至于很难将它与随机的因素区别开。如果我是那天负责《国家报》第一版的编辑,我不会写那样的标题。我们不能认为“是”的比例大于“否”,反之亦然。数据并不让我们肯定得泰然自若,我们的故事需要改变。
2吃巧克力可以赢得诺贝尔奖
  ?有一些新闻的标题任何记者都会难以拒绝。比方说这个:“吃巧克力越多会变得越聪明!”你可能认为我在开玩笑,但这确实是2012年路透社的一个新闻标题:“吃巧克力,赢得诺贝尔奖?”
  这个故事——是随便写出来的,或者大概是这样——基于纽约圣卢克罗斯福医院高血压项目的主管弗朗兹·梅瑟利(Franz H. Messerli)博士的一项研究,并发表在备受推崇的《新英格兰医学杂志》周刊上。路透社并非是唯一拿到Messerli博士结论的新闻机构。
  Messerli博士的研究并不是那么可靠,它仅仅是一个片段所谓“偶然的想法”中的一小部分。并且它的数据是从维基百科上下载的:每个国家的人均巧克力消费(每年消耗的千克数)以及每1000万人中的诺贝尔奖得主。将这两个变量做成散点图你将会看到图2。


  
图 2:巧克力和诺贝尔奖

  Messerli 博士告诉路透社记者,“我最开始是在加德满都的酒店房间里策划的这个研究,因为我没有其他的事情可以做,并且我不敢相信我的眼睛。”恩,最好是相信它们。通过网站上所演示的相关性(http://tylervigen. com/spurious-correlations),你不需要深究数据,很难再找到疑点。但是这些不同变量之间的关联完全是荒谬的。
  图3透露了美国小姐的年龄和因蒸汽、热蒸汽和高温物体被谋杀的人数存在着密切联系,在美国,我可能只是证明了美国小姐评审团肩负了重大的责任,为了减少谋杀率而要挑选更年轻的赢家。
  
图3:越是年纪较大的美国小姐,同年越有更多的人被蒸汽、热蒸汽和高温物体谋杀。

  是谁说在数据中很难找到快乐呢?
  这些例子看起来非常愚笨,然而我们每天都可以在媒体上发现它们:我们看到一个相关性并且随意地推断出一个关系。一般情况下我们都会认真地看待这些故事,我保证你不敢去否定它们。
  一些研究人员花时间写文章试图反驳Messerli博士的幻想, 其中最有趣的一篇被发表在《营养学》期刊上,并且他的观点是显而易见的:在一个国家,巧克力消费确实与诺贝尔奖获得者的数量相关,但是和葡萄酒的消费量、宜家商店的数量也都是相关的。


  
图4:巧克力消费和宜家商店之间的关系

  所有这些变量的共同点就是他们与每个国家的富裕程度相关联,那是我们难以注意到的潜在变量。一个国家的收入中值更高,公民便有更多的钱投资教育、葡萄酒、巧克力或者是无法组装的宜家家居。
3批判性地思考并提出问题
  如今,推理和数据不只是新闻实验室里那少部分精英的数据记者所必备的技能,任何记者、编辑、新闻设计师都需要掌握掌握科学性和怀疑性的思维。在许多情况下,哪怕只需要在消息来源处停留几分钟思考就足够了。(比如“巧克力和诺贝尔奖”,这里不是还差一个环节来解释它们之间的因果关系吗?)
  然而,这也是远远不够的。记者应改不断提醒自己基本的统计和科学思维。关于这个主题有一些很好的书。任何一个记者说她进入了新闻行业是因为她不“擅长数学”,这种说法都无法让人接受。除了良好的写作、表达和设计技巧,好的新闻也需要数学!
  此外,记者和设计师通常不生产原创的数据,但能够从政府机构、非营利组织、企业、科学家等许多个人或机构得到原始数据。很多数据源都有强大的在线数据库,他们能够提供十年前的意想不到的珍贵信息。
  如今,一名计算机爱好者通过互联网连接,加上一些流行的(免费的)的软件工具,就可以进行分布探索,运行简单的线性回归分析,估算效果的不确定性,然后发布一个故事或可视化作品,所有内容都能一个人完成。然而问题也在这里,因为作者无法自己评估所做的这些调查结果是真正有意义。因此,他需要更深入的特定领域的知识。
  所以,如果你想制作可视化和信息图表,无论是作为业余或者专业,这都是最重要的忠告:任何成功的数据项目的秘诀是找到了可靠的数据来源,弄清楚数据存在的缺陷,并利用科学的数据获得、加工、测试的方式。
  如果你已经从公共资源上下载了一些数据,并且进行了数据挖掘和探索,不要轻易出版任何东西。三个臭皮匠还顶一个诸葛亮,将你的预测和直觉拿去与特定领域的专家一同探讨。下面是ProPublica新闻应用部的负责人Scott Klein关于这个问题论述:
  “与其他学科不同的是,新闻学总是信任更有智慧的人。即使我们已经完全理解了一个数据集或者已经完成了这项计算,我们还是会去采访专业人士。这一点是至关重要的。每当我们在做ProPublica的项目时,我们都会采访很多专家,他们可以指出我们的问题。我们会告诉他们我们做了什么,是怎么做的,我们的假设是什么,我们所产生的代码是什么。所有这一切对我们得到正确的结论都至关重要。”
  你瞧,创建图表不只包括设计精美的图表、地图、示意图、解释性插图,还有一个关键性的步骤:尽可能地确保我们将要提供给公众的信息是准确的。我希望通过这篇短文让你相信,为了达到这个必要的目标,我们需要的不仅仅是诚实和善意。
  via:镝次元数据传媒实验室
  
End.  
  

  转载请注明来自36大数据(36dsj.com):36大数据 » 制图前问问自己:我对数据足够了解吗

来源:网络转载

 

                                                   转载请注明:电子人社区

0条回复
跳转到指定楼层

发表回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|电子人物联网  

Copyright 2013 最新最精彩-社区论坛 版权所有 All Rights Reserved.

QQ|电子人物联网  

GMT+8, 2024-4-28 03:11 , Processed in 0.105471 second(s), 36 queries.

快速回复 返回顶部 返回列表