如果你想用由数据科学产生的见解来说服别人,同时展示技巧,让别人印象深刻,那么你就需要掌握讲故事,特别是讲精彩故事的技巧。
谁不喜欢好故事?从 J.K 罗琳(J.K Rowling)、斯蒂芬金(Stephen King)到加久道雄(Michio Kaku)和尼尔德格拉斯泰森(Neil deGrasse Tyson),再怎么强调讲故事者的影响力都不为过,不论他们讲的是什么类型的故事。
他们讲述的精彩故事,都是在大肆宣扬一个关键点——除非你能让观众从一开始就着迷,让他们始终沉浸在其中,否则,无论你试图传达的信息有多么炫酷,都会被人们忽略。一般情况下,人类思维会避开不同的信息,但却能无缝地融入有说服力的故事。
数据科学也不例外。想想数据科学家们连续工作了几个月,有时连周末都没有休息,他们想从众多高质量数据中获得最新见解,这些见解不但操作性强,还非常炫酷。在这场智力的挑战结束后,数据科学家往往需要把结果交给一位非技术专业人士,也就是经理。
可惜的是,经理们既不欣赏数据科学家解决方案中的独创性,也不了解数据集中的巨大挑战。这里,我们要解决的问题是:“数据科学家或经理之间到底遗漏了什么?”我们在本文中不会讨论经理的培训,我们只关注数据科学家。
类似的情景非常常见。如果没有一个有说服力的故事来强调数据中的挑战、以及解决方案的独创性,那么数据科学家将很难激起同事、经理或利益相关者的热情。更危险的是,那些不懂技术的人,如果不了解信息的所处场景,在解读的时候可能会出现错误。那么,数据科学家如何才能成为一个能够影响他人的讲故事高手呢?
正如获得有用的新技能一样,讲故事也需要大量有意识的练习。这里值得深思且值得注意的一个细则是,有意识的练习可以使你讲的故事滴水不漏,而盲目的练习只会让故事内容没有新意,而且漏洞百出!
所以,这里有一些建议可以帮助你入门:
1.利用三幕式故事的力量:
第一幕,尽可能清楚地说明你正在尝试解决或正在处理的问题。让我们选择几个实际操作中机器学习的例子来说明这一点——
- (a) 在胸片中识别新冠病毒的计算机视觉解决方案
- (b) 识别信用卡欺诈
- (c) 预测世界末日年月。这是针对那些希望在埃隆·马斯克(Elon Musk)开往火星的 SpaceX 宇宙飞船上保留位置的人,名单还在持续更新中……
第二幕,告诉你的读者或听众,为什么解决这个问题很重要。适当地调整我们上面的例子时,就可以转化为:
- (a) 仅用分子测试来诊断新冠病毒可能需要数天时间,假阴性率高达30%。重要的是,在世界上的一些地区,通过X 射线更容易获得诊断结果。这些时间延误、不确定的测试结果、以及诊断获取问题都会对患者的治疗产生负面影响,尤其是那些生活在资源匮乏的公共卫生环境中的患者。我们如何在利用 X 射线诊断技术解决这些问题的同时,挽救数百条生命和数百万美元的治疗费用?
- (b) 每年发生 50多万起信用卡诈骗案件,银行和客户为此损失至少 100 亿美元。我们如何在欺诈发生的瞬间发现它,并防止进一步不可挽回的损失?
- (c) 对于下边这个例子,我们应该保持怀疑态度——地球人口约为80亿,如果我们可以准确预测潜在的世界末日,那么我们就能够优先考虑火星殖民。我们知道地球存在的上限——再过75亿年它就会被太阳吞噬。然而,由于其他危险因素,包括全球变暖、大范围地核毁灭、致命的全球流行病毒或与重要小行星的撞击,地球存在时间可能会再度缩短。我们能否有把握地预测这一切,从而推动埃隆马斯克的公司火星殖民计划?
第三幕。最后,你可以提供什么样的解决方案?你的解决方案将节省多少钱、工作时间或救多少条命?再次以我们的例子为基础——
- (a) 利用x光片,新型深度学习集成计算机视觉解决方案,检测新冠病毒的准确率高达95%。此外,它还能把新冠病毒肺部异常与其他异常区分开来,以往90%的情况下都会出现混淆。正确使用数字x光时,它可用于对高风险患者进行分类,以进行早期、积极的治疗。在考虑到其他新冠病毒相关人口数据后,你可以将这些准确度转化为挽救的生命数量。例如,你的解决方案将预防十分之二因延误积极治疗方案而导致的COVID-19死亡人数。
- (b) 新型信用卡网络安全系统将减少5%—10% 的信用卡诈骗案。虽然这一比例看起来相对较小,但它可以防止高达10亿美元的资金被盗。
- (c) 高度复杂的的世界末日概率预测模型有10年的误差幅度。由于这将有助于火星殖民化的支出策略,能对资源分配作出轻微调整,每年将为政府节省 500 亿美元。值得一提的是,这也将确保埃隆·马斯克(Elon Musk)仍然是地球(或火星?)上最炙手可热的企业家之一。
请注意,上面引用的这些数字纯属虚构,我仅他们来用于说明讲故事时用到的方法。
2.使用非技术领域的利益相关者
也能够理解的语言
当你准备与可能来自其他非技术领域的利益相关者进行沟通时,请牢记此技巧。有一个策略可以让你做到万无一失,那就是不要使用高度技术性的、“只有数据科学家知道的”术语,例如 F1 分数(他们可能会以为这与 F1 赛车有关?)、超参数调整(超什么?)、R 平方(这个 R 到底是什么东西?)。相反,你需要将这些指标转换成对方容易理解的语言——比如,在你的解决方案上投资一美元,公司能获利多少美元?或者,我们将拯救多少条生命,甚至,我们可以保护的损失的工作时间又有多少?
3.使用引人注目的数据可视化
无论是《纽约时报》上令从政人员激动人心的文章,还是《Nate Silver》上技术宅的538民调博客,甚至是具有科学启发性的 《NewScientist》文章,出色的数据故事通常都会伴随着精心制作的数据可视化。你可以在网上、Coursera 或大学图书馆中找到一些关于如何制作引人注目的数据可视化的优秀资源,其中 Edward Tufte 的书籍在这方面就备受欢迎。
虽然我不想剥夺你学习数据可视化的乐趣,但你需要记住以下几点——
- (a) 要有意义地选择你的彩色地图,同时善待色盲的人
- (b) 避免在绘图上标注多余的标签
- (c) 选择正确的绘图来强调你的要点。
我在开始阶段时经常使用的技巧是,浏览一些流行的 Python 可视化包库。选择 seaborn 和 bokeh 的图库的好处是,每个图库都会为你提供生成绘图的代码;你需要做的就是复制、粘贴代码到你的编程环境,然后进行调整,以满足你的确切需求!
4.总结你的见解
所有美好的事物都有终点,你的数据故事也不例外。拉上帷幕的有效方法,包括展示你在数据科学探索中的流程图,以此来总结你故事中的关键收获。
5.打开问题和反馈的大门
关于提高讲故事技能,其中一个关键成长思维方法就是征求反馈意见。并非所有评论都是有益或善意的,但你可以做好准备,获取新的技能。还记得我们在本文开头就说好的有意练习吗?
让我们通过数据、练习和成长,获取讲故事带来的帮助和力量,愿力量与你同在!!!
原文作者:Ram Hariharan
翻译作者:Lia
美工编辑:过儿
校对审稿:Jiawei Tong
原文链接:https://medium.com/geekculture/a-data-scientists-guide-to-storytelling-51c8e1110474