[译]解密数据科学

这是一篇翻译,原文:THE DATA SCIENCE PUZZLE, EXPLAINED

网络上不乏对数据科学术语进行对比的文章,各种各样的人写了各种各样的文章,这些文章不断地萦绕在那些愿意了解的人周围,让人目不暇接。

所以,对于那些想知道这是否也属于这类帖子的人来说,让我彻底把话说清楚吧,是的,它是。

为什么又要写一篇这样的文章?在我看来,虽然已经有大量的舆论文章对这些相关的术语进行了定义和比较,但事实上,很多术语的解释都不尽人意(并未达成共识)。坦白说,接收他人的观点是检验和完善自己的最佳方式之一。

因此,尽管人们可能不完全同意(甚至很少同意)我对这些术语的看法,但仍然可能有人会从中受益。我们将对数据科学的几个核心概念进行研究,或者说,至少在我看来是核心。我将竭尽全力阐明它们之间的相互关系以及它们是如何组合成一个更大的难题的各个部分。

作为一个有些不同意见的例子,在单独考虑任何一个概念之前,KDnuggets的Gregory Piatetsky-Shapiro把下面的维恩图放在了一起,概述了我们将在这里考虑的数据科学术语之间的关系。我们鼓励读者将这个维恩图与现在著名的Drew Conway数据科学维恩图做对比,以及我自己在下面的讨论和帖子底部的修改后的流程/关系图进行比较。在我看来,虽然存在差异,但概念上有一定程度的相似性(见前面几段)。

现在,我们将对上面的维恩图中所描述的6个核心概念进行处理,并提供一些关于它们是如何组合成数据科学拼图的见解。首先,我们很快就会抛开过去十年来最热门的术语之一。

大数据

有大量各种各样的文章定义什么是大数据,我不会在这里花太多时间讨论这个概念。我只想说,大数据可以被定义为超出了常用软件工具收集、管理和处理能力的数据集。大数据是一个移动的目标,这个定义既模糊又准确地抓住了它的核心特征。

至于我们要研究的其余概念,初步了解一下它们的搜索词的流行度和N-gram频率是很有好处的,这样可以帮助区分事实和炒作。鉴于这两个概念相对较新,上面显示了1980到2008年“较旧”概念的N-gram频率。

最近的Google趋势(译者注:图已经不存在)显示有2个新词上升,另外2个词仍在继续上升趋势,而最近一个则逐渐但明显地下降。 请注意,由于已经对定量数据进行了死亡分析,因此上图中未包含大数据。 继续阅读以获得对观察结果的进一步见解。

机器学习

根据Tom Mitchell在其关于这个主题的开创性著作中的说法,机器学习是"关注如何构造计算机程序,并随着经验的积累而自动改进的问题。机器学习是跨学科的,它采用了计算机科学、统计学和人工智能等领域的技术。机器学习研究的主要产物是通过经验自动改进的算法,这些算法可以应用于不同的领域。

我想没有人会怀疑机器学习是数据科学的一个核心方面。我在下面对数据科学一词进行了详细介绍,但如果你认为它的目标是从数据中提取洞察力,那么机器学习就是让这个过程自动化的引擎。机器学习与经典统计学有很多共同点,那就是它使用样本进行推理和归纳。统计学更注重描述性(尽管它可以通过推断来进行预测),而机器学习则很少关注描述性,只将其作为中间步骤来进行预测。机器学习通常被认为是模式识别的代名词;尽管这确实不会引起我很大的异议,但我相信模式识别一词的含义比机器学习实际的要复杂得多,也要简单得多,这就是为什么我会回避它。

机器学习与数据挖掘有着复杂的关系。

数据挖掘

Fayyad, Piatetsky-Shapiro & Smyth将数据挖掘定义为 "应用特定的算法从数据中提取模式。"这表明,在数据挖掘中,重点在于算法的应用,而不是算法本身。我们可以将机器学习和数据挖掘之间的关系定义为:数据挖掘是一个过程,在这个过程中,机器学习算法作为工具,被用来提取数据集中的潜在价值模式。

数据挖掘作为机器学习的姊妹词,对于数据科学来说也是至关重要的。事实上,在数据科学这个名词爆炸式增长之前,数据挖掘作为谷歌的搜索名词获得了更大的成功。看一看Google的趋势,比上图中显示的还要早5年,数据挖掘一度更受欢迎。然而,今天,数据挖掘作为一个概念似乎被分割成了机器学习和数据科学本身。如果要认可上述解释,即数据挖掘是一个过程,那么将数据科学视为数据挖掘的超集和后继术语都是有意义的。

深度学习

深度学习是一个相对较新的术语,尽管它在最近的在线搜索急剧上升之前就已经存在。深度学习在研究和工业界享有热潮,主要是由于它在许多不同领域取得了令人难以置信的成功,深度学习是应用深度神经网络技术——即具有多个隐藏层的神经网络架构来解决问题的过程。深度学习是一个像数据挖掘一样,采用深度神经网络架构的过程,也就是特定类型的机器学习算法。

最近,深度学习已经取得了一系列令人印象深刻的成就。有鉴于此,至少在我看来,有几点是必须要记住的:

  1. 深度学习不是灵丹妙药——它不是一个简单的一刀切的解决方案,即无法解决所有问题。

  2. 它不是传说中的终极算法——深度学习不会取代所有其他机器学习算法和数据科学技术,或者说,至少,它还没有被证明是如此。

  3. 节制的期望是必要的——虽然最近在所有类型的分类问题上都取得了很大的进步,特别是计算机视觉和自然语言处理,以及增强学习和其他领域,但当代的深度学习并没有扩展到诸如 "解决世界和平 "这样的非常复杂的问题上,因此,深度学习并不能解决非常复杂的问题。

  4. 深度学习和人工智能不是同义词。

深度学习可以以额外的流程和工具的形式为数据科学提供大量的帮助,从这个角度观察,深度学习是数据科学领域非常有价值的补充。

人工智能

大多数人都觉得人工智能很难有一个准确的、甚至很多时候是宽泛的定义。我不是人工智能的研究者,所以我在这里的回答可能会与其他领域的人大相径庭,甚至可能会让其他领域的人不高兴。这些年来,我对人工智能这个概念进行了很多哲学思考,结论是,人工智能,至少是我们一般人在想到它的时候会想到的人工智能概念,其实并不存在。

在我看来,人工智能是一个标尺,一个移动的目标,一个无法实现的目标。每当我们迈向人工智能成就的道路时,这些成就似乎都会以某种方式转化为其他事物。

我曾经读到过这样的文章。如果你问一个60年代的人工智能研究者,他们对人工智能的概念是什么,他们大概会同意,一个可以装在我们口袋里的小设备,可以帮助预测我们下一步的动作和欲望,并且可以随时随地掌握人类的全部知识,大概会有一个共识,那就是这个设备是真正的人工智能。但如今我们都带着智能手机,很少有人会把它称为人工智能。

人工智能在数据科学中的地位在哪里?好吧,正如我已经说过,我不相信人工智能真的是什么有形的东西,我很难说它适合在任何地方。但有一些与数据科学和机器学习相关的领域,在这些领域中,AI提供了动力,有时它和有形的东西一样有价值;计算机视觉当然会想到,当代的深度学习研究也是如此,它们都在某种程度上受益于Artificial Intelligence Ethos,如果不是无限期的,也是如此。

人工智能很可能是财力雄厚的研发机构,在同名行业中从未真正产生过任何东西。 虽然我会说,从AI到数据科学,要走一条直线可能不是查看这两个实体之间关系的最佳方法,这两个实体之间的许多中间环节都是AI所开发和完善的。

数据科学

那么,在讨论了这些相关概念及其在数据科学中的地位之后,数据科学到底是什么?对我来说,这是最难的一个概念,也是最难试图准确定义的一个概念。数据科学是一门多面性的学科,它包含了机器学习和其他分析过程、统计学和相关的数学分支,越来越多地借鉴了高性能科学计算,所有这些都是为了最终从数据中提取洞察力,并利用这些新发现的信息来讲述故事。这些故事往往伴随着图片(我们称之为可视化),这些故事的对象是工业界、研究领域,甚至仅仅是我们自己,目的是为了从数据中挖掘出一些新的想法。

数据科学运用了各种相关领域的各种不同工具(参见上面的所有内容)。数据科学既是数据挖掘的同义词,也是包括数据挖掘在内的超级概念集。

数据科学会产生各种不同的结果,但它们都有一个共同的特点,那就是洞察力。数据科学就是这一切,而对你来说,它可能是另一回事...........我们甚至还没有涉及到数据的获取、清洗、整理和预处理。顺便问一下,数据到底是什么?而且它总是很大吗?

我认为我对数据科学之谜的想法,至少是上图中的版本,与本帖顶部的Piatetetsky-Shapiro的维恩图非常吻合。我还想说的是,这也和Drew Conway的数据科学维恩图基本一致,不过我想补充一点:我相信他的这个很有道理的、很有用的图表实际上是指数据科学家,而不是数据科学。这可能会让人分心,但我不认为数据科学这个{领域 |学科 |概念}本身就包含了黑客的技能;我相信这是科学家们为了做数据科学而必须具备的技能。诚然,这可能是在语义上的争论,但在我看来是有道理的。

当然,这并不是全貌,它是在不断发展的。比如说,我记得不久前读到,数据挖掘是商业智能中的一个子领域!而现在我还记得,在我看来,数据挖掘是商业智能中的一个子领域。即使众说纷纭,我也真的无法想象今天这个观点是否成立(老实说,几年前的时候,这个观点是很难接受的)。

事情已经讲完了:我通过一个新的(你不会原谅我的)角度把你最喜欢的一些名词改变了。如果你现在很气愤,迫不及待地想告诉我,我错的离谱,请记住这篇文章的重点:你刚刚读了一个人的意见。本着这种精神,欢迎在评论中提出你的(可能是激烈的、尖锐的)对比意见。否则,我希望这篇文章要么让新读者接触到了数据科学这个谜题,要么迫使他们在脑海中审视自己的这个谜题。

Last updated