200 个工具分析机器学习十年:前途未卜、工程师是核心( 二 )


文章插图
机器学习的发展历史
首先 , 我将这些工具发布的时间进行了整理 。如果这个工具是一个开源项目 , 我从该项目的第一次提交开始 , 查找项目公开的时间;如果是一家公司 , 我使用它在 Crunchbase 上注册的时间作为工具的发布时间 。基于这些数据 , 我绘制了各类工具每年发布的数量图 。

200 个工具分析机器学习十年:前途未卜、工程师是核心

文章插图
工具数量图
不出所料 , 数据中可以看到 , 随着深度学习的发展 , 在 2012 年开始迎来爆发式的增长 。
  • 前卷积神经网络时代(2012 年之前)
直到 2011 年 , 机器学习主要工作都是在建模和训练模型上 , 那时的一些框架 , 到现在还很流行(如:Scikit-Learn) , 当然还有一些框架为现在的发展留下了深远的影响 。很多机器学习工具开始于 2012 年前 , 一直持续优化迭代到今天 , 直到它们 IPO(Cloudera、Datadog、Alteryx)或者被收购 , 或者成为社区流行的开源项目(Spark、Flink、Kafka) 。
  • 高速发展阶段(2012 - 2015 年)
当机器学习的社区采用“数据驱动”的方法时 , 机器学习的发展就变成了数据处理的发展 。每年在每个类别中工具的发布数量 , 也清晰地展现出了这一点 。在 2015 年 , 有 57% 数据处理工具 。
200 个工具分析机器学习十年:前途未卜、工程师是核心

文章插图
工具数量增长曲线
  • 生产阶段(2016 年至今)
纯粹的技术研究对机器学习领域来说非常重要 , 但是大多数公司并没有足够的研究经费支持技术研究 , 除非对应的技术研究能在短期内应用在真实的商业场景中 。随着机器学习的研究与发展 , 海量的数据与处理模型的增长 , 使得机器学习越来越触手可得 。越来越多的人为他们的应用找到使用机器学习的场景 , 这也近一步增加了我们对机器学习工具的需求 。
在 2016 年 , Google 宣布使用神经网络来提高 Google 翻译的准确度(
https://ai.googleblog.com/2016/09/a-neural-network-for-machine.html) , 这也是深度学习应用在真实商业场景中的先例之一 。从那时起 , 有很多的机器学习工具被开发出来 , 帮助我们更好的做人工智能的产品 。
200 个工具分析机器学习十年:前途未卜、工程师是核心

文章插图
机器学习前途未卜
现在有很多人工智能相关的初创公司 , 它们中大多数都是将机器学习用于它们的产品(如提供业务分析或客户支持等产品) , 而不是做机器学习工具的初创公司(创建工具来帮助其他人实现产品) 。用投资人的话来说 , 他们大多数都是在人工智能的垂直领域 。在 2019 年福布斯排行榜中 , 50 家人工智能公司 , 其中只有 7 家是做机器学习工具的公司 。
当你去一家公司 , 告诉他们 , 使用你的产品可以减少一半客户支持的投入 , 因此应用类的产品能够更好的售卖、商业化 。但是机器学习相关的工具却很难卖出去 , 但是这些工具对人工智能的影响非常大 , 因为他们的目标不是做某一个单一的应用程序 , 而是在做一个生态 。许多公司可以提供相似的人工智能产品 , 但是在创建机器学习产品的流程中 , 通常很少有工具能够共存 。
经过我广泛的搜索调查 , 我却只能找到大约 200 多个人工智能的工具 , 与传统软件相比 , 这点工具是非常微不足道的 。如果你想找一个传统 Python 应用程序的测试工具 , 花两分钟时间 , 你在 Google 上至少能找到 20 个 。但是如果你想找一个测试机器模型的工具 , 你就很难能够找到了 。
200 个工具分析机器学习十年:前途未卜、工程师是核心

文章插图
【200 个工具分析机器学习十年:前途未卜、工程师是核心】机器学习运维(MLOps)面临的问题
很多传统软件开发的工具也可以用于人工智能产品的开发中 , 但是 , 人工智能产品中有很多独有的挑战 , 它们需要特有的工具去处理 。
对于传统的软件工程师来说 , 写代码是最难的一部分 。但对于机器学习来说 , 写代码只是挑战中很小的一部分 。开发一个可以在商业中使用的模型非常困难 , 并且成本很高 。大多数公司并不会将重点放在模型的开发上 , 而是使用现有的模型 。


推荐阅读