位置:编程技术网 > 编程语言 > 正文 >

数据科学专业是否会“被自动化”?

2021年01月12日 16:11来源:未知手机版

房间装修图片,陈思成李晨张译,上海组装电脑

译者:AI研习社(Suen)

双语原文链接:Is The Data Science Profession At Risk of Automation?

前几天,我读了一篇关于Uber希望如何赋予其每位员工数据科学力量的文章。以下引文特别引人注意:

“预测平台的宏伟愿景是只需按一下按钮即可提供预测,完全不需要预测专家。用户唯一需要的输入是历史数据,无论是CSV文件还是查询链接的形式,以及预测范围。您想预测多远?其他一切都完全在引擎盖下完成。” — Uber 数据科学总监Franziska Bell

这让我思考,预测真的可以商业化到这种程度吗?微软,谷歌和亚马逊也一直在努力使他们的机器学习解决方案更加“drag and drop”他们各自的云客户,因此Uber绝对不是唯一的雄心壮志。

贝尔的话引出了两个截然不同的结论-要么Uber的预测平台非常出色,要么他们对预测未来的挑战过于随意。为了好玩,让我们尝试各种可能性:

Uber的预测平台非常出色-只需按一下按钮,Uber就能做些什么来产生预测,而唯一需要输入的是目标变量的历史数据?他们必须能够:

1. 拥有数据并知道是否要包含任何和所有相关功能。您需要外生变量来构建模型,尤其是当您尝试预测复杂的事物时。 Uber不仅必须在生成预测之前随时提供所有可用数据,还必须知道要包括哪些功能以及如何转换每个功能。

2. 它还必须能够比较和对比各种预测算法(线性回归与随机森林与神经网络)。并能够为每种特定算法选择最优超参数。

3. 预测还必须进行回测(以减轻从模型中取出模型时发生爆炸的风险),Uber需要能够与用户沟通模型所基于的假设以及在何种条件下可能会崩溃。

达成这些要付出很多,只要他们能做到,就对他们表示敬意。

但是,如果Uber过于随意,该怎么办–相反的观点是,该预测平台只是ARIMA model 或 LSTM,可以根据对目标的以往观察来预测未来。对于某些应用程序,这是可以的。

但是仅使用目标变量的滞后作为特征意味着可能会错过关键的外生关系,这将使模型严重不适合并易于表现不佳。

对其保留一定态度

我个人对Uber的“预测即服务”目标持怀疑态度。我可以理解,Uber是否允许其员工使用预先构建的模型“按需”预测某些关键业务指标,这些模型已经过数据科学团队的广泛研究和完善。但是我不认为这就是弗朗兹卡·贝尔(Franziska>

这是一个非常困难的问题,几乎是不可能的问题。让我们逐步完成预测过程的每个步骤,以更好地了解可以轻松实现哪些自动化。

明确定义问题-需要预测什么?

没有要解决的问题,建立模型并进行预测就没有多大意义了。因此,第一步是弄清楚我的问题是什么,我可以预测该问题的哪些方面使问题更加清晰?

这通常不像乍看起来那样明显。自从Uber入手以来,让我们继续以它为例。假设我们是 Uber的分析师,我们的工作是预测明年旧金山 Uber的需求。我们能否仅将Uber需求的历史时间序列提供给预测平台并加以处理?

可能不是。我的意思是我们的老板所说的需求是什么意思?可能是以下任何一种:

明年的车手人数。

明年的总骑乘次数,即骑乘人数乘以每名骑乘人的骑乘次数。

车手在明年支付的金额,即乘客人数乘以每位乘客的乘车次数乘以每位乘客的平均价格。

因此,围绕我们到底需要预测什么是不明确的。您是否注意到,在充实需求定义时,我们需要逐步预测更多变量?

甚至车手本身的数量也是许多因素的相互作用:

可用驾驶员的数量-驾驶员的数量和骑手的数量相互之间具有循环效应,Uber雇用的驾驶员越多,使用其平台的骑手就越多(这被称为网络效应)。

竞争格局(Lyft,出租车,踏板车等)如何随着时间变化。这包括竞争者的数量,每个竞争者的营销和定价策略等。

本文地址:http://www.reviewcode.cn/bianchengyuyan/185672.html 转载请注明出处!

今日热点资讯