位置:编程技术网 > 产品设计 > 正文 >

机器学习在领英的规模化应用

2019年12月07日 21:10来源:未知手机版

登录空间,千人敷面膜创纪录,陈冠希北京办摄影展

  人工智能和机器学习仍然是全球持续增长的领域之一,近年来涌现出越来越多本科生或者非人工智能专业出身的工程师,他们努力学习和使用技术来改进产品,几乎每天都有新的机器学习技术和框架发布。这篇文章将讨论领英如何规模化利用技术,帮助更多工程师提升机器学习的效率。近日,领英中国机器学习研发经理李子在IEEE数据挖掘国际会议(ICDM)上分享了领英是如何规模化开展机器学习,介绍领英的核心产品以及如何利用技术帮助更多工程师提升机器学习的效率。

Pro-ML提升机器学习效率

 

过去10年,领英把人工智能技术应用于各个方面来提升用户和客户体验,比如你可能认识的人(People You May Know),可以为你推荐能够给你的职业发展带来价值的人;Feed可以帮你找到最相关的行业信息,比如最新的文章或联系人的最新动态;Recruiter Search可以帮助企业了解趋势,更好地进行招聘;职位推荐系统(Job Recommendations System)可以帮你找到工作或者跳槽到更好的企业。机器学习推动着领英的核心产品。

但领英发现,过去每个团队用自己的AI技术堆栈开发各自的产品。,这种做法无法有效实现规模化,因为每个团队使用的技术不同,从逻辑回归到深度学习,从Pig 、 Hive、Spark到Scalding等等,团队之间的AI技术堆栈很难共享协作。所以领英希望在招入新的工程师或是开发新功能、使用新技术时,尽可能减少大家的负担。此外,近年来很多人工智能领域的从业者其实并不是人工智能专业出身,领英的AI基础架构对他们来说过于复杂,难以用来构建、迭代模型。

为了高效地促进机器学习规模化,领英构建了名为 Productive Machine Learning (高效机器学习)的项目,简称Pro-ML。Pro-ML的目标是将AI工程师的工作效率翻一番,让他们能更轻松、更高效地构建模型。在过去十年里领英发现,模型性能与模型更新速度直接相关。因此,如果能让工程师加快模型迭代速度,那么模型性能也会提高。

具体来说Pro-ML采用分层解决方案,目标是提高整个模型开发周期的效率,从模型探索和构建(Exploring and Authoring),到模型训练(Training)、模型部署(Deploying)、模型运行(Running),再到持续监控模型状态。领英希望把所有常规工作自动化,这样算法工程师就能更加聚焦于创新。

 

Pro-ML中有两个工具贯穿刚刚提到的所有阶段:一个是Feature Marketplace,另一个是Health Assurance Layer。在Feature Marketplace,领英使用先进的技术来生成、共享和管理新特征。AI建模的核心是特征工程(Feature Engineering),领英有数百名工程师和数万种正在研究的特征。提高工程师生成、共享和管理特征的效率,对于提高他们的工作效率至关重要。

而Health Assurance Layer可以在整个开发周期中持续监控模型状态。比如,它确保用于模型训练的离线特征和用于在线推理的在线特征在统计意义上一致或近似,同时确保在线模型的良好性能。比如在预测分数的时候,工程师希望在线打的分与离线训练的分数精度一致。一旦Health Assurance Layer检测到异常,会自动提醒工程师,然后工程师可以介入,进行调试。Health Assurance Layer还提供了很多有用的工具,帮助工程师进一步确认问题所在。是代码出错?还是数据缺失?还是仅仅因为模型老旧,需要重新训练?

Pro-ML提升效率的第一步 探索与授权

建模过程实际上始于对问题的探索。目标是什么?目标函数是什么?有什么特征?数据有哪些?对于这些问题,工程师需要做无数个实验来探索数据,进行特征工程,调整模型和超参数。为了提高这一阶段的工作效率,领英构建了集成了 Pro-ML内核的Jupyter Notebook。在Jupyter Notebook的帮助下,工程师可以一步一步地进行数据探索、特征选择和模型绘制,并以交互的方式做实验。Jupyter Notebook由领英的Spark集群提供计算资源,这样工程师就可以在线完成工作而不需要把数据下载到本地,不仅提高了他们的工作效率,同时也保护了用户隐私。

本文地址:http://www.reviewcode.cn/chanpinsheji/101197.html 转载请注明出处!

今日热点资讯