机器学习总监洞见 [第 4 部分]

发布于 2022 年 11 月 23 日
在 GitHub 上更新

如果您有兴趣更快地构建机器学习解决方案,请立即访问:hf.co/support

👋 欢迎回到我们的机器学习总监洞见系列!如果您错过了之前的版本,可以在这里找到它们:

🚀 在第四部分中,您将听到以下顶尖机器学习总监们关于机器学习对各自行业影响的看法:Javier Mansilla、Shaun Gittens、Samuel Franklin 和 Evan Castle。——他们都是现任的机器学习总监,拥有丰富的行业洞见。

免责声明:所有观点均来自个人,不代表任何过去或现在的雇主。

Javier Mansilla

背景: Javier 是一位经验丰富的企业家和领导者,他是 Machinalis 的联合创始人兼首席技术官,该公司自 2010 年(是的,在神经网络取得突破之前)就开始构建机器学习。当 Machinalis 被 Mercado Libre 收购后,这个小团队发展成为一家拥有超过 1 万名开发人员的科技巨头赋能机器学习能力,影响了近 1 亿直接用户的生活。Javier 每天不仅领导着他们的机器学习平台 (NASDAQ MELI) 的技术和产品路线图,还负责用户追踪系统、AB 测试框架和开源办公室。Javier 是 阿根廷 Python 非营利组织 PyAr 的活跃成员和贡献者,他喜欢和家人朋友在一起,喜欢 python、骑行、足球、木工,以及在自然中享受慢节奏的假期!

趣闻: 我喜欢阅读科幻小说,我的退休计划包括重拾青少年时期写短篇小说的梦想。📚

Mercado Libre: 拉丁美洲最大的公司,为整个大陆提供无处不在的电子商务和金融科技解决方案。

1. 机器学习如何对电子商务产生积极影响?

我认为,机器学习在欺诈预防等特定情况下将不可能变为可能,并在绝大多数其他领域以我们无法想象的方式优化了流程和工作流。

此外,还有一些应用,机器学习实现了更高层次的用户体验,否则这些体验会非常昂贵(但也许可能实现)。例如,在用户浏览商品列表和优惠信息时增加了发现和意外之喜。

我们通过机器学习来运行搜索、推荐、广告、信用评分、审核、多个关键方面的预测、物流以及许多其他核心单元,至少优化了它们的一个基本指标。

我们甚至使用机器学习来优化我们预留和使用基础设施的方式。

2. 电子商务领域最大的机器学习挑战是什么?

除了所有未来的技术挑战(例如,越来越实时和个性化),最大的挑战是始终关注最终用户。

电子商务的市场份额逐年扩大,而机器学习总是一种概率性方法,无法提供 100% 的完美。我们需要小心,在不断优化产品的同时,仍要关注长尾效应和每个人的体验。

最后,一个日益严峻的挑战是在多渠道和多业务的世界中——市场、物流、信贷、保险、实体店支付等——协调和促进数据(输入和输出)的共存。

3. 您在人们尝试将机器学习集成到电子商务中时看到的常见错误是什么?

最常见的错误是针对错误的问题使用了错误的工具。

例如,一开始就使用复杂的方案,而不是从最简单的基线开始。例如,不衡量使用机器学习前后的影响。例如,在没有清楚了解预期收益边界的情况下投资技术。

最后但同样重要的是:只考虑短期,忘记了隐藏的影响、技术债务、维护等等。

4. 关于机器学习的未来,什么最让您兴奋?

从我们十年前亲手打造技术的角度来看,我最喜欢的是看到我们整个行业正在解决那些缓慢、重复和枯燥的挑战。

当然,这是一个不断变化的目标,新的困难也会出现。但我们正在更好地整合成熟的工具和实践,这将导致更短的模型构建周期,最终缩短产品上市时间。

Shaun Gittens

背景: Shaun Gittens 博士是 MasterPeace Solutions, Ltd. 的机器学习能力总监,该公司专门为客户提供先进技术和关键任务网络服务。在这个职位上,他

  1. 正在壮大公司的机器学习专家和实践者核心团队。
  2. 正在提升现有员工对前沿机器学习实践的了解。
  3. 确保不仅为公司客户提供有效的机器学习解决方案和咨询支持,也为 MasterPeace 内部正在孵化的初创公司提供支持。在加入 MasterPeace 之前,Gittens 博士曾担任 Applied Technology Group, LLC 的首席数据科学家。他的职业生涯建立在分布式大数据和流处理平台(如 Apache Hadoop、Apache Spark 和 Apache Storm)上训练和部署机器学习解决方案。作为奥本大学的博士后研究员,他研究了有效可视化从训练好的非线性机器学习模型中获得的知识的方法。

趣闻: 沉迷于打网球,还是个超级动漫迷。🎾

MasterPeace Solutions: MasterPeace Solutions 已成为中大西洋地区发展最快的先进技术公司之一。该公司设计和开发软件、系统、解决方案和产品,以解决情报界面临的一些最紧迫的挑战。

1. 机器学习如何对工程领域产生积极影响?

工程学的应用非常广泛,可以涵盖许多领域。话虽如此,最近我们看到机器学习正在影响一系列工程领域,从机器人和汽车工程等显而易见的领域,到化学和土木工程等不那么显而易见的领域。机器学习的应用如此广泛,只要存在包含先前记录的劳动流程的训练数据,就可以尝试让机器学习影响您的底线。本质上,我们正处在一个机器学习已显著影响了各种以往仅由人类操作的工程流程自动化的时代。

2. 工程领域最大的机器学习挑战是什么?

  1. 最大的挑战在于机器学习训练解决方案的操作化和部署,要以最小的后果取代人类操作。我们现在在全自动驾驶汽车中看到了这一点。自动化流程且几乎不担心危及人类或人类依赖的流程是具有挑战性的。这个现象中,我最关心的一个最重要的例子是机器学习和偏见。事实上,用包含(即使是无意识的)偏见决策的数据训练的机器学习模型,在操作中会重现这种偏见。在将机器学习融入工程学的尝试中,必须将偏见问题放在首位,以防止系统性种族主义传播到未来的技术进步中,从而对弱势群体造成伤害。在源于有偏见过程的数据上训练的机器学习系统注定会重蹈覆辙,特别是如果训练机器学习解决方案的人没有敏锐地意识到待自动化过程中存在的所有形式的数据。
  2. 工程领域中机器学习的另一个关键挑战是,该领域主要以解决问题的需求为特征,而这通常需要创造力。到目前为止,机器学习代理真正具有“创造力”和“跳出框框思考”能力的优秀案例很少,因为当前的机器学习解决方案往往只是通过搜索所有可能的解决方案得出的结果。在我看来,尽管通过这些方法可以找到很多解决方案,但在机器学习能够在各种问题空间中持续展现创造力之前,它在工程领域的发展会有一个天花板。话虽如此,这个天花板仍然相当高,在机器学习在工程领域的应用中还有很多事情有待完成。

3. 您在人们尝试将机器学习集成到工程领域时看到的常见错误是什么?

在将机器学习集成到工程领域时,我看到的一个常见错误是对小问题数据集使用过于强大的机器学习技术。例如,深度学习正在将人工智能和机器学习推向一个在如此短时间内难以想象的高度,但它可能不是解决问题的最佳方法,这取决于您的问题空间。通常,在处理小型训练数据集和有限硬件时,更简单的方法效果同样好或更好。

此外,没有为您的机器学习解决方案建立有效的 CI/CD(持续集成/持续部署)结构是我看到的另一个错误。通常情况下,一次训练好的模型是不够的,不仅因为数据会随时间变化,资源和人员也会变化。今天的机器学习从业者需要

  1. 确保数据变化的持续流动,并不断重新训练新模型以保持其准确性和实用性,
  2. 确保有相应的结构,以便新训练的模型能够无缝替换旧模型,同时
  3. 让机器学习模型输出的消费者受到的干扰最小化。

4. 关于机器学习的未来,什么最让您兴奋?

机器学习的未来仍然令人兴奋,似乎每个月该领域都有新的进展报告,即使是专家也会为之惊叹。随着 1) 机器学习技术不断改进并变得更容易为资深从业者和新手所用,2) 日常硬件变得更快,3) 微型化边缘设备的功耗问题变得更少,以及 4) 内存限制随时间减少,机器学习在工程领域的发展前景在未来几年内将一片光明。

Samuel Franklin

背景: Samuel 是 Pluralsight 的高级数据科学和机器学习工程领导者,拥有认知科学博士学位。他领导着由数据科学家和机器学习工程师组成的优秀团队,构建为 Pluralsight 的技能平台提供支持的智能服务。

在虚拟办公室之外,Franklin 博士为埃默里大学教授数据科学和机器学习研讨会。他还担任亚特兰大人道协会董事会主席。

趣闻: 我住在阿巴拉契亚山脉一座山顶的小木屋里。

Pluralsight: 我们是一家技术劳动力发展公司,我们的技能平台被 70% 的财富 500 强公司用于帮助其员工培养关键的业务技术技能。

1. 机器学习如何对教育产生积极影响?

在线、按需的教育内容使全球数十亿人比以往任何时候都更容易实现终身学习。数十年的认知研究表明,教育内容的相关性、格式和顺序对学生的成功有显著影响。深度学习内容搜索和推荐算法的进步极大地提高了我们大规模创建定制化、高效学习路径的能力,这些路径可以随着时间的推移适应个别学生的需求。

2. 教育领域最大的机器学习挑战是什么?

我认为 MLOps 技术是改善各行业机器学习的关键机遇领域。今天的 MLOps 技术现状让我想起了 2015-16 年左右的容器编排战争。对于机器学习训练-部署-监控堆栈,存在着相互竞争的愿景,每个愿景都由热情的社区倡导并得到大型组织的支持。如果最终出现一个主导愿景,那么 MLOps 工程模式的共识可能会随之而来,从而降低目前给机器学习团队带来摩擦的决策复杂性。

3. 您在人们尝试将机器学习集成到现有产品中时看到的常见错误是什么?

我见过各种规模的组织在开始使用机器学习时犯的两个关键错误。第一个错误是低估了投资于具有丰富实践机器学习经验的高级领导者的重要性。机器学习战略和运营领导力需要深厚的技术专业知识,这超出了通常在商业智能/分析领域所能找到的,也超出了提供该领域有限介绍的教育项目所能提供的。第二个错误是等待太久才设计、测试和实施生产部署流水线。有效的原型模型可能会在代码库中闲置数月甚至数年,等待机器学习流水线的开发。这会给组织带来巨大的机会成本,并使机器学习团队感到沮丧,从而增加人员流失的风险。

4. 关于机器学习的未来,什么最让您兴奋?

我为有机会指导下一代机器学习领导者而感到兴奋。我的职业生涯始于云计算平台刚刚起步,机器学习工具远不如现在成熟的时期。探索机器学习实验和部署的不同工程模式令人兴奋,因为当时成熟的最佳实践很少。但是,这种探索也包括以艰难的方式学习了太多的技术和人员领导力课程。与下一代机器学习领导者分享这些经验教训,将有助于他们比过去 10 多年更快、更深入地推动该领域的发展。

Evan Castle

背景: 在数据科学、产品和战略交叉领域拥有十多年的领导经验。Evan 曾在多个行业工作,从在 Capital One 等财富 100 强公司建立风险模型,到在 Sisense 和 Elastic 推出机器学习产品。

趣闻: 见过保罗·麦卡特尼。🎤

MasterPeace Solutions: MasterPeace Solutions 已成为中大西洋地区发展最快的先进技术公司之一。该公司设计和开发软件、系统、解决方案和产品,以解决情报界面临的一些最紧迫的挑战。

1. 机器学习如何对 SaaS 产生积极影响?

机器学习在 SaaS 领域已经真正实现了运营化,为多种用途提供支持,从个性化、语义和图像搜索、推荐到异常检测,以及大量其他业务场景。真正的影响在于,机器学习已经内置于越来越多的应用程序中。它正在成为一种期望,并且通常对最终用户是不可见的。例如,在 Elastic,我们投资于机器学习进行异常检测,并针对端点安全和 SIEM 进行了优化。它开箱即用,提供了强大的火力,融合了时间序列分解、聚类、相关性分析和贝叶斯分布建模等多种技术。对于安全分析师来说,最大的好处是威胁检测在许多方面都实现了自动化。因此,与时间偏差、异常地理位置、统计稀有性以及许多其他因素相关的异常会迅速浮出水面。这就是集成机器学习的巨大积极影响。

2. SaaS 领域最大的机器学习挑战是什么?

为了最大化机器学习的效益,存在着一个双重挑战:既要为机器学习新手用户提供价值,也要为经验丰富的数据科学家提供价值。这两个群体的需求显然有很大差异。如果一个机器学习功能完全是一个黑匣子,它很可能过于僵化或简单,无法产生真正的影响。另一方面,如果只提供一个开发者工具包,那么只有在内部有数据科学团队的情况下才有用。要达到正确的平衡,关键在于确保机器学习足够开放,让数据科学团队能够对模型有透明度和控制权,同时也要打包经过实战检验的模型,这些模型易于配置和部署,无需专业人士即可操作。

3. 您在人们尝试将机器学习集成到 SaaS 中时看到的常见错误是什么?

为了做到恰到好处,任何集成的模型都必须能够大规模工作,这意味着要支持海量数据集,同时确保结果仍然具有高性能和准确性。让我们用一个真实的例子来说明这一点。最近对向量搜索的兴趣激增。从文本、图像到事件,各种各样的事物都可以用向量表示。向量可以用来捕捉内容之间的相似性,非常适合搜索相关性和推荐等任务。挑战在于开发能够比较向量的算法,同时要权衡速度、复杂性和成本。在 Elastic,我们花了很多时间评估和基准测试向量搜索模型的性能。我们决定采用一种名为分层可导航小世界图 (HNSW) 的近似最近邻 (ANN) 算法,它基本上根据向量之间的相似性将它们映射到一个图中。在各种 ANN 基准测试中,HNSW 在速度和准确性方面都实现了一个数量级的提升。这只是越来越多的产品和工程团队为了成功地将机器学习集成到他们的产品中而需要做出的非凡决策的一个例子。

4. 关于机器学习的未来,什么最让您兴奋?

机器学习将变得像在线订购一样简单。尤其是在自然语言处理(NLP)领域的巨大进步,通过理解上下文、意图和含义,使机器学习变得更加人性化。我认为我们正处于一个基础模型的时代,它将向许多有趣的方向发展。在 Elastic,我们对自己与 Hugging Face 的集成感到非常兴奋,并且已经很高兴地看到我们的客户如何利用 NLP 来实现可观测性、安全性和搜索。


🤗 感谢您参与我们第四期的机器学习总监洞见。

非常感谢 Javier Mansilla、Shaun Gittens、Samuel Franklin 和 Evan Castle 在本文中分享的精彩见解和参与。我们期待见证您们持续的成功,并将在每一步为您加油。🎉

如果您有兴趣通过 Hugging Face 专家加速您的机器学习路线图,请访问 hf.co/support 了解更多信息。

社区

注册登录 以发表评论