机器学习洞见总监 [第一部分]
在机器学习领域,很少有职位能像机器学习总监那样,同时涵盖技术技能、问题解决能力和商业头脑。
机器学习和/或数据科学总监通常需要设计机器学习系统,具备深厚的数学知识,熟悉机器学习框架,对数据架构有丰富的理解,拥有将机器学习应用于现实世界的经验,具备扎实的沟通技巧,并且通常需要时刻关注行业发展。这真是一个很高的要求!
因此,我们邀请了这群独特的机器学习总监,推出一系列文章,重点介绍他们对当前机器学习洞见和行业趋势的看法,涵盖从医疗保健到金融、电子商务、SaaS、研究、媒体等多个领域。例如,一位总监会指出,利用机器学习可以将卡车空驶(目前约占 20% 的时间)降低到 19%,这将减少相当于约 10 万美国人的碳排放量。注意:这是由一位前火箭科学家粗略估算的,不过我们姑且信之。
在这第一部分中,您将听到一位研究员(他正在使用探地雷达探测埋藏的地雷)、一位前火箭科学家、一位精通宗喀语的业余玩家(Kuzu = 你好!)、一位曾以货车为家的科学家、一位仍然亲力亲为的高性能数据科学团队教练,以及一位重视人际关系、家庭、狗和披萨的数据从业者——所有这些人目前都是机器学习总监,在该领域拥有丰富的洞见。
🚀 让我们来认识一些顶尖的机器学习总监,听听他们对机器学习在其各自行业中影响的看法。
Archi Mitra
背景: 在机器学习为商业带来的前景中寻求平衡。以人为本,流程次之。策略优于空想。人工智能伦理高于人工智能利润。来自纽约的棕色人种。
趣闻: 我会说 宗喀语 (Dzongkha)(可以谷歌一下!),并且是 Youth for Seva 的支持者。
Buzzfeed: 一家专注于数字媒体的美国互联网媒体、新闻和娱乐公司。
1. 机器学习 (ML) 如何为媒体行业带来积极影响?
为客户提供隐私优先的个性化服务: 每个用户都是独一无二的,虽然他们的长期兴趣稳定,但短期兴趣是随机的。他们希望与媒体的关系能反映这一点。硬件加速和深度学习在推荐系统方面的进步,使得我们能够开始解读这种细微差别,并在正确的接触点、正确的时间为用户提供正确的内容。
为创作者提供辅助工具: 创作者是媒体中有限的资产,通过机器学习驱动的“人在环路”辅助工具来保护他们的创作带宽,已经产生了巨大的影响。像自动建议合适的标题、图片、视频和/或与他们正在创作的内容相匹配的产品这样简单的事情,就能开启一个人机协作的飞轮。
加强测试: 在资本密集型的媒体企业中,需要缩短从收集用户信息(了解哪些内容能引起用户共鸣)到立即采取行动之间的时间。借助各种贝叶斯技术和强化学习的进步,我们不仅大幅缩短了时间,还降低了相关成本。
2. 媒体行业面临的最大机器学习挑战是什么?
隐私、编辑声音和公平报道: 在当今民主世界中,媒体比以往任何时候都更是关键支柱。机器学习需要尊重这一点,并在一些限制条件下运行,而这些限制在其他任何领域或行业中都不被认为是基本要求。在编辑策划的内容和节目与机器学习驱动的推荐之间找到平衡仍然是一个挑战。BuzzFeed 面临的另一个独特挑战是,我们相信互联网应该是免费的,这意味着我们不像其他人那样跟踪用户。
3. 在尝试将机器学习集成到媒体行业时,您看到的常见错误是什么?
忽视媒体的“创作者”:媒体之所以普遍存在,是因为它拥有对人们有深远影响的声音。编辑、内容创作者、作家和制作人是这种声音的喉舌,而成功的关键在于构建能够赋能他们、扩大其影响力并与他们和谐共处的机器学习系统。
4. 机器学习的未来最让您兴奋的是什么?
理想情况下,是小数据驱动的通用多模态多任务实时机器学习系统,能够在药物发现、高精度手术、气候控制系统和沉浸式元宇宙体验方面实现阶跃式改进。现实一点的话,是更易于使用、低门槛的元学习技术,用于高精度的文本和图像生成。
Li Tan (谭立)
背景: Li 是一位人工智能/机器学习资深人士,拥有超过 15 年的经验,曾在强生 (Johnson & Johnson)、微软 (Microsoft) 和亚马逊 (Amazon) 等行业领导者中领导备受瞩目的数据科学团队。
趣闻: Li 保持着好奇心,总是在学习,并享受亲手编程的乐趣。
强生 (Johnson & Johnson): 一家开发医疗设备、药品和消费品的跨国公司。
1. 机器学习 (ML) 如何为制药行业带来积极影响?
过去几年,人工智能/机器学习在制药领域的应用呈爆炸式增长,并带来了许多长期的积极影响。制药和医疗保健领域有许多可以利用人工智能/机器学习的用例。
应用范围从研究、真实世界证据到智能制造和质量保证。使用的技术也非常广泛:NLP/NLU、CV、AIIoT、强化学习等,甚至包括像 AlphaFold 这样的技术。
2. 制药行业面临的最大机器学习挑战是什么?
制药和医疗保健领域最大的机器学习挑战是如何确保人工智能应用的公平性和多样性。例如,如何确保训练集对所有种族群体都有良好的代表性。由于医疗保健和制药行业的特殊性,这个问题可能比其他一些领域的应用产生更大的影响。
3. 在尝试将机器学习集成到制药行业时,您看到的常见错误是什么?
我不认为这一定是个错误,但我看到很多人在医疗保健领域的人工智能应用上持有极端观点:要么过于保守,要么过于激进。
有些人因为高监管要求而抵触。我们必须用严格的 GxP 验证来认证我们的许多人工智能应用。这可能需要大量的工作,但我们相信这些努力是值得的。在光谱的另一端,有许多人认为人工智能/深度学习模型可以在许多应用中超越人类,并完全自主运行。
作为从业者,我们知道目前这两种观点都不正确。
机器学习模型可以非常有价值,但仍然会犯错。所以我建议采取一种更渐进的方法。关键是建立一个既能利用人工智能的力量,又设有“守门员”的框架。FDA 已经采取行动来规范人工智能/机器学习在作为医疗设备的软件中的使用,我相信这是我们行业向前迈出的积极一步。
4. 机器学习的未来最让您兴奋的是什么?
人工智能/机器学习与其他硬科学和技术的交叉点。我很期待看到未来的发展。
Alina Zare
背景: Alina Zare 是佛罗里达大学电气与计算机工程系的教授,也是机器学习与传感实验室的主任,从事机器学习和人工智能领域的教学和研究。Zare 博士的研究主要集中在开发新的机器学习算法,以自动理解和处理数据和图像。
她的研究工作包括植物根系表型分析自动化、亚像素高光谱图像分析、目标检测、使用合成孔径声纳进行水下场景理解、激光雷达数据分析、探地雷达分析,以及埋藏地雷和爆炸物危险检测。
趣闻: Alina 是一名赛艇运动员。她在高中时加入了赛艇队,在大学和研究生期间一直坚持赛艇,在密苏里大学担任助理教授时曾是该校赛艇队的总教练,加入佛罗里达大学任教后,她作为一名大师级赛艇手继续参与这项运动。
机器学习与传感实验室: 佛罗里达大学的一个实验室,致力于开发用于自主分析和理解传感器数据的机器学习方法。
1. 机器学习 (ML) 如何为科学领域带来积极影响?
机器学习以多种方式带来了积极影响,从帮助自动化繁琐和/或缓慢的任务,到提供审视和研究各种问题的新方法。以我在植物科学领域的机器学习工作为例,我们开发了机器学习方法来自动化图像中的植物根系分割和特征化。这项任务以前是植物科学家在研究根系图像时的瓶颈。通过机器学习自动化这一步骤,我们可以以更高的通量进行这些分析,并开始利用这些数据大规模地研究植物生物学研究问题。
2. 科学研究领域面临的最大机器学习挑战是什么?
挑战有很多。一个例子是,在将机器学习用于科学研究时,我们必须仔细考虑数据收集和整理的流程。在某些情况下,我们用于非机器学习分析的流程可能不适用或无效。数据的质量以及它对应用中预期情况的代表性,会对基于机器学习的系统的性能、可靠性和可信度产生巨大影响。
3. 在尝试将机器学习集成到科学领域时,您看到的常见错误是什么?
与上面的问题相关,一个常见的错误是,将结果或性能误解为仅仅是机器学习系统的函数,而没有同时考虑数据收集、整理、校准和归一化的流程。
4. 机器学习的未来最让您兴奋的是什么?
有很多非常令人兴奋的方向。我目前的大部分研究都集中在拥有大量先验知识和经验推导模型的领域。例如,我正在进行一项将机器学习用于森林生态学研究的工作。林业社区拥有丰富的先验知识体系,而当前纯数据驱动的机器学习系统并未加以利用。我认为,将先验知识与机器学习方法无缝融合的混合方法将是一个有趣且令人兴奋的前进方向。一个例子可能是了解两个物种在某个区域共存的可能性。或者在给定的环境条件下,我们可以预期什么样的物种分布。这些可以潜在地与数据驱动的方法结合使用,以在变化的条件下进行预测。
Nathan Cahill
背景: Nathan 是一位充满热情的机器学习领导者,拥有 7 年的研发经验和 3 年通过将机器学习模型投入生产来创造商业价值的经验。他专注于发现并战略性地优先处理业务的最大痛点:在增长曲线的早期阶段释放数据的力量。
趣闻: 在进入运输和物流行业之前,我曾在诺斯罗普·格鲁曼公司 (Northrop Grumman) 设计火箭。#火箭科学
Xpress Technologies: 一种数字货运匹配技术,旨在连接托运人、经纪人和承运人,为运输行业带来效率和自动化。
1. 机器学习 (ML) 如何为物流/运输行业带来积极影响?
运输行业非常分散。行业内的顶尖公司市场份额都不到 1%。因此,存在一些可以通过数字化解决方案解决的低效率问题。
例如,当你在路上看到一辆半挂车时,目前有 20% 的可能性这辆卡车是空载行驶的。是的,牵引拖车行驶里程的 20% 是从上一次卸货点到下一次装货点。很可能还有另一辆卡车在反方向空驶(或“空载返程”)。
通过机器学习和优化,这个空载百分比可以显著降低,仅仅将这个数字从 20% 降到 19%,就能减少相当于 10 万美国人的碳排放量。
注意:10 万美国人的碳排放量是我自己粗略估算的。
2. 物流行业面临的最大机器学习挑战是什么?
物流行业的一大挑战在于其高度分散的特性:没有共享的数据池,这使得技术解决方案无法“看到”全局。例如,大部分经纪货运的成本是逐单协商的,因此波动性很大。这使得定价成为一个非常难以解决的问题。如果行业变得更加透明并更自由地共享数据,那么将会有更多的可能性。
3. 在尝试将机器学习集成到物流行业时,您看到的常见错误是什么?
我认为我看到的最常见的错误是人们在真空中进行机器学习和数据科学。
物流领域的大多数机器学习应用如果被使用,将会显著改变问题的动态,因此与业务部门迭代开发模型,并确保实际性能与训练中的预期相符非常重要。
定价就是一个例子,如果你对某条线路的定价稍低,你的价格可能会太有竞争力,导致该线路的货运量激增。这反过来又可能导致成本上升,因为经纪人要努力为这些货物寻找运力,从而加剧了问题。
4. 机器学习的未来最让您兴奋的是什么?
我认为最让我兴奋的是机器学习有机会让人们在工作中表现得更好。
随着机器学习在商业中变得无处不在,它将能够帮助加快决策速度并自动化重复性工作。这将加速创新步伐,并创造巨大的经济价值。我迫不及待地想看看在未来 10 年里,我们在数据科学和机器学习的帮助下能解决什么问题!
Nicolas Bertagnolli
背景: Nic 是一名科学家和工程师,致力于通过机器学习改善人类沟通。在过去十年中,他将机器学习/自然语言处理应用于解决医疗领域的数据问题,从揭示癌症基因组中的新模式到利用数十亿份临床笔记来降低成本和改善结果。
在 BEN,Nic 创新智能技术,以扩展人类的能力来触达人们。请在此处查看他的简历、研究和 Medium 文章。
趣闻: 在加入 BEN 之前,Nic 曾住在一辆货车里,在美国西部旅行了三年。
BEN: 一家娱乐人工智能公司,将品牌植入网红、流媒体、电视和电影内容中,以广告无法实现的方式将品牌与受众联系起来。
1. 机器学习 (ML) 如何为市场营销行业带来积极影响?
影响巨大!它正在彻底改变整个行业格局。市场营销是一个充满传统的领域,很多决策基于直觉。在过去的 20 年里,市场营销决策越来越依赖统计数据,但许多品牌仍然依赖其营销部门的直觉。机器学习正在彻底改变这一点。通过分析哪些广告表现良好,我们可以就如何以及向谁进行市场营销做出非常明智的决策。
在 BEN,机器学习确实帮助我们在处理网红营销时消除了许多猜测。数据帮助我们穿透偏见和主观性的迷雾,从而做出明智的决策。
这还只是显而易见的好处!机器学习还使得品牌能够做出更安全的营销决策。例如,向 21 岁以下的人推销酒精是违法的。利用机器学习,我们可以识别出受众主要是 21 岁以上的网红。这不仅帮助了酒类品牌,也帮助了那些担心自己品牌形象与酒精相关的品牌。
2. 市场营销行业面临的最大机器学习挑战是什么?
就像机器学习中的大多数事情一样,问题通常并不在于模型本身。有了像 Hugging Face、torch hub 等工具,有许多优秀且灵活的模型可供使用。
真正的挑战在于数据的收集、清理和管理。如果我们想谈论工作中那些困难的机器学习部分,其中一些归结为人们的观点和喜好中存在大量噪音。理解像病毒式传播这样的事情真的非常非常困难。
理解是什么让一个创作者/网红长期成功也非常困难。在一些非常嘈杂且难以获取的数据中,埋藏着许多奇怪的偏好信息。这些问题归根结底需要数据、机器学习和业务团队之间有非常扎实的沟通,并构建能够增强和与人类协作的模型,而不是完全自动化他们的角色。
3. 在尝试将机器学习集成到市场营销行业时,您看到的常见错误是什么?
我认为这不仅仅是市场营销行业的特有问题,但将机器学习和数据科学置于良好基础设施之上是我经常看到的一个大问题。组织听到机器学习后,想分一杯羹,于是他们雇佣了一些数据科学家,结果发现他们没有任何基础设施来支持他们那些新奇花哨的模型。机器学习的价值很大一部分在于模型周围的基础设施,如果你有训练好的模型但没有基础设施,你就完蛋了。
BEN 的一个非常好的地方是,我们大力投资了我们的数据基础设施,做到了“先有马再有车”。现在,数据科学家可以构建能快速为我们的最终用户服务的模型,而无需自己去搞定整个流程的每一步。在雇佣大量机器学习人员之前,先投资数据工程。
4. 机器学习的未来最让您兴奋的是什么?
有太多令人兴奋的事情在发生。我认为这个领域的发展速度和民主化或许是最让我兴奋的。我记得差不多 10 年前,我写了第一个用于语言翻译的 seq2seq 模型。它有几百行代码,训练时间很长,而且相当有挑战性。现在,你基本上可以用不到 100 行的 Python 代码构建一个可以将任何语言翻译成任何其他语言的系统。这太疯狂了!这个趋势很可能会继续下去,随着机器学习基础设施越来越好,没有深厚领域专业知识的人部署和为他人提供模型将变得越来越容易。
就像互联网初期一样,软件开发人员很少,你需要一个熟练的团队来建立一个网站。然后像 Django、Rails 等框架出现,使网站建设变得容易,但提供服务仍然很困难。我们现在有点像处于模型构建容易但可靠地提供服务、可靠地监控它们等仍然具有挑战性的阶段。我认为在未来几年,这里的入门门槛会大幅降低,基本上任何高中生都可以将一个深度 transformer 部署到某个云基础设施上,并开始为大众提供有用的结果。这非常令人兴奋,因为它意味着我们将开始看到越来越多切实的创新,就像在线服务的爆炸式增长一样。太多酷炫的事情了!
Eric Golinko
背景: 经验丰富的数据从业者和团队建设者。我在不同规模的公司和多个行业工作过。我是一名问题解决者,受过数学和计算机科学的训练。但最重要的是,我珍视人际关系、家庭、狗、旅行和披萨。
趣闻: Eric 超爱玉米片!
E Source: 为公用事业公司、主要能源用户以及零售能源市场中的其他关键参与者提供独立的市场情报、咨询和预测性数据科学服务。
1. 机器学习 (ML) 如何为能源/公用事业行业带来积极影响?
获取商业洞察。前提是要有高质量的数据。公用事业公司在其数据组合中拥有许多数据关系,从客户到设备,更具体地说,这指的是月度账单金额和节能项目参与情况。这类数据可以存储在关系型数据库中,而设备或资产数据我们可以理解为构成我们电网的机器部件。桥接这些类型的数据并非易事。
此外,第三方数据,如空间/地理信息系统 (GIS) 和天气数据也极其重要。通过机器学习的视角,我们能够发现和探索具有实际影响的特征和结果。
2. 公用事业行业面临的最大机器学习挑战是什么?
需要进行一次“去神秘化”的过程。要明确机器学习能做什么,以及在哪些方面需要监控或可能存在不足。公用事业行业有其既定的运营方式,机器学习可能被视为一种颠覆者。因此,各部门可能对采用任何新技术或新范式持缓慢态度。然而,如果从业者能够证明结果,那么结果就会产生牵引力,并激发更大的采纳意愿。其他挑战包括本地数据以及对云和基础设施的访问。这是一个渐进的过程,需要耐心和学习曲线。
3. 在尝试将机器学习集成到公用事业行业时,您看到的常见错误是什么?
并非公用事业行业独有,但行动过快、忽视良好的数据质量和简单的质量检查是一个常见问题。除此之外,机器学习在许多团队中以直接或间接的方式实践着。一个挑战是在团队之间整合最佳开发实践。这也意味着模型跟踪以及能够持久化实验和持续发现。
4. 机器学习的未来最让您兴奋的是什么?
我从事这个行业已经超过十年了,但不知何故,我仍然感觉自己像个新手。我很幸运能成为一些团队的一员,在这些团队里,能被称为普通成员都是一种幸运。我的感觉是,未来十年及以后将更加注重数据工程,以看到更多由机器学习覆盖的用例。
🤗 感谢您收看第一期《机器学习总监洞见》。敬请期待更多来自 SaaS、金融和电子商务领域机器学习总监的洞见。
非常感谢 Eric Golinko、Nicolas Bertagnolli、Nathan Cahill、Alina Zare、Li Tan (谭立) 和 Archi Mitra 在本文中提供的精彩见解和参与。我们期待见证你们每一位的持续成功,并将在每一步都为你们加油。🎉
最后,如果您或您的团队有兴趣通过 Hugging Face 专家加速您的机器学习路线图,请访问 hf.co/support 了解更多信息。