机器学习总监洞见 [第 2 部分:SaaS 版]

发布于 2022 年 5 月 13 日
在 GitHub 上更新

如果您或您的团队有兴趣更快地构建机器学习解决方案,请立即访问 hf.co/support

👋 欢迎来到我们的“机器学习总监洞见”[系列] 的第 2 部分。请在此处查看 第 1 部分

机器学习总监在人工智能领域占据着独特的地位,他们的视角跨越了各种角色和职责。他们在机器学习框架、工程、架构、实际应用和问题解决方面的丰富知识,为我们提供了对机器学习现状的深刻见解。例如,一位总监会指出,使用新的 Transformer 语音技术如何使他们团队的错误率降低了 30%,以及简单的思维如何帮助节省 *大量* 的计算能力。

有没有想过 Salesforce 或 ZoomInfo 的总监们目前对机器学习的状况有何看法?他们最大的挑战是什么?他们最兴奋的是什么?那么,您即将揭晓答案!

在第二期 SaaS 专题中,您将听到一位医疗保健深度学习教科书作者的分享,他还创办了一个非营利组织来指导机器学习人才;一位国际象棋狂热的网络安全专家;一位因芭比娃娃在铅召回事件后需要监控品牌声誉而受到启发并创业的企业家;以及一位经验丰富的专利和学术论文作者,他喜欢看着自己的四个孩子犯下与他的机器学习模型相同的错误。

🚀 让我们来认识一些 SaaS 领域的顶尖机器学习总监,听听他们对机器学习的看法

Omar Rahman

背景: Omar 领导一个机器学习和数据工程师团队,利用机器学习进行防御性安全工作,作为网络安全团队的一部分。此前,Omar 曾在 Adobe 和 SAP 领导数据科学和机器学习工程团队,专注于为营销云和采购应用带来智能功能。Omar 拥有亚利桑那州立大学的电气工程硕士学位。

趣闻: Omar 喜欢下国际象棋,并在业余时间志愿指导和辅导人工智能领域的研究生。

Salesforce: 全球排名第一的客户关系管理软件。

1. 机器学习如何对 SaaS 产生积极影响?

机器学习在许多方面都使 SaaS 产品受益。

a. 提高应用程序内的自动化程度: 例如,一个服务工单路由器使用 NLP(自然语言处理)来理解服务请求的上下文,并将其路由到组织内的相应团队。

b. 降低代码复杂性: 基于规则的系统随着新规则的增加往往会变得难以管理,从而增加了维护成本。例如,一个基于机器学习的语言翻译系统,与以前基于规则的系统相比,代码行数少得多,但准确性和鲁棒性更高。

c. 更好的预测带来成本节约。 能够更准确地进行预测有助于减少供应链中的缺货,同时通过减少存储成本来节省开支。

2. SaaS 领域最大的机器学习挑战是什么?

a. 将机器学习应用产品化需要的不仅仅是拥有一个模型。能够利用模型提供结果、检测和适应数据统计特性的变化等,都会在部署和维护机器学习系统时产生巨大的开销。

b. 在大多数大型组织中,数据通常是孤立的且维护不善,导致在数据整合、预处理、数据清洗等活动上花费大量时间,从而需要大量的时间和精力来创建基于机器学习的应用程序。

3. 在将机器学习集成到 SaaS 中时,您看到人们常犯的错误是什么?

不够关注业务背景和要解决的问题,而是试图使用最新、最强大的算法和新开源的库。通过简单的传统机器学习技术,其实可以实现很多目标。

4. 关于机器学习的未来,什么最让您兴奋?

通用人工智能能力,如果构建和管理得当,有能力以超出人们想象的多种方式改变人类。我希望我们能在医疗保健和交通领域看到巨大的进步。我们已经看到人工智能在放射学中的好处,显著节省了人力,从而使人类能够专注于更复杂的任务。自动驾驶汽车和卡车已经在改变交通运输行业。

肖可 (Danica)

背景: 肖可 (Danica) 是 Amplitude 的高级总监兼数据科学与机器学习负责人。她的团队专注于开发和部署基于多源用户数据的自服务机器学习模型和产品,以解决有关数字产品分析和优化的关键业务挑战。此外,她是一位充满热情的机器学习研究员,已在顶级计算机科学会议上发表了超过 95 篇论文。她也是一位技术领导者,在机器学习路线图创建、团队建设和人才指导方面拥有丰富的经验。

在加入 Amplitude 之前,肖可 (Danica) 是 IQVIA 分析卓越中心的全球机器学习负责人。在此之前,她是 IBM 研究院的研究员和 MIT-IBM Watson AI 实验室的研究负责人。她获得了西雅图华盛顿大学的机器学习博士学位。最近,她还合著了一本关于医疗保健深度学习的教科书,并创办了一个非营利组织来指导机器学习人才。

趣闻: 肖可是一位爱猫人士,是两只猫的妈妈:一只新加坡猫女孩和一只英国短毛猫男孩。

Amplitude: 一个基于云的产品分析平台,帮助客户构建更好的产品。

1. 机器学习如何对 SaaS 产生积极影响?

机器学习在将海量嘈杂的机器生成或用户生成数据转化为各种业务问题的答案方面,扮演着改变游戏规则的角色,这些问题包括个性化、预测、推荐等。它通过 SaaS 影响了广泛的行业垂直领域。

2. SaaS 领域最大的机器学习挑战是什么?

缺乏涵盖更广泛行业用例的机器学习模型训练数据。尽管 SaaS 是面向所有行业垂直领域的通用解决方案,但仍需解决如何处理因业务或领域漂移问题而产生的垂直领域特定需求,这些问题会影响机器学习模型的质量。

3. 在将机器学习集成到 SaaS 产品中时,您看到人们常犯的错误是什么?

没有给用户足够的灵活性,让他们能够融入对业务成功至关重要的业务知识或其他人为因素。例如,对于一个自服务的产品推荐系统,如果用户可以控制推荐产品的多样性,那将会非常好。

4. 关于机器学习的未来,什么最让您兴奋?

机器学习已经取得了巨大的成功。它也在快速发展,以解决当前的局限性(例如,数据不足、领域漂移、领域知识的融入)。

更多的机器学习技术将被应用于解决业务或客户需求。例如,可解释的机器学习让用户能够理解和信任机器学习模型的输出;反事实预测让用户能够评估如果他们做出不同的业务决策,可能会出现的替代结果。

Raphael Cohen

背景: Raphael 拥有理解健康记录和遗传学领域的博士学位,撰写了 20 篇学术论文,并拥有 8 项专利。Raphael 也是数据科学和研究领域的领导者,在自然语言处理、语音、医疗保健、销售、客户旅程和 IT 方面拥有背景。

趣闻: Raphael 有 4 个孩子,他喜欢看到他们学习并犯下与他的一些机器学习模型相同的错误。

ZoomInfo: 智能销售和营销技术,由全球最全面的商业数据库支持。

1. 机器学习如何对 SaaS 产生积极影响

机器学习促进了对话数据的转录,帮助人们解锁新的洞见和理解。人们现在可以轻松查看他们谈论过的事情、总结的目标、要点、谁说得最多、谁问了最好的问题、下一步是什么等等。这对于许多互动,如电子邮件和视频会议(现在比以往任何时候都更常见)来说,非常有用。

通过 Chorus.ai,我们在对话进行时实时转录。我们使用一种名为 Wave2Vec 的算法来实现这一点。 🤗 Hugging Face 最近发布了他们自己的 Wave2Vec 版本,专为训练而创建,我们从中获得了很大的价值。新一代的 Transformer 语音技术非常强大,它使我们的错误率降低了 30%。

一旦我们转录了对话,我们就可以深入研究内容——这就是自然语言处理发挥作用的地方,我们严重依赖 Hugging Face Transformers 来帮助我们描绘录音和电子邮件中大约 20 个类别的主题;例如,我们是在谈论定价、签订合同、下一步行动,所有这些主题都是通过电子邮件发送或讨论的,现在可以轻松提取这些信息,而无需回头翻阅所有对话。

这有助于人们在工作中表现得更好。

2. SaaS 领域最大的机器学习挑战是什么?

最大的挑战是理解何时利用机器学习。

哪些问题我们可以用机器学习解决,哪些不应该用?很多时候,我们用机器学习模型取得了突破,但一个计算上更轻量的启发式模型更适合解决我们面临的问题。

这就是一个强大的人工智能策略发挥作用的地方。——了解你希望最终产品如何工作以及达到何种效率。

我们还面临一个问题,即如何以较低的环境/计算足迹将你构建的机器学习模型投入生产?每个人都在为此苦恼;如何以高效的方式在生产中维护模型,而不过度消耗资源。

一个很好的例子是当我们转向 Wav2Vec 框架时,这需要我们将对话音频分解成 15 秒的片段,然后输入到这个巨大的模型中。在此过程中,我们发现我们向模型输入了大量纯粹是静音的片段。这种情况很常见,比如有人没出现或者一个人在等另一个人加入会议。

仅仅通过添加另一个非常轻量的模型来告诉我们何时不将静音片段发送到这个庞大复杂的机器学习模型中,我们就能节省大量的计算能力/能源。这是一个工程师可以思考其他更简单的方法来加速和节省模型生产成本的例子。有更多的工程师可以变得更精明,更好地优化模型,而不过度消耗资源。

3. 在将机器学习集成到 SaaS 中时,您看到人们常犯的错误是什么?

我的解决方案是最聪明的吗?有没有更好的方法来分解这个问题并更高效地解决它?

当我们开始识别说话者时,我们直接采用了机器学习方法,但这并不如视频会议提供商的数据准确。

从那以后我们学到,最好的方法是先从会议提供商那里获取谁在说话的元数据,然后在此基础上叠加一个智能的嵌入模型。我们在这段学习曲线上浪费了宝贵的时间。如果我们停下来思考,认识到有其他数据源可以投资,这些数据源可以帮助我们更高效地加速,我们就不应该使用这个庞大的机器学习解决方案。

跳出思维定势,不要仅仅拿别人构建的东西,然后想“我有个主意可以改进它”。我们可以在哪里通过更好地理解问题而变得更聪明?

4. 关于机器学习的未来,什么最让您兴奋?

我认为我们正处在另一场革命之中。对我们来说,看到我们的 Wave2Vec 模型使错误率下降了 30%,这真是太棒了。我们多年来每次只能取得 1% 的下降,然后在 3 个月内,我们看到了如此巨大的进步,而且我们知道这仅仅是个开始。在学术界,更大更智能的事情正在发生。这些预训练模型让我们能够做到以前无法想象的事情。这非常令人兴奋!

我们还看到许多来自自然语言处理领域的技术正在进入其他领域,如语音和视觉,并为它们提供动力。

另一件让我非常兴奋的事情是生成模型!我们最近与一家名为 Bria.ai 的公司合作,他们使用这些神奇的 GAN 来创建图像。你可以拿一张库存照片,通过说“摘掉眼镜”、“戴上眼镜”或“添加头发”来把它变成一张不同的照片,而且效果非常完美。我们的想法是,我们可以用它来生成数据。我们可以拍摄会议中人们不笑的照片,然后让他们笑起来,以便为微笑检测构建一个数据集。这将是变革性的。你可以把 1 张图片变成 100 张图片。这也将适用于语音生成,这在服务行业可能是一个强大的应用。

有什么最后的想法吗?

–将模型投入生产具有挑战性。相信数据科学团队需要嵌入工程师。工程师应该成为人工智能团队的一部分。这将是未来一个重要的结构性转变。

Martin Ostrovsky

背景: Martin 对人工智能、机器学习和自然语言处理充满热情,负责指导 Repustate 所有产品的战略和成功,领导负责开发和改进这些产品的跨职能团队。他为 Repustate 的全球文本分析 API、情感分析、深度搜索和命名实体识别解决方案设定战略、路线图和功能定义。他拥有约克大学的计算机科学学士学位,并在舒立克商学院获得了工商管理硕士学位。

趣闻: 我使用的第一个机器学习应用是为芭比娃娃玩具。我在舒立克商学院的教授提到,由于玩具因含铅量过高而被召回,芭比需要监控其品牌声誉。雇人手动审查每一条社交帖子和在线文章对我来说似乎效率低下且效果不佳。所以我提议创建一个机器学习算法,来监控人们在所有社交媒体和在线渠道上对他们的看法。这个算法运行得天衣无缝。这就是我决定将我的公司命名为 Repustate 的原因——即你的“声誉”(repu)的“状态”(state)。 🤖

Repustate: 一家为企业公司提供文本分析服务的领先提供商。

1. 最喜欢的机器学习商业应用是什么?

我最喜欢的机器学习应用是网络安全。

对于任何公司(政府或非政府)而言,网络安全在数据方面仍然是最关键的部分。机器学习有助于识别网络威胁,打击网络犯罪,包括网络欺凌,并允许更快地响应安全漏洞。机器学习算法根据用户数据快速分析最可能的漏洞以及潜在的恶意软件和间谍软件应用程序。它们可以发现端点入口模式的扭曲,并将其识别为潜在的数据泄露。

2. 您最大的机器学习挑战是什么?

最大的机器学习挑战是阿拉伯语的音频到文本转录。有相当多的系统可以解码阿拉伯语,但它们缺乏准确性。阿拉伯语是 26 个国家的官方语言,有 2.47 亿母语使用者和 2900 万非母语使用者。它是一门复杂的语言,词汇丰富,方言众多。

如果你想从阿拉伯语文本中获得准确的洞见,情感挖掘工具需要直接读取阿拉伯语数据,因为否则细微差别会在翻译中丢失。将文本翻译成英语或任何其他语言都可能完全改变阿拉伯语单词的含义,甚至包括词根。这就是为什么算法需要在阿拉伯语数据集上进行训练,并使用专门的阿拉伯语词性标注器。由于这些挑战,迄今为止,大多数公司都未能提供准确的阿拉伯语音频到文本的翻译。

3. 在尝试集成机器学习时,您看到人们常犯的错误是什么?

公司在尝试集成机器学习时最常犯的错误是训练数据集中的数据不足。大多数机器学习模型无法区分好数据和不足的数据。因此,在大多数情况下,训练数据集被认为是相关的,并被用作确定结果的先例。这个挑战不仅限于中小型企业;大型企业也面临同样的问题。

无论机器学习过程如何,公司都需要通过在机器学习的早期阶段引入人为因素,来确保训练数据集对于其期望的结果是可靠和详尽的。

然而,通过对准确、全面和持续的训练数据进行彻底审查,公司可以为成功的机器学习项目奠定所需的基础。

4. 您认为未来 5-10 年,机器学习将在哪些领域产生最大影响?

在未来 5-10 年,机器学习将在改变医疗保健行业方面产生最大影响。

网络化医院和互联医疗

通过预测性护理,指挥中心将能够分析临床和位置数据,实时监控整个医疗网络中的供需情况。借助机器学习,医疗专业人员将能够更快、更有效地发现高风险患者,从而消除系统中的瓶颈。你可以更快地检查传染病的传播,采取更好的措施来管理流行病,更准确地识别高风险患者,尤其是遗传性疾病患者等。

更好的员工和患者体验

预测性医疗网络有望减少等待时间,改善员工工作流程,并承担日益增长的行政负担。通过从每位患者、每次诊断和每次手术中学习,机器学习有望创造出能适应医院员工和患者的体验。这可以改善健康结果,减少临床医生短缺和职业倦怠,同时使系统在财务上可持续。


🤗 感谢您参与本期机器学习总监洞见。敬请期待更多来自金融、医疗保健和电子商务领域机器学习总监的见解。

非常感谢 Omar Rahman、肖可 (Danica)、Raphael Cohen 和 Martin Ostrovsky 在本文中提供的精彩见解和参与。我们期待见证你们每位的持续成功,并将在你们前进的每一步中为你们加油。 🎉

如果您或您的团队有兴趣与 Hugging Face 专家一起加速您的机器学习路线图,请访问 hf.co/support 了解更多信息。

社区

已删除
此评论已被隐藏

注册登录 以发表评论