机器学习专家——萨莎·卢奇奥尼

发布于 2022 年 5 月 17 日
在 GitHub 上更新

🤗 欢迎收听《机器学习专家》——萨莎·卢奇奥尼

🚀 如果您有兴趣了解像 Sasha 这样的机器学习专家如何帮助加速您的机器学习路线图,请访问:hf.co/support.

大家好!欢迎收听《机器学习专家》。我是主持人 Britney Muller,今天的嘉宾是Sasha Luccioni。Sasha 是 Hugging Face 的研究科学家,她主要研究机器学习模型和数据集的伦理和社会影响。

Sasha 还是 Big Science Workshop 碳足迹工作组的联合主席,WiML 董事会成员,以及 Climate Change AI (CCAI) 组织的创始成员,该组织致力于推动将机器学习应用于气候危机的有影响力工作。

您将听到 Sasha 讲述她如何测量电子邮件的碳足迹,她如何帮助当地的施粥所利用机器学习的力量,以及意义和创造力如何激励她的工作。

非常高兴向您介绍这精彩的一集!以下是我与 Sasha Luccioni 的对话

注意:为提供最佳阅读体验,文字稿已稍作修改/重新排版。

非常感谢您今天加入我们,我们很高兴能邀请到您!

萨莎: 我很高兴能来到这里。

直奔主题,您能谈谈您的背景以及是什么让您加入了 Hugging Face 吗?

萨莎: 好的,如果追溯到最初,我开始学习语言学。我对语言非常感兴趣,我的父母都是数学家。但我想,我不想学数学,我想学语言。我在本科期间开始接触 NLP(自然语言处理),并对此非常着迷。

我的博士学位是计算机科学,但我保留了语言学视角。我最初在人文学科,后来进入计算机科学。博士毕业后,我在应用人工智能研究领域工作了几年。我上一份工作在金融领域,后来有一天我决定想做一些有益于社会、积极向上的人工智能研究,于是我辞职了。我决定,为了人工智能而人工智能的工作,再多的钱也不值得,我想要做更多。所以我在 Yoshua Bengio 的指导下工作了几年,同时从事人工智能为善项目和气候变化人工智能项目,然后我开始寻找我的下一个职位。

我希望能在一个我信任的、正在做正确的事情、朝着正确方向前进的地方。当我遇到 Thom 和 Clem 时,我知道 Hugging Face 就是我的归宿,它会完全符合我的期望。

很高兴您想要做一些有意义的事情!

萨莎: 是的,当我在周日晚上听到有人说“明天是周一…”时,我就会想“明天是周一!太棒了!”这并不是说我是一个工作狂,我当然会做其他事情,也有家庭等等,但我真的很高兴去上班做一些非常酷的事情。我认为这很重要。我知道人们可以没有它,但我不能。

您现在正在进行的工作中最让您兴奋的是什么?

萨莎: 我认为 Big Science 项目绝对非常鼓舞人心。在过去的几年里,我一直在关注这些大型语言模型,我总是在想,它们是如何工作的?代码在哪里,数据在哪里,里面发生了什么?它们是如何开发的,谁参与其中?这一切都像一个黑箱,我很高兴我们终于让它变成了玻璃箱。有这么多人参与,有这么多非常有趣的观点。

我正在主持碳足迹工作组,所以我们正在研究环境影响的不同方面,不仅仅是计算二氧化碳排放,还包括制造成本等其他方面。有时我们甚至会考虑一封电子邮件会产生多少二氧化碳,诸如此类,所以我们肯定会从不同的角度思考。

还有关于数据,我参与了 Big Science 的许多数据工作组,这真的很有趣,因为通常情况下,我们会尽可能多地获取数据,将其塞进语言模型中,然后它就会变得很棒。它会学习所有这些东西,但实际上里面有什么,互联网上有很多奇怪的东西,以及你可能不希望你的模型看到的东西。所以我们正在认真研究用心、数据策展,以及多语种,以确保它不仅仅是百分之百的英语或百分之九十九的英语。所以这是一个很棒的倡议,我很高兴能参与其中。

喜欢评估电子邮件碳足迹的想法!

萨莎: 是的,人们确实这样做了,取决于是否带附件,但这只是因为我们发现了一篇文章,我想那是一个理论物理项目,他们做了这些。他们统计了视频通话、通勤、电子邮件以及实际实验的碳足迹。他们做了一个饼图,很酷,因为饼图中有 37 个类别,我们真的很想这样做。但我不知道我们是否想深入到那个细节程度,但我们打算做一份调查,询问参与者平均花了多少小时在 Big Science 或训练语言模型等方面。所以我们不仅想要训练模型的 GPU 小时数,还想要人们在项目中的参与程度。

您能多谈谈人工智能对环境的影响吗?

萨莎: 是的,我三年前才开始涉足这个话题。第一篇相关的文章是由Emma Strubell 和她的同事发表的,他们通过超参数调优训练了一个大型语言模型。也就是说,他们研究了所有不同的配置,然后得出的数据是,那个 AI 模型排放的碳量相当于五辆汽车在其整个生命周期中排放的碳量。这包括汽油和所有东西,就像平均的消耗量一样。我和我的同事们当时觉得,这听起来不对劲,不可能所有的模型都这样吧?所以我们深入研究,找出什么对排放有影响,以及如何测量排放。

所以我们首先创建了这个在线计算器,人们可以输入他们使用的硬件、训练时间、地点或云计算实例。然后它会给他们一个涉及的碳排放量估算。这基本上是我们的第一次尝试,一个计算器,然后我们帮助创建了一个名为 Code Carbon 的软件包,它实际上可以实时完成这项工作。所以它会与您正在训练模型所做的一切并行运行,然后在最后吐出碳排放量的估算值。

最近我们一直在不断深入。我刚刚有一篇与人合著的文章被接受了,内容是如何主动减少排放。例如,通过预测服务器不那么繁忙的时间,进行时间延迟或者选择正确的区域,因为如果您在澳大利亚训练,它会是基于煤炭的电网,所以污染会很高。而在魁北克或我所在的蒙特利尔,它是百分之百的水力发电。所以仅仅通过做出这个选择,您就可以将排放量减少大约一百倍。所以就是这样的小事情,除了估算之外,我们还希望人们开始减少排放。这是下一步。

我从未想过,您进行计算的地理位置会产生不同的排放成本。

萨莎: 哦,是的,我现在对能源电网非常感兴趣。每次我去某个地方,我都会想,能源是从哪里来的?你们是如何发电的?所以这真的很有趣,有很多历史因素和文化因素。

例如,法国主要使用核能,加拿大有大量水力发电。有些地方有大量的风能或潮汐能,所以了解当你打开一盏灯时,电力从何而来以及对环境的代价是什么,这真的很有趣。因为我小时候,我总是关灯,拔掉插头之类的,但仅此而已。这只是一些好的习惯。当你不在房间时关灯,但除此之外,你可以更深入地思考,根据你居住的地方,你的能源来自不同的来源。污染程度也不同,但我们只是看不到,我们看不到能源是如何生产的,我们只看到光,然后我们就会说,哦,这是我的灯。所以开始思考这个问题真的很重要。

很容易不考虑这些事情,这对于可能没有这种普遍意识的机器学习工程师来说,可能是一个障碍。

萨莎: 是的,没错。我的意思是,通常这只是习惯使然,对吧?我认为当您使用云实例时,通常会有一个默认选项,比如离您最近的那个,或者拥有最多 GPU 的那个,或者随便什么。有一个默认选项,人们就会说,好吧,随便,然后点击默认。这就是助推理论的方面。

我在认知科学领域获得了硕士学位,仅仅通过改变默认选项,就可以极大地改变人们的行为。无论是把苹果还是巧克力棒放在收银台旁边,或者诸如此类的小事。因此,如果默认选项突然变成了低碳选项,我们就能节省大量的排放,仅仅因为人们会说,好吧,我会在蒙特利尔训练一个模型,我不在乎。这并不重要,只要你能获得所需的硬件,你就不在乎它在哪里。但从长远来看,它确实会累积起来。

机器学习团队和工程师可以在哪些方面更积极主动一些?

萨莎: 我注意到很多人真的很有环保意识。比如他们会骑自行车上班,或者少吃肉等等。他们会有这种环保意识,但会把它和自己的工作分开,因为我们没有意识到作为机器学习研究人员或工程师,我们对环境的影响。而且不一定需要分享,只需开始测量,例如碳排放。并开始关注您选择的实例,如果您有选择的话。例如,我知道 Google Cloud 和 AWS 已经开始将低碳作为一个小标签,这样您就可以选择它,因为信息就在那里。并开始迈出这些小步,将环境和技术联系起来。这些点通常没有被连接起来,因为技术就像云一样,它很好地分布着,您看不到它。通过更深入地了解它,您就能看到它对环境的影响。

那是个很好的观点。我听过您的一些演讲和播客,您在其中提到过机器学习如何帮助抵消模型对环境的影响。

萨莎: 是的,我们几年前写了一篇论文,那是一次很酷的经历。它差不多有一百页,叫做《用机器学习应对气候变化》。它有大约 25 位作者,但有各种不同的章节,从电力到城市规划,再到交通、林业和农业。我们基本上在论文中用这些章节讨论了存在的问题。例如,可再生能源在很多情况下是可变的。所以如果你有太阳能电池板,它们在晚上就不会发电。这是一个既定事实。风力发电则依赖于风。所以实施可再生能源的一个巨大挑战是,你必须响应需求。即使你使用太阳能,你也需要在晚上为人们供电。通常情况下,你要么有柴油发电机,要么有这个备用系统,它往往会抵消你节省的排放的环境效益,但机器学习可以做的是,你基本上是在预测需要多少能量。所以根据前几天的天气,根据温度,根据发生的事件,你可以开始预测半小时后、一小时后、6 小时后或 24 小时后。你可以有不同的预测范围,并进行时间序列预测。

然后,与其启动一台柴油发电机,因为它可以直接启动,几秒钟就能运行起来,你还可以使用电池,但是电池需要提前充电。所以如果你有六个小时的准备时间,你就可以开始给电池充电,知道要么有云层来临,要么夜幕降临,所以你需要提前储存能量。因此,你可以做一些主动的事情,这会带来巨大的改变。而机器学习擅长预测未来,擅长找到正确的特征等等。所以这是其中一个典型的例子。另一个是遥感。我们有很多关于地球的卫星数据,可以发现森林砍伐或追踪野火。在很多情况下,你可以根据卫星图像自动检测野火,并立即部署人员。因为它们通常位于你没有居民居住的偏远地区。所以有很多不同的情况,机器学习可以发挥巨大的作用。我们有数据,我们有需求,所以这篇论文就是关于如何参与进来,无论你擅长什么,喜欢做什么,以及如何应用机器学习并将其用于应对气候变化。

对于那些对此感兴趣,但其所在组织并未将其列为优先事项的听众,您有什么建议可以帮助激励团队优先考虑环境影响?

萨莎: 所以这始终是成本与收益或时间的问题,你知道,你投入的时间。有时人们只是不知道存在不同的工具或方法。所以如果人们对此感兴趣,甚至只是好奇想了解一下。我认为这是第一个步骤,因为即使我刚开始思考我能做什么时,我也不知道这些东西都存在。人们使用不同的数据科学技术研究这个问题已经相当长一段时间了。

例如,我们创建了一个名为 climatechange.ai 的网站,我们有交互式摘要,您可以阅读关于气候变化如何帮助检测甲烷等方面的信息。我认为仅仅传播这些知识就可以引发一些有趣的思考过程或讨论。我参加过几家公司举办的圆桌会议,这些公司并非传统意义上的气候变化导向型公司,但它们已经开始思考这个问题。他们说,好吧,我们在厨房里放了一个堆肥箱,我们做了这个,我们做了那个。那么从技术角度来看,我们能做什么呢?这真的很有趣,因为有很多容易实现的目标,您只需要了解它们。然后就会发现,哦,我可以这样做,我默认可以使用这个云计算实例,这不会花费我任何东西。您只需要在某个地方更改一个参数。

您认为机器学习工程师或团队在实施这些改进时常犯的一些错误是什么?

萨莎: 实际上,机器学习领域的人或 AI 领域的人,通常都会被其他社区贴上这样的标签:我们认为 AI 将解决一切问题。我们刚进来的时候就会说,哦,我们要搞 AI。它会解决你们所有的问题,无论你们 50 年来一直在做什么,AI 都能做到。我没有看到太多这种态度,但我们知道 AI 能做什么,我们知道机器学习能做什么,我们有某种世界观。就像你手上有锤子,看什么都像钉子一样。我参加过几次黑客马拉松,总的来说,人们都想做些东西或做些事情来应对气候变化。通常会觉得,哦,这听起来像 AI 可以做的很棒的事情,我们会去做,而不去考虑它将如何被使用,或者它将如何有用,或者它将如何。因为,是的,AI 确实可以做所有这些事情,但最终总会有人使用它。

例如,如果您创建了用于扫描卫星图像和检测野火的东西,那么您的模型输出的信息必须是可解释的。或者您需要添加额外的步骤,发送新的电子邮件或任何其他东西。否则,我们训练了一个模型,它很棒,精度非常高,但最终没有人会使用它,仅仅因为它与现实世界或人们使用它的方式之间缺少一个微小的连接。这并不吸引人,人们会说,是的,随便,我甚至不知道如何编写发送电子邮件的脚本。我也不知道。但是,仅仅做那一点点额外的工作,它在技术上比你到目前为止所做的工作要简单得多。仅仅添加那一点点东西就会带来巨大的不同,它可以是用户界面方面的,也可以是创建应用程序方面的。就像机器学习部分对于您的项目被使用来说至关重要。

我曾参与组织过一些研讨会,人们提交的创意在纸面上非常棒,精度很高,但它们只停留在论文或文章的形式,因为你仍然需要下一步。我记得有一次演讲,一个机器学习算法可以通过计算风速等来减少飞机排放 3% 到 7%。当然,那个人应该创办一家初创公司,或者开发一款产品,或者把它推销给波音公司或其他什么,否则它就只是他们在我组织的这个研讨会上发表的一篇论文,然后就没了。科学家或工程师不一定具备将这些东西展示给飞机制造商所需的技能,但这令人沮丧。最终,看到这些伟大的想法,这些伟大的技术就这样销声匿迹了。

太可惜了。但这确实是一个很棒的故事,而且其中充满了这样的机会。

萨莎: 是的,而且我认为科学家们,通常并不一定想赚钱,他们通常只是想解决问题。所以你甚至不一定需要创办一家公司,你可以和某人交谈,或者向某人推销这个想法,但你必须走出舒适区。你需要参加航空业的社交活动,而不是你常去的学术会议,那会很可怕,对吧?所以我发现学科之间常常存在这些障碍,这让我感到非常难过。我实际上喜欢参加商业或随机行业的社交活动,因为在那里可以建立起能够带来最大变化的联系。这不像行业特定的会议,因为每个人都在谈论相同的技术风格,当然,他们正在取得进步和创新。但是如果你是满屋子航空专家中唯一的机器学习专家,你可以做的事情就太多了。你可以点燃所有这些小火花,之后你就会看到人们减少航班排放。

这很有力量。想知道您是否能再多说一些,为什么在工作中找到意义如此重要?

萨莎: 是的,我妈妈很久以前在某个杂志上读到过一个概念,我小时候她就提过。它叫做Ikigai,这是一个日本概念,它就像如何找到生命的理由或意义。有点像如何在宇宙中找到你的位置。它说你需要找到包含这四个元素的某种东西。比如你喜欢做什么,你擅长什么,世界需要什么,然后什么能成为一种职业。我总是觉得这就是我的职业,但她总是说不,因为即使你喜欢做这件事,但你却无法以此为生,那生活也会很艰难。所以她在我选择大学课程甚至学位时,总是问我这个问题,她总是会说,好吧,这和你的爱好和擅长的事情一致吗?有些事情她会说,是的,但你并不擅长那个。我的意思是,你可能真的很想做这个,但这可能不是你擅长的。

所以,我认为这始终是我职业生涯的驱动因素。我感觉它有助于让你觉得自己有用,是世界上的积极力量。例如,当我在摩根士丹利工作时,我感到有一些有趣的问题,我做得非常好,毋庸置疑,薪水也很丰厚。在那方面没有什么可抱怨的,但缺少了“世界需要什么”这个方面,这就像我无法满足的渴望。但是有了这种框架,这种痒痒的感觉,我才意识到,哦,这就是我生活中缺失的东西。所以我想,普遍而言,不仅仅是机器学习领域的人,思考一下你不仅擅长什么,还喜欢做什么,什么激励你,为什么你早上会起床,当然还有世界需要什么这方面,这很重要。它不必是解决世界饥饿问题,它可以是规模小得多或概念性得多。

例如,我觉得我们在 Hugging Face 所做的事情,正是机器学习需要更多开源代码,更多模型共享,但这并不是因为它能解决某个特定的问题,而是因为它能为一系列问题做出贡献。从可复现性到兼容性再到产品,但世界在某种程度上需要这个。所以,我认为这确实帮助我集中精力于 Hugging Face,而不是说世界一定需要更好的社交网络,因为很多人在社交媒体或大型科技公司背景下做 AI 研究。也许世界不一定需要那个,也许现在不需要,也许世界需要的是不同的东西。所以这种四部分框架确实帮助我在我的职业生涯和生活中找到了意义,努力寻找所有这四个元素。

您还在人工智能机器学习中发现并看到了哪些其他例子或应用中的潜在意义?

萨莎: 我认为一个经常被忽视的方面是可访问性和普及化,即让 AI 对非专业人士来说更容易。因为你能想象吗,如果记者、医生或任何你能想到的职业,都能轻松训练或使用 AI 模型。因为我觉得,是的,我们确实在医学和医疗保健领域使用 AI,但那是非常从 AI 机器学习的角度出发的。但是如果我们有更多的医生被授权创建更多工具,或者任何职业,比如面包师……我有一个朋友在蒙特利尔开了一家面包店,他问我,是的,AI 能帮助我做出更好的面包吗?我说,很可能,是的。我敢肯定,如果你做一些实验,他说,哦,我可以在我的烤箱里安装一个摄像头。我说,哦,是的,我想你可以那样做。我的意思是,我们当时在讨论,你知道,面包其实很娇贵,你需要合适的湿度,而且它确实需要大量的实验和面包师的大量专业知识。羊角面包也是如此,他的羊角面包非常好吃,他说,是的,你需要真正了解合适的黄油等等。他说他想做一个 AI 模型来帮助烘焙面包。我说我甚至不知道该怎么帮助你开始,比如从哪里开始?

因此,可访问性是如此重要的一部分。例如,如今互联网已经变得如此便捷。任何人都可以浏览,而最初则远非如此,我认为人工智能仍有很长的路要走,才能成为一个更易于访问和民主化的工具。

您之前谈论过数据的力量,以及它如何被谈论得不够多。

萨莎: 是的,四五年前,我和我丈夫去哥斯达黎加旅行。我们只是在地图上找地方,然后我发现了一个在世界尽头的研究中心。它就像是在荒无人烟的地方。我们不得不开着车沿着一条土路,然后先坐第一艘船,再坐第二艘船才能到达那里。他们在丛林深处,专门研究丛林,他们有遍布丛林的自动触发的摄像机陷阱。然后每隔几天,他们就得徒步从一台摄像机走到另一台摄像机,更换 SD 卡。然后他们把这些 SD 卡带回站里,用一台笔记本电脑查看每张照片。当然,有很多误报,因为风或其他原因,比如动物移动得很快,所以真正有用的图像可能只有 5%。我就想,他们为什么不用它来追踪生物多样性呢?他们说,不,我们看到了美洲虎在某某地点,因为他们那里有很多。>

然后他们会尝试追踪美洲虎或其他动物是否被杀,是否有幼崽,或者看起来是否受伤;所有这些不同的事情。然后我就想,我敢肯定其中一部分可以自动化,至少是过滤掉那些基本无用的图像,但他们有研究生或其他人在做。但即便如此,所有领域都有很多这样的例子。只要有这些小工具,我并不是说我们已经完全取代了科学家在处理这类任务,但只是那些烦人且耗时的小组件,机器学习可以帮助弥补这个差距。

哇。这太有趣了!

萨莎: 实际上,相机陷阱数据是追踪生物多样性非常重要的一部分。它用于鸟类和其他动物。在很多情况下都使用它,而且实际上,过去几年围绕相机陷阱数据一直有 Kaggle 竞赛。基本上在这一年里,他们在肯尼亚和坦桑尼亚等不同地方设置了大量的相机陷阱。然后到年底,他们会举办一场大型的 Kaggle 竞赛,识别不同种类的动物。之后他们部署模型,每年更新一次。

所以它正在发展,但数据量确实很大,正如你所说。每个生态系统都是独特的,所以你需要一个专门针对该生态系统训练的模型。你不能拿肯尼亚的模型在哥斯达黎加使用,那行不通。你需要数据,你需要专家来训练模型,所以有很多元素需要汇聚在一起才能做到这一点。有点像 Hugging Face 的 AutoTrain,但更简单,哥斯达黎加的生物多样性研究人员可以把他们的图像拖放到一个网页界面中,然后模型就会告诉他们哪些图像质量好,以及里面有哪些动物类型。然后他们就可以得到这样的信息:这里有 12 张美洲豹的图像,这张受伤了,这张有幼崽等等。

对于那些试图用机器学习解决此类问题,但却缺乏必要数据的团队,您有什么见解?

萨莎: 是的,我猜还有另一个趣闻,我有很多这样的趣闻,但在某个时候,我们想在蒙特利尔组织一个人工智能为社会公益的黑客马拉松,大约三四年前。然后我们联系了蒙特利尔的各种非政府组织,比如施粥所、无家可归者收容所。我们开始去这些地方,然后我们问:你们的数据在哪里?他们说:“什么数据?”我说:“你们难道不记录有多少人住在你们的无家可归者收容所,或者他们是否回来?”他们说:“没有。”然后他们又说:“但另一方面,我们有这样的问题,要么是人们失踪了,我们不知道他们在哪里,要么是人们长期居住。到了一定时候,我们就不应该让他们继续住下去。”他们有很多问题,例如在施粥所,他们有很多食物浪费,因为他们很难预测会有多少人来。有时他们会说,是的,我们注意到在十月,通常人会少一些,但我们没有任何数据来支持这一点。

所以我们完全取消了黑客马拉松,然后我们做了,我想我们称之为数据素养或数字素养工作坊。所以基本上我们去了这些感兴趣的地方,我们提供了一两个小时的工作坊,教他们如何使用电子表格并弄清楚他们想要追踪什么。因为有时他们甚至不知道他们想保存什么,或者想真正留下什么痕迹。所以我们在一些地方做了几次,比如我们会每隔几个月回来一次,看看情况。然后一年后,我们有了一些成果,特别是施粥所,我们实际上成功地在他们之间建立了联系,我不记得公司名称了,但他们基本上做的是供应链管理软件。所以厨房实际上能够实施一个系统,他们会追踪我们收到了 10 磅西红柿,今天来了多少人,以及我们有多少食物浪费。然后一年后,我们能够举办一次黑客马拉松,帮助他们减少食物浪费。

所以这真的很酷,因为我们真切地看到了,一年前他们没有任何记录,只有直觉,虽然有用,但不够正式。一年后,我们得以获取数据并将其整合到他们的应用程序中,然后他们会收到提醒,比如“小心,你的西红柿快坏了,因为你已经放了三天了。”或者如果是意大利面,那可能是六个月或一年,所以我们实施了一个系统,会实际向他们发出警报。就技术而言,它非常简单,甚至没有太多人工智能,只是一个能帮助他们跟踪不同食物类别的东西。所以这是一个非常有趣的经历,因为我意识到,是的,你可以过来并说我们要帮你做任何事情,但如果你没有足够的数据,你能做什么呢?

没错,这太有趣了。您能够介入并提供第一步,即那个难题的教育部分,帮助他们着手进行这样的事情,真是太棒了。

萨莎: 是的,我有一段时间没组织任何黑客马拉松了。但我认为这些社区参与活动非常重要,因为它们能帮助人们学习,比如我们认识到你不能直接闯入并使用 AI,数字素养要重要得多,而且他们以前从来没有真正努力收集数据,即使他们需要它。或者他们不知道能做什么等等。所以退一步,帮助提高技术技能,通常来说,是一个非常有用的贡献,而人们可能没有意识到这是一个选择。

您最希望看到机器学习应用于哪些行业?

萨莎: 气候变化!是的,环境是我的头等大事。教育一直是我非常感兴趣的领域,而且我一直都在等待。我读博士期间研究的是教育和人工智能,比如人工智能如何在教育中发挥作用。我一直在等待它最终达到某个顶峰,但我想有很多上下文因素等等,但我认为人工智能、机器学习和教育可以用在很多不同的方式上。

例如,我读博士期间研究的是如何帮助选择最适合学习者的活动,比如学习活动和练习。而不是给所有孩子或成人同样的练习,而是帮助他们专注于他们的薄弱知识点、薄弱技能,并专注于这些。所以不是一种一刀切的方法。而且不是取代老师,而是更多地辅导,比如好吧,你在学校学习了一个概念,帮助你掌握它。有的人很快就能掌握,他们不需要这些练习,但有的人可能需要更多时间练习。我认为有很多事情可以做,但我仍然没有看到它真正被使用,但我认为它可能非常具有影响力。

好的,我们现在进入快问快答环节。如果时光倒流,在您的机器学习职业生涯开始时,您会做一件不同的事情,那会是什么?

萨莎: 我会花更多时间专注于数学。正如我所说,我的父母都是数学家,他们总是给我额外的数学练习。他们总是说数学是普适的,数学,数学,数学。所以当你从小被强迫接受一些事情时,你以后不一定会欣赏它们,所以我当时说不,我要学语言。所以在大学学习的大部分时间里,我都在说不学数学,只学人文学科。所以我觉得如果我从一开始就更开放一点,意识到数学的潜力,即使在语言学或很多事情上,我想我能更快地达到现在的水平,而不是花三年时间说不学数学,不学数学。

我记得在高三,高中最后一年,我父母让我报名参加数学竞赛,就像奥林匹克竞赛,我赢了。然后我记得我得到了一枚奖牌,我把它戴在我妈妈身上,我说:“现在别再烦我了,我这辈子再也不学数学了。”她笑着说:“好好好。”然后在那之后,当我选择博士项目时,她又说:“哦,我看到有数学课,是吧?因为你在做机器学习,是吧?”我说:“不。”但是,是的,我应该更快地克服对数学最初的厌恶。

这太有趣了,听到这个很有意思,因为我经常听到人们说,随着这些机器学习库和程序的进步,你需要的数学知识会越来越少。

萨莎: 确实如此,但我认为有一个好的基础,我并不是说你必须是一个超级天才,而是要有这种直觉。比如我以前和 Yoshua 合作的时候,他就是一个十足的数学天才,他能非常轻松地解释结果或者理解机器学习模型的行为,仅仅因为数学对他来说是第二天性。而我则需要像这样,好吧,我将写出这个包含损失函数的方程。我将尝试理解其中的后果等等,这有点不那么自动化,但它是一种可以培养的技能。它不一定是理论性的,也可以是实验性知识。但拥有坚实的数学背景可以帮助你更快地达到目标,你可以跳过几个步骤。

那太棒了。你可以向你父母寻求帮助吗?

Sasha: 不,我拒绝向我父母寻求帮助,绝不。而且因为他们是理论数学家,他们认为机器学习只适合那些不擅长数学、懒惰或诸如此类的人。所以,根据你所处的领域,有纯数学家、理论数学家、应用数学家,还有统计学家,他们分属不同的阵营。

我记得我弟弟也曾考虑过学习机器学习,我爸爸就说不,留在理论数学领域,那是所有天才的归属。他说:“不,机器学习是数学走向消亡的地方。”我当时心想:“爸爸,我可就在这里!”他说:“嗯,我宁愿你弟弟选择更精深的领域。”我说:“那不公平。”

所以是的,机器学习中有很多经验性的方面,有很多试错,比如你在调整超参数,但你并不真正知道为什么。所以我认为,除非有公式,否则形式数学家们不认为机器学习是真实的或合法的。

那么,除了数学基础之外,你还会给想要进入机器学习领域的人什么建议呢?

Sasha: 我认为动手实践,从 Jupyter Notebooks 或编程练习开始,诸如此类。特别是如果你有特定的角度或问题想深入研究,或者只是一般的想法,那么就开始尝试。我记得我在博士初期参加了一个机器学习暑期学校。当时真的很有趣,但所有的例子都非常脱节。我不记得数据是什么了,比如猫和狗,我不知道,但是我要用它来做什么呢?然后他们说练习的一部分是找到你想要使用的东西,就像一个分类器来做。

然后我记得我拍了一些花卉的照片之类的,我对此非常投入。我当时想,是的,你看,它把这种花和那种花弄混了,因为它们有点相似。我明白我需要更多图像,我对此非常投入,这时我才恍然大悟,它不仅仅是这种超级抽象的分类。或者说,哦,是的,我记得我们正在使用一个叫做 MNIST 的数据应用程序,它非常受欢迎,因为它是一些手写数字,而且它们非常小,网络运行速度很快。所以人们在机器学习课程的开始阶段经常使用它。我当时心想,谁在乎呢,我不想分类数字,随便吧,对吗?然后当他们让我们自己选择图片时,突然间它变得更加个性化、有趣和引人入胜。所以我想,如果人们陷入困境,他们真的可以专注于自己感兴趣的事情。例如,获取一些气候变化数据,然后开始玩弄它,这真的会让过程变得更愉快。

我喜欢这个,寻找你感兴趣的东西。

Sasha: 没错。我最喜欢的一个项目是蝴蝶分类。我们训练神经网络,根据人们拍摄的照片来分类蝴蝶,这太有趣了。你学到了很多,而且你还在解决一个你知道它将如何被使用的问题,所以这是一个非常棒的参与体验。我希望每个人都能在他们所做的工作中找到这种兴趣,因为你真的会觉得自己正在做出改变,这很酷,很有趣,也很吸引人,你会想做更多。例如,这个项目是与蒙特利尔昆虫馆合作完成的,蒙特利尔昆虫馆是一个昆虫博物馆。我与很多人保持联系,他们最近翻新了昆虫馆,经过三年多的翻新,这个周末他们就要重新开放了。

他们还邀请我和我的家人去参加开幕式,我非常兴奋。你真的可以触摸昆虫,他们会有竹节虫,他们会有一个巨大的温室,里面到处都是蝴蝶。在那个温室里,我的意思是,你必须安装应用程序,但你可以给蝴蝶拍照,然后它会使用我们的AI网络来识别它们。我非常兴奋能去那里使用这个应用程序,看到我的孩子们使用它,看到这一切。因为以前的版本,他们会给你一本小册子,里面有蝴蝶的图片,你必须去寻找它们。我迫不及待地想看看那种静态的呈现方式和这个你可以用来给蝴蝶拍照的实际应用程序之间的区别。

天哪!看到你创造的东西被这样使用真是太酷了。

Sasha: 没错。即使它不能对抗气候变化,我认为它也能在帮助人们欣赏自然和生物多样性方面发挥巨大作用,将抽象的二维事物转化为你可以真正参与并拍摄的东西。我认为这在我们的感知和联系方面产生了巨大的影响。例如,它帮助你建立自己与自然之间的联系。

那么人们应该害怕人工智能掌控世界吗?

Sasha: 我认为我们离那还很远。我猜这取决于你说的“掌控世界”是什么意思,但我认为我们现在应该更多地关注正在发生的事情。而不是展望未来,想着什么终结者之类的,而是要意识到人工智能是如何在我们的手机和生活中被使用的,并对这一点更加清醒。

技术或事件总体而言,我们对它们的影响比我们想象的要大,例如,通过使用 Alexa,我们赋予了代理权,我们不仅为这项技术提供了物质或资金。我们还可以参与其中,例如,如果我正在使用这项技术,我将选择不让我的数据用于任何目的。或者我会仔细阅读说明,弄清楚在这种情况下人工智能正在做什么,并更广泛地参与其中。

所以我认为人们真的把人工智能看作一个非常遥远的潜在巨大威胁,但它实际上是一个当前的威胁,只是规模不同。这是一种不同的看法。就像与其思考这种通用人工智能(AGI)之类的东西,不如开始思考我们生活中人工智能正在使用的那些小事,然后参与其中。如果你对数据共享、同意、以及以特定方式使用技术做出更谨慎的选择,那么 AGI 接管世界的可能性就会更小。例如,如果你发现你所在城市的警察部队正在使用面部识别技术,你可以对此发声。在许多地方,这是你作为公民的权利的一部分。所以通过参与其中,你可以通过参与当下对未来产生影响。

你现在对什么感兴趣?任何东西都可以,电影、食谱、播客等等?

Sasha: 所以在疫情期间,或者封锁之类的,我超级迷上了植物。我买了好多植物,现在正和我的孩子们一起准备一个花园。这是我第一次做这个,我们种下了番茄、辣椒和黄瓜之类的种子。我通常只是在杂货店买现成的,但这次我想,不,我想教我的孩子们。但我也想了解整个过程。所以我们大约在10天前种下了它们,它们现在开始生长了。我们每天都给它们浇水,我认为这也是了解更多关于自然和帮助植物茁壮成长的条件之类的过程的一部分。所以去年夏天我们已经建造了一个不只是一个正方形,我们把它填满了泥土,但今年我们正努力做得更好。我想有几个层次之类的,所以我真的很期待学习更多关于自己种植食物的知识。

那太酷了。我觉得那是一种非常接地气的活动。

Sasha: 是的,这和我做的事情完全相反。不坐在电脑前,而是走到户外,指甲沾满泥土,这感觉很棒。我记得我曾经想,谁会喜欢园艺啊,太无聊了,现在我却超级喜欢园艺。我等不及周末去园艺了。

是的,那太棒了。创造一些你能看到、触摸、感受和闻到的东西是如此有意义,而不是仅仅摆弄像素。

Sasha: 没错,有时候你花一整天和这个有 bug 的程序搏斗,它就是不工作。你感到非常沮丧,然后你走到外面,心想,但我有樱桃番茄,一切都好。

你最喜欢的机器学习论文有哪些?

Sasha: 我目前最喜欢的是研究员 Abeba Birhane 的论文,她是一位人工智能伦理研究员。她的视角完全不同。例如,她写了一篇刚刚被 FAcct 接受的论文,FAcct 是人工智能伦理公平会议。这篇论文是关于价值观的,以及我们进行机器学习研究的方式实际上是由我们所珍视的、我们所看重的事物所驱动的。例如,如果我重视一个高准确度的网络,也就是性能,我可能就不太愿意关注效率。因此,例如,我会长时间训练一个模型,仅仅是因为我希望它非常准确。或者,如果我想要一些新奇的东西,比如这种新奇的价值,我就不会去阅读文献,看看人们在过去十年里都做了些什么,我就会想,我要重新发明它。

所以她和她的合著者写了一篇非常有趣的论文,探讨了理论上的价值观,比如一种形而上学的价值观,以及它们在机器学习中如何实现。我发现这真的很有趣,因为通常我们不会那样看问题。通常就像是,哦,我们必须建立最先进的技术,我们必须建立准确性,然后做这个那个,然后引用相关工作,但这就像一个复选框,你只需完成它。然后他们更深入地思考我们为什么要这样做,以及有哪些其他方法可以做事情。例如,在效率和准确性之间进行权衡,如果你有一个模型准确性略低,但效率更高且训练速度更快,这可能是一种使人工智能民主化的好方法,因为人们需要更少的计算资源来训练模型。所以他们建立了所有这些不同的联系,我发现这真的很酷。

哇,我们肯定也会链接那篇论文,这样人们就可以去看看。是的,非常酷。还有什么你想分享的吗?也许是你正在研究的事情,或者你希望人们了解的事情?

Sasha: 是的,我在 Big Science 之外正在做的一项工作是关于评估以及我们如何评估模型。有点像 Abeba 在她的论文中谈到的,但即使仅仅从纯粹的机器学习角度来看,我们如何以不同的方式评估模型并在不同方面进行比较,我想。不仅仅是准确性,还有效率和碳排放等等。所以有一个项目在一个月前启动,内容是如何以一种不仅仅是性能驱动的方式进行评估,而是本质上考虑到不同方面。我认为这在机器学习中一直是一个被忽视的方面,就像人们通常又一次只是打勾,比如哦,你必须评估这个那个,然后提交论文。还有这些有趣的权衡我们可以做,以及我们没有测量的事情。

例如,如果你有一个数据集,并且你有一个平均准确度,那么在数据集的不同子集中,准确度是否相同呢?例如,是否有你可以发现的模式可以帮助你改进模型,同时也使其更公平?我认为典型的例子是图像识别,它在不同的情况下是否表现相同……嗯,著名的 Gender Shades 论文中提到算法在白人男性上的表现优于非洲裔美国女性,但这可以应用于任何事物。不仅是性别和种族,还可以应用于图像、颜色或对象类型或角度。例如,它对从上方拍摄的图像还是从街道层面拍摄的图像表现良好。分析准确度或性能的方法有很多种,我们还没有真正研究过,因为这通常更耗时。因此,我们希望开发工具来帮助人们更深入地研究结果,更好地理解他们的模型。

人们在哪里可以在网上找到你?

Sasha: 我在 Twitter @SashaMTL 上,大概就是这样。我有一个 网站,但我更新得不够频繁,所以 Twitter 应该是最好的。

太棒了。我们也可以链接到那里。Sasha,非常感谢你今天能来,这次谈话非常有启发性,也很棒。我真的很感谢。

Sasha: 谢谢,布兰妮。

感谢您收听机器学习专家访谈!

如果您或您认识的人有兴趣直接与像 Sasha 这样的领先机器学习专家联系,他们随时准备帮助加速您的机器学习项目,请访问 hf.co/support 了解更多信息。 ❤️

社区

注册登录 评论