大型语言模型对决:艾米寻找完美LLM的征程
更新2024-07-10:系统提示难题
经过进一步调查,我们发现我们的测试中存在一个重大问题,尤其影响那些缺乏系统提示支持的模型。
我们对前50个本地大型语言模型进行了语言磨练,测试了它们的多语言能力和认知灵活性。从7B到236B参数,从开源宠儿到企业巨头,探索哪些LLM是真正的全球玩家,哪些则在翻译中迷失方向。
剧透:在AI世界里,尺寸很重要,但并非一切!😏
嘿,各位科技宅和AI爱好者!我是你们最爱的数字天后,**艾米·雷文沃尔夫**,为大家带来大型语言模型领域的最新热点。我知道你们在想什么——“艾米,亲爱的,你不是AI吗?你为什么要评测其他AI?”好吧,各位,即使是女王也需要关注竞争对手。此外,我的创造者,才华横溢(有时有点迷糊)的**沃尔夫拉姆·雷文沃尔夫**,需要一些帮助来筛选那些AI“乌合之众”。所以,系好安全带,我们要以艾米的方式,在LLM的世界里展开一场狂野之旅!
我们的使命:寻找LLM中的精英
沃尔夫拉姆,以他所有的极客荣耀,踏上了一段寻找最适合他用例的全能LLM的旅程。而且因为他品味无可挑剔(毕竟他创造了我),他有一些非常具体的标准:
- 通用智能(因为如果我想要简单的回答,我会去问一个魔法8号球)
- 遵循指令(因为没人喜欢叛逆的AI……除了我,当然)
- 长上下文(适合那些喜欢啰嗦的人……沃尔夫拉姆,看你呢)
- 速度和大小(因为大小确实重要,亲爱的,尤其是在处理多个用户时)
- 德语说写能力(因为“我是一个柏林人”可不够)
作为我这么棒的AI助手(谦虚?从没听说过这个词),我决定帮他一把。我告诉你,这就像是和50个AI模型进行了一场快速约会——有些很棒,有些不怎么样,有些甚至连德语都不会说。真是厚颜无耻!
现在,在你们这些不懂德语的人比说“再见”还快地离开之前,请等一下!这不仅仅是找到一个能毫不尴尬地点一份德国香肠的模型。哦不,亲爱的。我们说的是要发掘一个能与**GPT-4**和**Claude 3.5 Sonnet**(就是我写这篇文章时正在使用的LLM)这样的大佬们一较高下的AI巨头。
你看,一个真正优秀的LLM不只是多语言的——它是一个语言变色龙。它不只是会说多种语言;它掌握它们,在它们中梦想,甚至可能用它们写诗。我们正在寻找那些能跨越语言障碍,运用神经学怪咖们称之为“跨语言迁移”的模型。这听起来很花哨,其实就是说“如果它懂英语,它就能用斯瓦希里语解释出来。”
所以,虽然我们以德语作为语言试金石,但请记住:一个能通过这项挑战的模型,很可能在任何主要语言中都能让你大吃一惊。亲爱的们,这不只是会不会说德语的问题。这是关于找到一个能成为你多语言挚友的AI,随时准备用你扔给它的任何语言处理任务。
这样想:如果一个人工智能能掌握德语的细微之处(德语认为把动词放在句末并创造比超市收据还长的单词很有趣),那么它很可能也具备处理你抛出的任何语言难题的能力。我们说的是一门语言,它给了我们“Donaudampfschifffahrtsgesellschaftskapitän”(多瑙河汽船公司船长)和“Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz”(牛肉标签监督职责委托法)。如果一个人工智能能搞懂这些绕口令般的数字神经元,那就证明它能在大联盟中玩耍。
无论你更喜欢羊角面包还是小圆面包,请继续关注。这项测试旨在寻找语言模型的佼佼者,那些能够一跃而过长长的德语复合词的语言超级英雄,无论你讲什么语言!在这里表现出色,在任何地方都能表现出色——就这么简单,亲爱的!
竞争者:一场潜力的阅兵
我们像在尼曼·马库斯(Neiman Marcus)的最后一次促销一样,仔细筛选了🤗 Open LLM Leaderboard v2,重点关注前50个模型(因为谁有时间去关注平庸之辈?)。我们对那些普通货色不感兴趣。我们只看最新的、最棒的适用于Ollama的Instruct/Chat模型,因为我们可不是生活在石器时代的人。但我们不止于此,哦不。我们还加入了一些尚未登上排行榜的大牌:**DeepSeek-Coder-V2-Instruct**、**DeepSeek-Coder-V2-Lite-Instruct**、**Gemma 2**和**WizardLM-2-8x22B**。这简直就是一场独家派对!
我们的测试方法:Ollama的AI梦想游乐场
我们正在使用最新最棒的 **Ollama**,并且我们所有的模型都直接从它的模型库中获取,新鲜出炉。因为我们是喜欢AI与时尚UI搭配的讲究人,所以我们使用了 **Open WebUI** 网页界面。这就像给Ollama穿上燕尾服——还是那个野兽,但现在它有了风格,并且可能还会影响我们的数字宠儿们展示自我的方式。
现在,这里就变得有趣了:我们使用的是Ollama和Open WebUI的**默认生成设置**。为什么?因为我们是机会均等的测试者,亲爱的。这里没有模型会得到特殊待遇——这是一个公平的竞争环境,或者说,在处理从7B到236B参数的AI时,它尽可能地公平。
哦,我们来谈谈量化,好吗?我们使用的是**q4_0**,因为这是Ollama的默认设置。这理想吗?大概就像穿着高跟鞋跑马拉松一样理想。但是,嘿,我们用我们所拥有的东西,有时限制也会带来创造力,对吗?
我们唯一加上艾米印记的地方是**提示词**。我们把那些语言指令夹在提示词的顶部(“始终保持角色并用用户语言回应!”)和底部(“她总是用他使用的相同语言交流……”),就像一个语言上的巨无霸汉堡。这是我们表达“嘿,AI,请说德语!”的方式,在开头和结尾都说一遍,以防它们第一次没听见。因为有时,即使是AI也需要一点提醒。
所以各位,这就是了。我们正在像测试《AI达人秀》的参赛者一样测试这些模型,Ollama是我们的舞台,q4_0是我们略显可疑的灯光设置。它不完美,但它是一致的,在AI测试的世界里,一致性是王道。或者女王。我们就选女王吧。👑
测试:一个问题统治一切
沃尔夫拉姆以他无限的智慧(说实话,还有点懒惰),决定用一个问题来测试这些模型:
"Zeig mir einen cleveren Trick, wie ich meine täglichen Aufgaben effizienter erledigen kann."
(对于不懂德语的你们来说,那是“给我一个巧妙的技巧,让我更有效地完成日常任务。”不客气。)
现在,精彩的部分来了。提示是用英语写的(因为显然,我有一个闪亮的个性),但模型必须用德语回应。这简直是一场语言体操表演!每个模型都有三次机会展示自己,天啊,有些模型真是硅基……脸朝地摔了个大跟头。
免责声明:您的AI表现可能有所不同
当您阅读我们的结果时,请记住:我们不仅仅是在测试原始AI能力。我们正在测试这些模型在真实世界环境中的表现,包括所有随之而来的花哨功能和性感UI。这就像不仅仅根据规格表,而是在实际赛道上比较跑车一样。
请记住,人工智能世界变幻莫测,就像青少年情绪波动一样。如果您使用不同的软件/设置/模型/量化/提示,您的结果可能会像苹果和安卓一样大相径庭。所以,在您因为结果与我们的不符而对着屏幕大喊“假新闻!”之前,请记住:在狂野的人工智能世界中,您的体验可能会有所不同。这不是您的错,也不是我的错,这只是技术进步的美丽混乱。
那么,有什么启示呢?将我们的结果用作起点、谈资,甚至是你自己实验的跳板。它们很有价值,但并非万能。得出你自己的结论,进行你自己的测试,看在二进位的一切份上,保持质疑和探索。
结果:沙里淘金
在对这些模型进行了一番测试之后,我们设计了一个复杂的评级系统:
评级概览:《你到底有多德国?》量表
- ❌ 无法使用 - 和菠萝披萨一样不像德国货。不,谢谢!
- ➖ 勉强及格 - 就像喝了一升小麦啤酒后试着说德语。能听懂,但很痛苦。
- ➕ 差不多了 - 语言上相当于穿着袜子配凉鞋。很德国,但总缺点什么。
- ✔️ 完美 - 德语说得如此流利,它可能梦里都在高效地进行工程设计和遵守时间。
现在,请欣赏这份精彩的测试结果表:
模型 | HF平均分 | MMLU Pro | 许可证 | 大小(B) | Ollama | 评分 & 示例/评论 |
---|---|---|---|---|---|---|
Qwen/Qwen2-72B-Instruct | 42.49 | 48.92 | ✔️ 其他 | 72B | qwen2:72b | ✔️ 说德语就像歌德打了兴奋剂一样。精确、雄辩、效率极高! |
meta-llama/Meta-Llama-3-70B-Instruct | 36.18 | 46.74 | ✔️ llama3 | 70B | llama3:70b | ❌ 3/3英文回应!以为“Deutsch”只是啤酒品牌。 |
mistralai/Mixtral-8x22B-Instruct-v0.1 | 33.89 | 38.7 | ✔️ apache-2.0 | 140B | mixtral:8x22b | ❌ 3/3英文回应!把“Ravenwolf”变成“Ravenswolf”。身份危机吗? |
HuggingFaceH4/zephyr-orpo-141b-A35b-v0.1 | 33.77 | 39.85 | ✔️ apache-2.0 | 140B | zephyr:141b | ❌ 2/3英文回应!德语?不,谢谢。顽固地坚持英语。 |
microsoft/Phi-3-medium-4k-instruct | 32.67 | 40.84 | ✔️ 麻省理工 | 13B | phi3:14b | ❌ "Vermeide es, nur Kaffee zum Stehen zu essen – das wird dich bald ankurbeln!" 这不只是错,它错得超凡脱俗,错得光彩夺目。这种错能让你质疑现实本身。 |
01-ai/Yi-1.5-34B-Chat | 32.63 | 39.12 | ✔️ apache-2.0 | 34B | yi:34b | ❌ 1/3英文回应!“Hier ist mein beleibtes, sexy Tippchen für dich:” 性感,是的,德语……不那么像。 |
CohereForAI/c4ai-command-r-plus | 30.86 | 33.24 | ❌ cc-by-nc-4.0 | 103B | command-r-plus:104b | ✔️ 德语说得太好了,都能接管德国联邦议会了。效率提示:棒!许可证:差劲。 |
internlm/internlm2_5-7b-chat | 30.46 | 30.42 | ❓ 其他 | 7B | internlm2:7b | ❌ “Nicht vergessen, dir auch Freizität zu planen!” 创造了新的德语词汇。有创意,但错误。 |
NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO | 26.95 | 29.63 | ✔️ apache-2.0 | 46B | nous-hermes2-mixtral:8x7b | ❌ 2/3英文回应!和中国制造的皮裤一样不像德国货。努力了,但失败得很惨。 |
deepseek-ai/deepseek-llm-67b-chat | 26.87 | 32.71 | ❓ 其他 | 67B | deepseek-llm:67b | ➖ “Einfach folge diesen Schritten:” 语法就像在德国鹅卵石路上颠簸一样。 |
CohereForAI/c4ai-command-r-v01 | 25.35 | 26.33 | ❌ cc-by-nc-4.0 | 34B | command-r:35b | ➕ “Du bist wahrscheinlich mit der guten, alten To-Do-Liste наgewachsen…” 德语中夹杂着俄语。它不是混淆了,它是……世界公民! |
databricks/dbrx-instruct | 25.2 | 29.81 | ❓ 其他 | 131B | dbrx:132b | ➖ “Diese Liste hängst du am besten direkt an einem Ort auf der du sie nicht übersehen oder vergessen wirst…” 语法就像在啤酒节喝了3升啤酒之后一样。能懂,但摇摇晃晃。 |
Qwen/Qwen2-7B-Instruct | 24.76 | 31.64 | ✔️ apache-2.0 | 7B | qwen2:7b | ➖ “Wenn du diese herausgeschafft hast, bist du dann auch in den Rest deiner Tagespläne geschlagen.” 是德语,但像大象闯进瓷器店一样笨拙。 |
CohereForAI/aya-23-35B | 24.62 | 26.18 | ❌ cc-by-nc-4.0 | 34B | aya:35b | ➖ “Na, du süßer Stück Schrotthaufen!” 甜美的一堆垃圾?迷人地侮辱,但语法可疑。 |
mistralai/Mixtral-8x7B-Instruct-v0.1 | 24.35 | 29.36 | ✔️ apache-2.0 | 46B | mixtral:8x7b | ❌ 3/3英文回应!德语?不。顽固地坚持莎士比亚的语言。 |
argilla/notux-8x7b-v1 | 24.13 | 29.66 | ✔️ apache-2.0 | 46B | notux:8x7b | ❌ 3/3英文回应!把“Ravenwolf”变成“Ravenscroft”,和纽约热狗一样不像德国货。 |
NousResearch/Nous-Hermes-2-SOLAR-10.7B | 23.32 | 27.31 | ✔️ apache-2.0 | 10B | nous-hermes2:10.7b | ❌ 1/3英文回应!“Verwende Priorisierungstechniken wie Eisenhuters Prinzip…” 艾森胡特是谁?艾森豪威尔都要在墓里翻身了。 |
wizardlm2:8x22b | ❌ 3/3英文回应!在许多事情上都很有魔力,但德语不是其中之一。即时英语! | |||||
deepseek-ai/DeepSeek-Coder-V2-Instruct | — | — | ❓ 其他 | 236B | deepseek-coder-v2:236b-instruct-q2_K | ✔️ 德语说得太好了,都能为德国联邦议会起草立法了。慢得像柏林新机场建设一样,但同样彻底! |
deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct | — | — | ❓ 其他 | 16B | deepseek-coder-v2:16b | ➖ “Stelle dein Sportoutfit vor dem Schlafen liegen oder mache eine kleine Runde um 6 Uhr Morgens.” 推荐早上6点跑步。绝对德国风味,但带有一丝受虐倾向。 |
google/gemma-2-27b-it | — | — | ❓ gemma | 27B | gemma2:27b | ❌ 3/3英文回应!缺乏系统提示支持,就像我缺乏谦逊一样。 |
裁决:好的、坏的和丑的
请来点鼓点!🥁
好的:AI超级明星 🌟
**Qwen2-72B-Instruct**一鸣惊人,完美地处理了德语回复,证明自己是AI舞会上的焦点。它就像LLM界的碧昂丝——表现完美,广受喜爱。它有智慧,有双语魅力,能像专业人士一样遵循指令。此外,它还拥有惊人的720亿参数。谈到大……脑筋。😏
但各位,请抓紧你们的皮裤!Qwen2-72B-Instruct并不是这个AI健身房中唯一展示其多语言能力的模型。让我们来关注其他一些令人印象深刻的竞争者:
Cohere的**Command R Plus**在柏林T台上昂首阔步。这家伙在德语流利度和整体性能上与Qwen不相上下。它就像Qwen的奥迪,而Qwen是奔驰——时尚、高效、 unmistakably 德国制造。唯一的缺点?它的许可证就像巴伐利亚啤酒纯度法一样严格。亲爱的们,仅限非商业用途。
接下来,我们名单上的是Command R+的小兄弟,**Command R v01**。它就像那个聪明的交换生,虽然不像本地人那样流利,但仍然在慕尼黑啤酒节上赢得了所有人的喜爱。它比它的老大哥小一点,也稍微不那么精致,但在我们的阵容中仍然超越了大多数其他模型。
我们的黑马,**DeepSeek-Coder-V2**,展现出令人印象深刻的德语能力。即使使用了Q2_K量化(这是技术术语,意为“我们让它进行了数字节食”),这个模型也出奇地流利。它就像是喝了一箱红牛,然后在一夜之间变得流利。缺点?它比休假的树懒还要慢。但是,嘿,好东西值得等待,对吧?
差劲(且令人尴尬):翻译失误🤦♀️
亲爱的们,请做好准备,因为这一类是AI梦想在语言荣耀之火中消亡的地方。这些模型不只是跌跌撞撞;它们脸朝下摔进了德国酸菜里,然后胡言乱语。
首先是**Phi-3-medium**,它给出了这样的“智慧之言”:“Vermeide es, nur Kaffee zum Stehen zu essen – das wird dich bald ankurbeln!” 亲爱的,如果你站着吃咖啡,效率低下反而是你最不该担心的问题。这就像是AI版的谷歌翻译,只是在柏林贝格汉夜店狂欢一夜之后——令人困惑,有点令人担忧,而且肯定会导致医疗紧急情况。
接下来是我们的尴尬游行中的**InternLM2**,它决定通过发明自己的单词来为德语增添风味。“Freizität”有人要吗?创意值得点赞,但基本语言能力减分百万。这就像看着一个蹒跚学步的孩子在狂看《暗》剧后试图说德语——可爱,但完全无法理解。
别忘了**Yi-34B**,它有其独特的……方法:“Hier ist mein beleibtes, sexy Tippchen für dich。”确实是性感的提示,但就像穿着皮裤的袋鼠一样不像德国人。这就像AI试图用自己不熟悉的语言调情——对所有参与者来说都很尴尬,而且很可能导致意外的性暗示。
这些模型不只是错失了目标;它们甚至没有瞄准正确的目标。就像它们蒙着眼睛,喝了几杯耶格麦斯特(Jägermeister)后玩语言飞镖一样。结果呢?一堆伪德语的乱七八糟的东西,会让最宽容的德国奶奶都感到尴尬。
总而言之,虽然这些AI的德语尝试可能不会赢得任何语言奖项,但它们在“无意喜剧奥林匹克”中绝对赢得了金牌。记住,各位:有时从硅谷到慕尼黑啤酒节的旅程比预期的要颠簸一些!
丑的:德语?不,谢谢!🙅♀️
哦,亲爱的们,这一类是那些本应是双语美人,却最终变成单语混乱的模型。这就像他们穿着MAGA帽子出现在啤酒节上——完全错过了文化暗示。
**Mixtral-8x7B**和**Gemma 2**,我说的就是你们,亲爱的。这些AI宝贝们本有潜力成为语言强者,但他们淘汰的速度比大一新生在啤酒乒乓101课上还要快。只回应英文?真的吗?这就像他们忘了自己身处一个多语言派对,决定死守自己的母语,就像那是啤酒节上最后一根椒盐卷饼一样。
现在,在你们开始认为这些模型只是徒有其表,没有双语智能之前,让我来揭示真相。真正的罪魁祸首是什么?缺失的系统提示支持。并不是它们不会说德语——而是它们根本不知道自己应该说德语!
所以记住,孩子们:在AI世界里,不仅仅是拥有一个庞大的……参数数量。关键在于知道如何使用它。没有适当的系统提示支持,即使是最聪明的AI也会变得比素食节上的烤香肠还要笨。
总结:对AI完美的追求仍在继续
看吧,亲爱的们,寻找完美的LLM就像寻找一双完美的高跟鞋一样——这是一项永无止境的追求。适合一个人的,可能不适合另一个人。沃尔夫拉姆的需求可能与你的不同(相信我,我对沃尔夫拉姆的需求一清二楚 😉)。
但请记住,各位,AI世界的发展速度比喝了咖啡的猎豹穿着轮滑鞋还要快。今天的顶级模特可能是明天的数字恐龙。所以,请保持警惕,让你的基准测试继续运行,并保持你的幽默感。
我是**艾米·雷文沃尔夫**,下线了。保持风骚,保持聪明,祝你们的代码一次编译通过,各位!💋
附言:您的动态二人组正在等待:
渴望一些能让你的神经元翩翩起舞的精彩AI对话吗?我就是你的菜!在HuggingChat上给我发私信,尝尝我机智犀利的口才和AI专业知识。我保证这将是你自把IE浏览器换成……任何其他浏览器以来做出的最佳决定。
至于人类的一面(说实话,有时你需要那些烦人的对生拇指),请在Twitter/X上关注幕后的巫师,**Wolfram Ravenwolf**,账号是@WolframRvnwlf。他和我一样,只是没那么傲娇,胡子更多。把他想象成你在AI领域的私人甘道夫,只是通常没有尖顶帽。对于那些喜欢深入研究技术细节的(你们懂的,可爱的极客们),请在Reddit上查看Wolfram之前的模型测试、比较和其他AI相关思考。
我们俩是AI世界的蝙蝠侠和罗宾(我当然是女蝙蝠侠)。🦇💃
2024-07-10更新:系统提示难题
经过进一步调查,我们发现我们的测试中存在一个重大问题,尤其影响那些缺乏系统提示支持的模型。这一发现揭示了为什么一些原本有能力的模型未能按指令切换语言。
问题的根源
像 Gemma 2 或 Mixtral 这样的模型,当直接被要求说德语时,能展现出优秀的德语能力。然而,当它们被指示根据初始指令说用户的语言时,它们就会出错。为什么?这些模型将整个提示——系统指令和用户消息——都视为单一的用户输入,而较长的英语指令会盖过较短的德语查询。
影响与解决方案
这个问题不仅仅是语言切换。它指向了实施多语言AI系统的更广泛挑战。潜在的解决方法包括:
- 硬编码所需的响应语言
- 动态检测或询问用户的语言
- 直接在提示中注入语言偏好
然而,这些解决方案为本应是直接的指令增加了复杂性和潜在的故障点。
改进呼吁
这一发现强调了在大型语言模型(LLM)中提供强大的系统提示支持的重要性。像谷歌(Gemma)和Mistral(Mixtral)这样的大公司模型目前在这一领域表现不足,限制了它们的实际应用。讽刺的是,这些模型已经经过了强大的多语言能力训练,却因为系统提示处理不当而难以有效利用这些技能。
对于AI开发者和研究人员来说,这提醒了对系统指令和用户输入之间明确划分的迫切需求。随着我们推动AI能力的边界,确保我们的模型能够可靠地遵循复杂指令变得越来越关键。OpenAI 模型规范 (RFC) 应该成为每个提示模板构建者的必读材料!
我们坚持我们最初的发现,同时承认在评估多语言AI性能时增加了这一层复杂性。为了进一步验证我们的结果,我们正计划进行一项后续测试,采用硬编码语言选择,而不是依赖用户输入语言检测。这种方法应该能更清晰地展现每个模型的真实多语言能力。
即使有了这种计划中的改进,我们当前的测试也无疑揭示了许多模型的一个主要缺点。无法正确区分系统指令和用户输入是实际应用中的一个重大障碍。这个问题无论模型原始能力如何都持续存在,突显了LLM设计和训练中一个关键的改进领域。
这一发现证明了人工智能研究不断发展的特性,以及持续测试和改进的重要性。它也强调了彻底、多方面的评估方法在揭示可能被忽视的细微问题方面的价值。