仅用一张4GB GPU运行最强的开源LLM模型:Llama3 70B!

社区文章 发布于2024年4月21日

最强的开源LLM模型Llama3已经发布,一些关注者询问 AirLLM是否支持在4GB显存的本地设备上运行Llama3 70B。答案是肯定的。 详细教程如下。

此外,Llama3的性能与GPT-4相比如何?Llama3使用哪些关键的尖端技术使其如此强大? Llama3的突破是否意味着开源模型已正式开始超越闭源模型? 今天我们也将给出我们的解读。

如何在仅有4GB GPU内存的单张GPU上运行Llama3 70B

Llama3的模型架构没有改变,所以 AirLLM实际上已经天然完美支持运行Llama3 70B!它甚至可以在MacBook上运行。

首先,安装AirLLM

pip install airllm 

然后你只需要几行代码

from airllm import AutoModel  
MAX_LENGTH = 128  
model = AutoModel.from_pretrained("v2ray/Llama-3-70B")  
input_text = [          
  'What is the capital of United States?'      
]  
input_tokens = model.tokenizer(input_text,      
  return_tensors="pt",       
  return_attention_mask=False,       
  truncation=True,       
  max_length=MAX_LENGTH,       
  padding=False)  
  
generation_output = model.generate(      
  input_tokens['input_ids'].cuda(),       
  max_new_tokens=20,      
  use_cache=True,      
  return_dict_in_generate=True)  
  
output = model.tokenizer.decode(generation_output.sequences[0])  
print(output)

更多详情请访问我们的GitHub仓库 此处

请注意:它并非为实时交互场景(如聊天)设计,更适合数据处理和其他离线异步场景。

它与GPT4相比如何?

根据官方评估数据和最新的lmsys排行榜,Llama3 70B与GPT4和Claude3 Opus非常接近。

官方评估结果

Offical evalution metrics

lmsys排行榜结果

lmsys leaderboard at the time of writing

当然,将规模相似的400B模型与GPT4和Claude3 Opus进行比较会更合理

Comparison with 400B which is still being trained

Llama3 400B已经非常接近GPT4和Claude3的最强版本,并且仍在训练中。

Llama3的核心改进是什么?

Llama3的架构没有改变;训练方法上有一些技术改进,比如基于DPO的模型对齐训练。

DPO基本上已成为所有排行榜上顶尖大模型的标准训练方法——它就是有效! 我们之前写过详细介绍DPO的文章,所有代码都已开源在此处

当然,Llama3的核心秘密在于其训练数据数量和质量的大幅提升。 从Llama2的2T增加到15T!人工智能就是数据!

数据的改进不仅在于数量,还在于质量。Meta做了大量的SOTA数据质量过滤、去重等工作。其中很多是基于使用Llama2等大型模型来过滤和选择数据。

请注意:这15T是经过严格过滤和清洗后的数据。过滤前,可能超过100T。

训练AI模型的核心是数据。 要训练一个好的AI模型,并不是要有多少花哨的训练技术,而是要扎实细致地做好基础工作。尤其是那些不那么“性感”、脏乱、繁琐的数据质量工作——这实际上至关重要。

我一直高度评价Meta AI的能力。从早期使用Transformer的判别式AI开始,Meta AI就以其坚实的数据处理基础而闻名,产生了许多长期位居SOTA(State-of-the-Art)榜首的经典模型,例如Roberta和Roberta XLM,它们曾是我们长期以来的首选模型。

Llama3的成功是否预示着开源模型的崛起?

开源与闭源之间的竞争可能远未结束。未来的戏剧性事件还很多。

无论是开源还是闭源,训练大型模型已经变成一场烧钱的游戏。15万亿(15T)的数据和4000亿(400B)参数的模型,都不是小公司能够负担得起的。我认为在接下来的六个月内,许多开发大型模型的小公司将会消失。

当谈到烧钱竞争时,实际上比拼的是长期变现投资的能力和效率。 事实上,直到今天,真正实现盈利的AI LLM应用仍然非常少。很难说谁能持续投入,以及以何种方式持续投入。

从纯技术角度看,我们一直认为开放文化对人工智能至关重要。近年来人工智能的快速发展离不开人工智能社区的开放和共享文化。即使在公司内部也是如此;能否保持开放和共享的环境,持续进行透明和开放的思想交流,是其人工智能发展的关键。一个对外部世界非常封闭的公司,很可能内部也不够开放和透明,这迟早会阻碍其人工智能技术的快速发展,也阻碍其真正建立一支一流的团队。

我们将继续关注最新最酷的AI技术,并持续分享开源工作。欢迎关注我们,敬请期待!

社区

注册登录 发表评论