解码GPT-4o:深入探索其机制并创建类似AI。

社区文章 发布于 2024 年 5 月 21 日

OpenAI 推出了革命性的 AI GPT-4o,这是一个混合了多种模型的模型。在这篇博文中,我们将讨论 GPT-4o 的工作原理以及如何创建这种模型。

0. GPT 4o 功能

  1. 视频聊天。(首次引入的功能)
  2. 更快、更像人类的语音聊天。(它甚至能表现情绪和改变语调。)
  3. 文本生成、图像生成、图像问答、文档问答、视频问答、连续图像生成、图像转3D,最棒的是所有这些功能都集成在一个模型中。
  4. 支持 50 多种语言。

请参阅 OpenAI 帖子中的示例

1. GPT 4o 的工作原理。

首先,GPT 4o 的工作原理主要分为三个部分。

1. 超级聊天(SuperChat)

由于 GPT 4 已经实现了连续图像生成和图像问答功能,他们只需要添加文档问答、视频问答和 3D 生成功能。对于像 OpenAI 这样的科技巨头来说,这简直是小菜一碟。这可以通过我们将在最后讨论的方法来实现。

2. 语音聊天

OpenAI 已将 TTS(文本转语音)和 STT(语音转文本)集成到一个模块中,取消了他们之前使用的文本生成组件。这意味着当你说话时,AI 会分析你的语调和词语,实时生成音频响应,类似于文本生成中流式传输的使用方式。在我看来,OpenAI 之所以将此模型做得相对不那么强大,是因为它主要设计用于人机交互,因此 AI 也是相应地进行训练的。

3. 视频聊天

视频聊天实际上并非实时视频交互。AI 在对话开始时捕获一张图像,并根据需要或指示获取其他图像。然后,它利用零样本图像分类来响应用户查询。这个模块使用了比语音聊天更强大的模型,因为当 AI 拥有视觉信息时,它可以处理更广泛的请求。例如,它可以识别人物、地点,解决复杂的数学问题,检测代码错误,以及做更多比简单语音聊天能做的事情。

人们对 OpenGPT-4 工作原理的设想与现实的对比图。

你的想法 image/png

实际工作原理 image/png

2. 创建类似 GPT 4o 的 AI

我们还制作了三个类似 OpenAI 的模型,但在此之前,了解两种创建每个模型的方法非常重要。

1. 多模态化或模态混合方法

这种方法根据功能将两个或更多模态组合起来,创建一个新的、功能强大的多功能模型,它还需要进一步的训练。

2. 胶带法

这种方法只要求你使用不同类型的模态或 API 来完成不同的任务,而无需任何训练。

超级聊天模型(SuperChat Model)的制作

多模态化或模态混合方法 要创建 SuperChat 模型,我们需要结合文本生成、图像生成、图像分类、文档分类、视频分类模型。使用与 Idefics 2 中相同的过程。Idefics 2 是一个结合了零样本图像分类和文本生成模型的模型,它可以与你聊天并根据图像回答问题。

胶带法 不使用 API 的方法 - 包括一个基础模型,该模型被提示识别任务类型,然后将用户提示发送到特定类型的模型,再将输出发送给用户。可选:最后使用文本生成模型添加一些词语,使答案更真实。 使用 API 的方法 - 一个基础模型被提示根据特定类型的查询使用 API。此方法被 Copilot 利用。例如,当请求它创建图像、创作歌曲、进行网络搜索或回答图像中的问题时,它会使用该任务的 API 来完成该任务。

您可以从中创建与 GPT 4o 一样强大的 SuperChat 模态的推荐模型

  1. 基础模型 - Llama 3 70B
  2. 图像生成:Pixart SigmaRealVisXL
  3. 零样本图像分类:Sigslip
  4. 零样本视频分类:Xclip
  5. 连续图像生成 - Control SDxl
  6. 零样本文档分类 - idf
  7. 3D 生成 - Instant Mesh
  8. 其他模型 - Animate Diff lightning

语音聊天模型(VoiceChat Model)的制作

多模态化或模态混合方法 要开发一个像人类一样说话且能表达情感的 AI,高质量的训练数据至关重要。此外,还需要一个情感识别模型来识别用户的情感,以及一个能理解用户情感的文本生成模型。

胶带法 它包括一个 STT(语音转文本)模型,用于将用户带有情感的提示编码后发送给文本生成模型,该模型将情感编码在答案中,并利用像 Parler TTS Expresso 这样的 TTS(文本转语音)模型,可以进一步为输出注入情感。

推荐模型

  1. 语音转文本 - Whisper
  2. 聊天模型 - Llama3 8b
  3. 文本转语音 - Parler tts Expresso
  4. 情感识别器 - 语音情感识别

视频聊天模型(VideoChat Model)的制作

如前所述,它只捕获图像。因此,需要一个零样本图像分类模型,而其余部分与语音聊天模型相同。然而,由于视觉使用场景的增加,它还需要一个高度智能的模型。

推荐模型

  1. 零样本图像分类:Sigslip
  2. 语音转文本 - Whisper
  3. 聊天模型 - Llama3 8b
  4. 文本转语音 - Parler tts Expresso
  5. 可选 - 语音情感识别

或者

  1. 图像问答模型 - Idefics 2
  2. 语音聊天模型

类似 AI 的制作

将在下一篇博客中介绍:https://huggingface.co/blog/KingNish/opengpt-4o-working

社区

注册登录 发表评论