图像扩散在分形文本上

社区文章发布于2025年7月22日

大卫

apehex

传统上，视觉模型和文本模型之间存在一道鸿沟——它们各自拥有自己的数据格式、训练任务和架构。

但是，如果文本数据可以视觉化表示，同时又不失其符号特性，从而实现文本生成的替代方法呢？

在本文中，我们将探讨如何将文本转换为有意义的视觉模式，以供图像扩散模型使用。

直觉

从计算机的角度来看，**文本**和**图像**都是字节序列。

这是Huggingface徽标的开头，采用HEX编码

xxd -ps huggingface.png | head -n2
# 89504e470d0a1a0a0000000d4948445200000200000002000806000000f4
# 78d4fa000000097048597300001d8700001d87018fe5f165000000197445

这是本网页的开头，它将显示在您的硬盘上

xxd -ps blog.html | head -n2
# 3c21444f43545950452068746d6c3e0a3c212d2d2073617665642066726f
# 6d2075726c3d28303035382968747470733a2f2f68756767696e67666163

除非您受过网络安全/取证方面的训练，否则很难分辨它们！

确实，“视觉”与“文本”的区别是以人为中心的。图像和文本是为了方便我们而封装计算机数据的构造。

当然，这些格式捕获了许多底层模式并加速了模型的训练。就像分词器是固定的但有效的语义理解捷径一样。

但我们创造了两个孤立的人工岛屿。

那么，让我们看看我们能否越过障碍。

"免责声明"

劫持图像模型以生成文本是一个出于好奇的小实验。我知道它对于严肃的项目来说是次优且不明智的。

然而，使用扩散架构生成文本正逐渐受到关注：Apple的Planner和Google的Gemini显示出令人鼓舞的结果，并挑战了自回归语言模型的现状。

将文本编码为RGB数据

为了将视觉模型应用于文本数据，我们首先需要将字符进行视觉表示。

栅格化字体

通常，文本会根据您屏幕的分辨率进行栅格化。

但这种方法会将每个字符分解成许多像素，将离散符号简化为嘈杂的纹理

它将迫使模型从视觉碎片（像素）中恢复符号意义——本质上是学习阅读。

自定义RGB编码

相反，让我们尝试将每个字符表示为单个像素，以保留其身份，同时实现空间处理。

通常，文本以 Unicode 格式表示，长度为 32 位或 4 字节。

此空间仅分配了很小一部分，并且最高有效字节始终为零

np.array(list('Hilbert'.encode('utf-32-be'))).reshape((-1, 4))
# array([[  0,   0,   0,  72],
#        [  0,   0,   0, 105],
#        [  0,   0,   0, 108],
#        [  0,   0,   0,  98],
#        [  0,   0,   0, 101],
#        [  0,   0,   0, 114],
#        [  0,   0,   0, 116]])

这意味着任何字符都可以用3个字节表示，就像颜色的RGB分量一样

在上图中，每个字符都由一个像素表示，其颜色为其 UTF 编码的颜色。结果大部分是蓝色，因为所有 ASCII 字符的红色和绿色通道都为 null。

Unicode 表中更靠后的字符，例如东亚文字（CJK 字符），覆盖了更广的颜色范围

np.array(list('ヒルベルト曲線'.encode('utf-32-be'))).reshape((-1, 4))
# array([[  0,   0,  48, 210],
#        [  0,   0,  48, 235],
#        [  0,   0,  48, 217],
#        [  0,   0,  48, 235],
#        [  0,   0,  48, 200],
#        [  0,   0, 102, 242],
#        [  0,   0, 125, 218]])

仔细观察，这些颜色有明确的含义

标点符号几乎是黑色的，因为相关的代码点接近于0
字母表有不同的颜色，字母之间的变化更细微
大写字母的颜色更深，因为它们在UTF表中位于小写字母之前

混合通道

不过，颜色偏向蓝色，这对于视觉模型来说可能不寻常。

为了获得更平衡的颜色分布，可以采用不同的通道组合方式

__utf = np.array(list('Hilbert'.encode('utf-32-be'))).reshape((-1, 4))
np.stack([
    __utf[..., 1] + __utf[..., -1],
    __utf[..., 2] + __utf[..., -1],
    __utf[..., -1]
], axis=-1) % 256
# array([[ 72,  72,  72],
#        [105, 105, 105],
#        [108, 108, 108],
#        [ 98,  98,  98],
#        [101, 101, 101],
#        [114, 114, 114],
#        [116, 116, 116]])