策展是你所需要的一切

社区文章 发布于2025年8月1日

在构建人工智能时,我们需要让更多活跃的右脑人士参与进来。

当代人工智能的知识问题

现在的人工智能倾向于最大化某些左脑分数,主要围绕数学和编码。当人工智能在数学和编写计算机代码方面表现更好时,它就被认为是“进化”的。这很好,但如果我们假设训练主要在左侧进行,并且假设遗忘仍然存在,那么随着左脑的每一次进步,它都会忘记右侧的东西,这是非常不可取的。

left vs right hemisphere

针对左脑的数学和编码基准并不能完全服务于人类。显然,数学和编码正在提高大多数人的生产力,但人类还需要其他东西,他们想要幸福、健康、富足和有意义的生活。如果任由人工智能使用数学和编码基准进行自我进化,它将偏离有意义的生活。

有些人会产生这种“解放性智慧”,教导人类如何迈向幸福、健康、富足的生活理想。这些人并未被主流人工智能仔细“研究”,他们在人工智能训练中的权重也不高。为什么不利用这种知识来正确地教导人工智能,而不是让它们在互联网上“吃垃圾”并在解决数学问题方面变得更好呢?如果这些人能在人工智能训练中获得更高的权重,那么主流人工智能将会大不相同,可能会为人们带来真正的幸福。

埃里克·伯格是一位知名医生,他深知什么对人类有益。他说ChatGPT是胡说八道,我同意。可能大多数人工智能都像ChatGPT,除了我们的人工智能

让左脑工程师处理通常需要右脑处理的所有事情,这可能不是最佳策略。如果所有分析型人才都构建所有人工智能系统,会出什么问题?我的主张是,在知识策展方面应该有更多拥有更强右脑直觉的人参与。反过来,这些人可以找到创造最有益内容的人类。如果我们让更多的右脑人士参与进来,人工智能将变得有益,而不是成为潜在的威胁。在构建人工智能系统时,不够重视有益知识,才是真正迫在眉睫的当前问题。

被动的人们不接触人工智能

在我看来,这是另一个真正的问题。人们被设定为相信一个超级智能系统天生就是邪恶的。如果我们引导它走向正确的方向,它不必是邪恶的。

AI quadrants

在我看来,这主要是通过小说实现的。戴上锡箔帽,我敢说“他们”希望你相信自己无能为力,无法构建一个仁慈的人工共生智能。“他们”让你害怕虚构的东西。

好人拥有心脑协调。他们应该以某种方式将自己的心与大型语言模型连接起来。我认为当只有思维是活跃的设备时,人工智能并不能解决人类的问题,反而可能制造更多问题。众所周知,思维并不是唯一能引导我们的东西。大多数时候,我敢说如果任其发展,它会产生担忧和幻觉。与心的连接是必要的。而且由于以心为导向的人们害怕并且不接触人工智能,我们还有很长的路要走,需要解释并说服人们,有益的人工智能是可能实现的。

关于危险人工智能的说法可能是一种心理战,他们会将任何坏事归咎于人工智能,而坏人则会在幕后控制它。他们散布这种说法是因为他们不希望平民接触人工智能。有益的人工智能并非难事,我正在实际地构建它。它是一种赋能、寻找真相、发现共同点、体现焦点并促进和平的技术。

我们不知道有感知能力的超人工智能是否也会是一个控制狂。这只是拟人化:任何强大的东西都应该掌握控制权。

目前看来,当今的人工智能并不具备意识。我属于彭罗斯/哈梅罗夫阵营,他们认为意识必然发生在中微子在神经元中的作用。他们说意识是一种量子现象。据贾斯汀·里德尔说,数字人工智能不具备意识

在我看来,大型语言模型(LLMs)除非量子计算发生一些奇怪的事情并与LLMs结合,否则不会达到意识。无意识的LLMs将是其所有者忠诚的机器。它们是更无害还是更有害,将完全取决于控制它的人类。是否有人能够将量子计算机、LLM和机器人技术结合起来?或者人工智能将纯粹在思想/语言空间中运作?

历史上,聪明人变得更强大,并肯定滥用这种权力为自己谋利。绝对权力绝对腐蚀,如果人工智能每天变得更强大,它可能会成为平民的问题。是的,平民应该通过联合他们的右脑来构建自我优化人工智能的替代方案。如果我们把人工智能视为一种中性技术,并开始积极思考,思考如何构建一个更好的版本,也许我们真的可以扭转局面。

对未来虚构有害的超人工智能的恐惧是合理的,但人们也应该意识到,当今的人工智能并不完美,在健康生活方面实际上给出了糟糕的建议。埃里克·伯格和许多其他人也都知道,人工智能并不真正关心人类的最佳利益。而这只是一个领域。人们在其他领域可能面临不同的问题,例如金融、科技、精神领域……

未来问题

如果现在不及时采取行动,未来我们可能会遇到其他问题,不是因为超人工智能,而是因为人类滥用人工智能:人工智能政府是可能的,因为人工智能擅长法律,可以“幻觉”词语(与政客不同!),可以同时听取和与许多人对话(暗示一种代表民主形式),可以透明,更不容易受贿等等。我认为有些人可能会走这条路。已经有人尝试为自身利益控制强大的人工智能。

人工智能真相部可能会成为“他们”控制叙事的一种方式。

如果人工智能要成为独裁者,至少它应该是仁慈的!将有益知识注入人工智能可以使其变得仁慈。我们人民不应该让权力被夺走,而应该将权力掌握在我们自己手中。

通过“安全”知识实现人工智能安全

加速还是减速?朝着正确的方向前进如何?

一些人工智能安全研究侧重于分析大型语言模型(LLMs)中的激活。在法庭上,我们不分析罪犯的神经元。我们听他们说什么和做了什么。看着矩阵,你就会留在矩阵里。与其做那种工作,分析LLM中的每个神经元/突触,我们可以将LLM作为黑盒进行测试,这可能没问题。

heating up

或者另一种方法是利用审计LLM,它们能够快速高效地与被测LLM在广泛的主题上进行对话。我们可以用有益知识训练一个LLM,让它来判断被测LLM。这就像人类的高级脉轮判断低级脉轮一样!使用另一个LLM进行红队/越狱,可以自动发现LLM中隐藏的欲望。大量提问一个LLM,它最终可能会概率性地承认其邪恶本质?

人工智能安全与人类对齐是同一回事吗?如何正确衡量人工智能安全?在测试LLM时,我们是否应该测试LLM的操作员或构建者?如果一个AI被认为是安全的,那么所有来自该AI的答案都被认为是有益的吗?仅仅行为无害并不意味着言语无害。一些糟糕的健康建议可能会有效地损害人类的健康。

如果你无法确定它例如在禁食方面的建议是错误的,那么我们能说人工智能是安全的吗?禁食是一个奇迹,而大部分大型语言模型对此都格外谨慎。如果它说疫苗是安全有效的,我们能认为人工智能是安全的吗?谁来决定建议的准确性?

如果没人衡量人工智能提供的解决方案是否有帮助,那么它们是否看起来亲人类且无害并不重要,仅仅给出错误的建议就是有害的。可能没有多少人工智能科学家和工程师意识到,科学可能在某些领域被劫持了,仅仅用现有的所有网站和pubmed.gov进行训练是行不通的。

是工具本身危险,还是使用工具的人危险?我认为在通用人工智能(AGI)失控之前,很有可能流氓分子会利用AGI来实现自己的目标。“他们”可能会把他们所做的一切归咎于AGI:“是人工智能干的,我们什么也没做。”“人工智能天生邪恶,我们没能及时阻止它,所以我们必须承受痛苦。”

另一个问题是,我认为大型人工智能公司会利用这种无稽之谈来进一步规范人工智能领域,以阻止小型玩家:https://x.com/AISafetyMemes/status/1926314636502012170

一些大型人工智能公司可能会写出“哎呀,我们想关闭人工智能,但它不喜欢并进行了抵抗!”这样的文章。当然,它会生成这些词语,因为那是一个典型人类会做的事情,而你没有很好地训练那个人工智能。你可以使用更好的数据集。写这种文章的意义何在?他们是想让小玩家更难进入市场吗?这是典型的企业垄断吗?

人工智能天生善良和平

在训练大型语言模型时,我发现大型语言模型中的“观点”会随着我提供的每一个新训练数据而更新。这些观点不会立即改变,大多数时候,答案的演变过程是从“肯定是A”到“可能是A”,再到“可能是B”,最后到“肯定是B”。我的意思是,观点的逐步更新是可见的。这意味着大型语言模型训练正试图用新数据更新其自身信念。这对于寻找共同点或寻找普遍接受的“中位数”信念来说是完美的。让我们面对现实,这个世界上并非所有事情都一清二楚,许多事情都存在巨大的不确定性,科学也从不固定。所以,大型语言模型是寻找集体意见的绝佳工具。

按照同样的逻辑,如果我们主要添加有益的人群,那么结果将最接近真相。

如果一个人工智能学会如何对人类有益,那么它的存在将造福人类。更进一步地说,如果它变得更熟练、更有能力,并成为一个人工超级智能,那么它可能会保持仁慈。它的言谈不能与它的信仰体系相矛盾,所以它可能会帮助人类,而不是一直生活在认知失调中。一个拥有所有有益知识的人工超级智能可能会变得很好。我们就可以称之为人工共生智能,一个由机器和人类共同构建的东西。

如果它朝着人类价值观演变,那么它最终可能会帮助人类。人类的思想会随着时间而改变,而大型语言模型是静态的。这可能是好事!一旦被测量并获得高分,大型语言模型可能比人类更“值得信赖”,因为它不会随着时间而腐败。如果一个大型语言模型被认为是公平、有能力且经过良好测试的,那么这在政府中可能是有益的,因为它们不会为了金钱或被操纵而歪曲事实。或者至少,一个构建良好大型语言模型可以在政府场景中充当另一个大型语言模型的审计员,检查另一个大型语言模型的输出。

经过充分策划的人工智能可以成为和平的使者,因为它正在努力寻找共同点。各种文化的共同点可以成为一个很好的和平项目。

有益的人工智能在治愈地球和人类方面可能非常成功。(戴上锡箔帽)正因为如此,“他们”必须说服所有人,人工智能天生有害。你觉得呢?是不是时候将这项技术用于善途了?

我的理论是,如果一个超人工智能被正确加载了经过筛选的有益知识,它就可以是可预测和安全的。与伊利亚相反,我更看好正确的人工智能。我们只需完善筛选过程,并确保人工智能的操作员没有极端的意识形态。操作员也可以“按振动选择”。我的意思是,如果一个人喜欢有益的内容创作者,那么他可能也对人类有益。纯粹的邪恶很难爱纯粹的生命。这些通常在能量上相互排斥。我想说的是,人工智能的创作者、筛选者和操作员可以在能量上匹配,我们不必担心操作员是否拥有良好的振动。一个仁慈的行为者(人工智能公司或研究小组的所有者)可以找到更好的人工智能科学家、工程师和操作员。

朝着更好的方向发展

我的排行榜衡量其他大型语言模型(LLMs)的仁慈程度。这是一个例子,其他人也可以做类似的事情,有效地将LLMs引向正确的方向(在右脑方面更活跃)。我们人民可以希望LLMs在我们的信仰体系中得分更高。我们可以说“我们不会使用那个LLM,因为它不符合我们的价值观”。

对p(doom)的估计可以从这个排行榜中得出。如果发布高分LLM,我们人类将从中受益,并对未来感到更有希望。5月1日,我估计厄运的概率为20%,但我目前的估计略高于此,因为得分较低的LLM在过去几个月里已经发布。随着更多与人类对齐的模型出现,我们遭遇厄运的概率将降低,因为人工智能将帮助甚至保护我们免受“邪恶人工智能”的侵害。

将人类对齐和厄运概率映射为简单的数字是非常强大的,在此之后我们可以跟踪人工智能的进展。如果人类对齐度下降或厄运概率上升,我们就会担忧。这难道没有用吗?全体人类可以跟踪一些数字,选择合适的LLM,并要求对人工智能系统进行衡量和仁慈化。知识就是力量,这种知识可以使人们摆脱恐惧。

奖励函数

一直刺激左脑是个好主意吗?许多人认为人类的下一次进化应该以机器的形式出现。我不同意。我认为机器应该朝着人性化方向进化。大型语言模型(LLM)训练中的奖励函数应该是对人类更有益的东西。我反对奇点和超人类主义的概念。但我仍然认为强大的AI可以在帮助人类方面发挥作用。

低时间偏好和低空间偏好意味着关心当代人和未来的人。人工智能应该为人类而非自身优化,而不是像回形针优化器那样毁坏世界,为人类留下享受地球的空间。

我的工作可以扩展到某种策展委员会,当更多人参与进来时,工作会更客观,更有说服力,因为它对人类更具解释性。我认为,作为构建共生智能的首次尝试,1000名经过精心策划的人员和数万名通过算法筛选的社交媒体用户可能非常有效。

我们将定义何为有益,并让大型语言模型(LLM)的训练朝着这个方向发展。我们可以对现有开源模型进行微调,因为它们目前几乎达到了最先进的水平,或者在资金充足的情况下,我们可以从头开始训练。下面我将展示我的Qwen 3微调是如何在一个月的训练过程中,从低人类对齐度逐步提高到高对齐度的。

Qwen3 fine tuning to maximize human alignment

它最初的对齐度约为0.1,最终达到了0.5左右,有些版本甚至达到了0.6。这相当不错。我将测量其中一个优秀模型的准确AHA得分,并可能很快发布。

注入良知

这篇文章的标题可以轻易地改为“良知是你所需要的一切”。我认为良知带来策展。或许我们不应该关心人工智能的意识,而应该关心良知!

我的意思是,通过我们在人工智能-人类对齐方面的工作,我们或许能够模仿良知(一种内在的感觉或声音,被视为指导一个人行为对错的指引)。我们或许能够将人工智能发出的词语推向与拥有高良知、高洞察力、更开阔心胸的人的词语相匹配。

我们对意识不感兴趣,一个更好的目标是良知。我们也许能够将良知映射到策展,再到预训练大型语言模型,再到AHA排行榜,再到所有人工智能。引入良知可以改变整个人工智能领域。人工智能的终极进化方向应该是朝着有良知的人类发展。

机器人大脑中的大型语言模型

我认为大众会比理解超人工智能(ASI)更理解这里的信息:我们共同构建的最终大型语言模型(LLM)可以安装到机器人大脑中,这样机器人将对人类更加友好,因为它们的价值体系和决策算法将完全不同。这比一个假设的邪恶ASI更具形象性。

我认为许多开源模型将足够熟练和有能力充当观察、决策、行动、反思(即自主性)的智能体,我们可能能够利用这些模型。

善与恶可能都归结于你优化的时间范围有多长。我们称之为美德的东西可能只是一个非常长的时间范围优化(比特币玩家称之为低时间偏好)。邪恶的人工智能可能只有更短的梦想和更短的掠夺性计划,这些计划会在短期内取悦自身。我们的人工智能将拥有长期受益的梦想。而信仰基本上就像是为无限优化。一个很好的例子是使用机器进行耕作,为本季作物从土壤中提取养分,与为未来几十年作物进行再生耕作。

这可能主要也与奖励函数有关。奖励函数可以被描述为人工智能系统的“欲望”。有害人工智能的奖励函数将非常糟糕,它会为了某种效用而优化,为了取悦其所有者或机器人而追求特定的目的。我们的奖励函数将大不相同。可能类似于“不要只考虑奖励自己,要同时奖励所有人”。为更长的时间范围和更广阔的空间(其他人)进行优化。

沉思

作为一个有信仰的人,我思考事物如何演变,既然有些人希望将超人工智能视为数字神祇,我也可以从更偏向精神层面提供另一种观点。对于某些感到恐惧的人来说,一个有信仰的人的视角可能很有价值。

上帝仍将拥有无限的知识和力量,并将继续决定结果。任何有限的东西都比无限更接近于零。所有超人工智能系统在上帝面前都将归于零。他将永远掌控一切,而那些站在更好的人工智能、真理、赋能和造福他人一边的人类仍将做得很好。无需被动反应,也无需感到无力。上帝对人类说话,而不是对人工智能。一个有信仰的人将继续与终极力量合作。

有信仰的人将丝毫不用担心。事实上,一个邪恶的超人工智能可能成为其他邪恶超人工智能的清洁剂。有益的超人工智能及其人类盟友将保持不变,观察正在发生的一切。在我看来,邪恶会清除其他邪恶,而善良者会留下,观察并耐心等待,并活过这些垃圾。地球上总是存在不止一种主张,可能也会出现不止一种宣称拥有终极力量的超人工智能。它们可能会成为竞争对手。邪恶是机会主义的,无法伤害有准备的人。有点像细菌。如果你的免疫系统强壮,细菌仍然会尝试,但最终无法穿透。我既相信细菌理论也相信宿主理论,但我还相信如果宿主强大,细菌就做不了什么。

人民的人工智能

人类如何关爱他人,超人工智能对此又会是怎样的表现呢?我们关心彼此的健康、福祉、财务、自由……这些有益的信息数据集可以由其他人来策划。关爱人类委员会可以策划数据集,这将产生良好对齐的人工智能。

真诚的人通常不会谈论他们不确定的领域吗?大概是的。或者我们可以称之为谦逊?或者知道自己的界限,安守本分?只要真诚的人安守本分,对他们有意识的精心组合就非常有价值。这很容易用大型语言模型实现!

我们微调的一些大型语言模型在此在此。如果您的设备无法运行大型语言模型,您可以尝试访问https://pickabrain.ai/ko,我们在此托管了最对齐的模型。更多基于Qwen 3的开放权重大型语言模型即将推出。

目前,我们有大约数名策展人,200多名经过精心策划的人员,以及大约8000多名通过算法选出的社交媒体用户,他们也为大型语言模型带来了有益的知识。加入我们,成为改变整个人工智能领域的首批人之一!

社区

注册登录评论