项目符号笔记电子书摘要:与 PDF 聊天的不同方式

社区文章 发布于 2024 年 8 月 10 日

去年,我开始手动总结一系列书籍,以整合来自不同来源的心理学概念。工作一周后,我只完成了第一本书的几章,意识到这项任务耗时费力。这促使我开始学习 LLM。

在接下来的六个月里,我沉浸在大型语言模型 (LLM) 的世界中。我探索了各种模型,发现了哪些最适合我的特定任务。通过仔细的微调,我努力实现了结果的生产质量一致性。这项努力的成果是一个强大的内容管理工具,它改变了我的工作流程。它不仅加速了我的学习过程,还让我能够更轻松地分享知识,而无需进行大量手动内容创建。

image/png

与 PDF 聊天的不同方式

虽然我目前的重点是电子书摘要,但这个项目代表了我们与 PDF 和其他文档格式交互方式的根本转变。传统的工作文档方法通常涉及将它们分块并插入到支持检索增强生成 (RAG) 的数据库中。这种方法允许 LLM 搜索文档并根据其发现回答查询。然而,这种方法往往缺乏精确性和全面性。

我的方法,虽然在某些方面相似,但引入了一个关键的区别。我特别注重分块过程,确保文档根据其固有结构进行划分——尊重章节边界。这保留了原始材料的逻辑流程和上下文。从那里,我单独分块每个章节,并将我的查询定向到文档的特定部分。这种有针对性的方法可以更准确、更精确地了解文档中的每个子部分。

Mistral 7b Instruct v0.2 - 项目符号笔记

Mistral 7b Instruct v0.2 - 项目符号笔记

为了以标准化格式获得一致、高质量的摘要,我微调了 Mistral 7b Instruct v0.2 模型。这个自定义模型专门用于创建项目符号笔记摘要。您可以在此 Hugging Face 集合中找到基础模型、GGUF 和 LoRA 版本。

image/png

Ollama.com 上可用的模型

Mistral 7b Instruct v0.2 Bulleted Notes 有各种大小的量化版本,以及 Mistral 7b Instruct v0.3 GGUF,它加载了用于创建分块章节副标题的模板和说明。

Ollama 电子书摘要:融会贯通

为了简化整个过程,我开发了一个基于 Python 的工具,可以自动对带有嵌入式目录元数据的 EPUB 和 PDF 文件进行分割、分块和项目符号笔记摘要。虽然 PDF 目前需要内置的可点击目录才能正常运行,但 EPUB 往往更宽容。

您可以在 GitHub 上探索并贡献此项目:ollama-ebook-summary

超越摘要:任意查询

一旦一本书被分割成可管理的小块,我们就会为每个部分创建项目符号笔记摘要。最终的结果是一个 markdown 文档,即使是 1000 页的书也能浓缩成可以在几个小时内审阅的内容。但可能性远不止于此。分块后,您可以向文档提出任意问题。例如,询问“这段文字回答了哪些问题?”或“这段文字提出了哪些论点?”可以快速揭示研究论文或书籍章节的核心思想。此功能在审阅大量研究论文时特别有价值。通过提出有针对性的问题,您可以快速筛选掉不相关的材料,并专注于对您而言最相关的信息。

展望未来:未来的发展

随着我们不断完善和扩展此工具,我们正在探索各种文件类型的新分块方法,包括 Markdown、原始 PDF、原始 TXT、Word 文档以及其他电子书格式。我们欢迎通过我们的 GitHub 存储库做出贡献。无论您是开发人员、研究人员还是爱好者,您的投入都可以帮助塑造这个项目的未来。敬请期待我们即将推出的付费网络应用程序,它将使这个强大的工具更广泛地普及。

希望您能发现这个工具和我一样宝贵。

无论您是学生、研究人员、作家还是仅仅是狂热的读者,电子书摘要工具都可以改变您与文档交互和从中提取知识的方式。我们邀请您试用它,为其开发做出贡献,并加入我们,共同彻底改变我们在数字时代与知识交互和推理的方式。

社区

注册登录 以发表评论