Qwen2-VL-OCR-2B-Instruct 和 VisionOCR-3B-061125 用于精确识别[凌乱]手写体。

本次测试仅用于实验目的。VisionOCR-3B-061125 模型基于 Qwen2.5-VL-3B-Instruct 训练,而 Qwen2-VL-OCR-2B-Instruct 模型则基于 Qwen2-VL-2B-Instruct 训练和优化。本次比较侧重于从图像中检索内容的精确性和准确性。实验涉及分析一组图像,每张图像根据凌乱手写识别的难度级别进行分类。这些图像用作比较两种模型 OCR 能力的测试用例。
模型页面
模型名称 | Hugging Face链接 |
---|---|
prithivMLmods/Qwen2-VL-OCR-2B-Instruct | Qwen2-VL-OCR-2B-Instruct |
prithivMLmods/visionOCR-3B-061125 | visionOCR-3B-061125 |
查询输入:对图像进行OCR
测试样本 1
模型 | OCR 输出 |
---|---|
visionOCR-3B-061125 | Ampad® 你喜欢手写和书法,也许你想在你的博客图形中加入你的手写字,或者你只是想能够发出一张看起来像成年人写的手写便条。 但你的字写得不太好看。事实上,可能简直是糟糕透顶。在字迹不佳的类别中,你绝对不是唯一一个。我日常的手写字是歪歪扭扭不整齐的,而且我很难看懂。好消息是?你可以通过练习快速提高你的字迹! |
Qwen2-VL-OCR-2B-Instruct | 你喜欢手写和书法。也许你想在你的博客图形中加入你的手写字,或者你只是想能够发出一张看起来像成年人写的手写便条。看起来像成年人写的。 但你的字写得不太好看。事实上,可能简直是糟糕透顶。在字迹不佳的类别中,你绝对不是唯一一个。我日常的手写字是歪歪扭扭不整齐的,而且我很难看懂。好消息是?你可以通过练习快速提高你的字迹! |
测试样本 2
模型 | OCR 输出 |
---|---|
visionOCR-3B-061125 | 雪人每天都感到积极。雪人给自己做了一只大而蓬松的狗。雪人对自己的帽子和围巾很满意。他感到高兴,并给你一个拥抱。他住在一个孤独的冰屋里。然后他变得非常暴躁。 |
Qwen2-VL-OCR-2B-Instruct | 雪人每天都感到积极,雪人给自己做了一只大而蓬松的狗。雪人对自己的帽子和围巾很满意。他感到高兴,并给你一个拥抱。他住在一个孤独的冰屋里。他非常暴躁。 |
测试样本 3
模型 | OCR 输出 |
---|---|
visionOCR-3B-061125 | <br>备注 1<br><br>此备注是为<br>那位优秀的女士准备的,<br>你应该更好地与她交谈。<br> |
Qwen2-VL-OCR-2B-Instruct | 备注 1 请每天服用这些药片三次,你会感觉好很多。 |
测试样本 4
模型 | OCR 输出 |
---|---|
visionOCR-3B-061125 | 四千种不同的野花 它们多么美丽啊!花卉的奇妙之处在于它们是美丽的;除了花的功能,它们还额外地可爱。为什么它们美丽呢?因为造物主是一位艺术家;此外,在创造生命所需和有用的事物时,他使它们变得美丽——而它们在此正是为了看看它们有多美丽! 除非你仔细观察它们,否则你不知道花朵能有多美丽。你有没有摘过随处可见的白色野荨麻花,然后把它倒过来,看到黑色和黄色花药与花头白色形成的图案?或者你有没有摘过野生罂粟的绿色花蕾,就在红色开始显露的时候,然后打开它并解开罂粟? |
Qwen2-VL-OCR-2B-Instruct | 四千种不同的野花 它们多么美丽啊!花卉的奇妙之处在于它们是美丽的;除了花的功能,它们还额外地可爱。为什么它们美丽呢?因为造物主是一位艺术家;此外,在创造生命所需和有用的事物时,他使它们变得美丽——而它们在此正是为了看看它们有多美丽! 除非你仔细观察它们,否则你不知道花朵能有多美丽。你有没有摘过随处可见的白色野荨麻花,然后把它倒过来,看到黑色和黄色花药与花头白色形成的图案?或者你有没有摘过野生罂粟的绿色花蕾,就在红色开始显露的时候,然后打开它并解开罂粟? |
测试样本 5
模型 | OCR 输出 |
---|---|
visionOCR-3B-061125 | 世界观类型 - 必经场景 1. 原始创伤 2. 以成熟或幻灭告终 3. 他们的世界观受到挑战 - 暗示可以摆脱原始创伤或他们所承受的痛苦 4. 最初致力于错误的事情,但这与她需要学习的完全相反 - 也呈现给他们需要的东西,但他们为了自己想要的东西而拒绝 5. 忽视真相, clinging to 过时的信念 6. 主人公再也无法逃避真相(高潮)- 与原始创伤的内心冲突 7. 拥抱真相场景 - 开始追求你需要的东西 8. 他们的纯真失去得到了回报(新开始,生活充满活力) 她沉迷于成就,与其他人竞争 我必须离开这里 她独自一人试图回家 谁给她施加了成为一个成功者的压力 - 完美主义作为失去父亲后的应对机制 |
Qwen2-VL-OCR-2B-Instruct | 世界观类型 - 必经场景 1. 原始创伤 2. 以成熟或幻灭告终 3. 他们的世界观受到挑战 - 暗示可以摆脱原始创伤或他们所承受的痛苦 4. 最初致力于错误的事情,但这与她需要学习的完全相反 - 也呈现给他们需要的东西,但他们为了自己想要的东西而拒绝 5. 忽视真相, clinging to 过时的信念 6. 主人公再也无法逃避真相(高潮)- 与原始创伤的内心冲突 7. 拥抱真相场景 - 开始追求你需要的东西 8. 他们的纯真失去得到了回报(新开始,生活充满活力) 她沉迷于成就,与所有人竞争 - “我必须离开这里” 她独自一人试图回家 谁给汉娜施加了成为一个成功者的压力 - 完美主义作为失去父亲的应对机制 |
测试样本 6
模型 | OCR 输出 |
---|---|
visionOCR-3B-061125 | 致马龙·曼森——从我感觉上帝能触及我的地方走到那里,我花了好长时间。曼森现在有了一张牌。你也许可以看看我的更多利润A.T.W. 给我曼森你认为他应得的空中之树水。否则我将支付曼森你让曼森成为阿达卡克斯直系。我确信你不会想要我从某个大门得到的一些东西。这是一个辐射平衡。看好坏对错。你没做的,将要做的,你边唱边做的,让它顺其自然,然后说你省了我很多步骤。我不需要它,我需要几对。幽灵舞者一起杀戮。你的贾斯汀,我的宏伟阳光中暑冕冕冕。你从头到尾都看到了我,站在我的垃圾THOKS上,和CMF 000007一样。 |
Qwen2-VL-OCR-2B-Instruct | 致马肯·曼森——我花了很长时间才从我能接触M.曼森的地方走到那里,现在我有一张牌可以打——你或许可以看看我的更多利润“空中TWA”+给曼森你认为他应得的空中、树木、水,+你。否则我将支付曼森你认为曼森应得的反击——音乐已将曼森塑造成亚伯拉罕·迪文+我确信你不会想要我从我得到的东西中得到一些。这是一个辐射平衡&看!好+坏对错——我将做你所做的,一路唱着歌,让它顺其自然+说你为我省去了很多麻烦——老旧的不需要它的帽子&需要的是贾斯汀在我的坟墓阳光中暑冠-冠-冠——你站在报告上,那就是翻斗车——和CMF 000007做着同样的事情。 |
测试样本 7
模型 | OCR 输出 |
---|---|
visionOCR-3B-061125 | 我经常在上面提到的帖子里发帖。虽然我的字迹远不如其他一些发帖者整洁,但你不应该为凌乱的字迹感到尴尬。 这对我来说已经是最整洁的了。通常,我的字迹看起来就像一只乌鸦踩着墨水池,在纸上走过时摔了一跤。如果你不喜欢你的手写字,就打印出来吧。 |
Qwen2-VL-OCR-2B-Instruct | 我经常在上面提到的帖子中发帖。虽然我的草书远不如其他一些发帖者整洁,但你不应该为凌乱的字迹感到尴尬。 这对我来说已经是最整洁的了。通常,我的字迹看起来就像一只乌鸦踩着墨水池,在纸上走过时摔了一跤。如果你不喜欢你的手写字,就打印出来吧。 |
测试样本 8
模型 | OCR 输出 |
---|---|
visionOCR-3B-061125 | 3/18的策划者 小众领域 YouTube 频道关于 - 生产力产品评测 - 如何提高生产力 - 以及你传达信息的声音! 代发货 - 投资虚拟助手是必须的! - 在发布前获得他人评论能让你了解目标受众。 - 把它当作一份真正的工作对待! 杂项(生活、金钱、爱情) - 有时候,在实现财务自由的同时保留一份工作是最好的。 - 仍有财务安全感…… 金钱 - 对任何事物的投资程度决定了你的认真程度。 - 例如:29美元的代发货课程 vs. 1500美元的课程。 - 29美元 = 投入不多。 - 1500美元 = 虚拟助手费用。 - 对目标认真。 - 失败表明什么行不通,并最终导向成功。 - 同伴心态意味着炫耀金钱。富人思维意味着让钱生钱。 - 拒绝可以提示你一次只专注于一个目标。 - 没有什么是绝对的。 - 找到平衡,不要让工作吞噬你作为一个人! 爱情 |
Qwen2-VL-OCR-2B-Instruct | 3/18的策划者 尼克 生产力 YouTube 频道关于 面向 生产力产品评论 如何提高生产力 为信息找到你的声音! 代发货 投资虚拟助手是必须的! 在发布前获得他人评论能让你了解目标受众! 把它当作一份真正的工作对待! 杂项(生活、金钱、爱情) 有时候,在实现财务自由的同时保留一份工作是最好的。 仍有财务安全感 |
测试样本 9
模型 | OCR 输出 |
---|---|
visionOCR-3B-061125 | 之前(8岁4个月) 我叫瑞安。我8岁。我在阿尔弗雷德国王学校上学。我的老师是罗科。我住在伦敦。我爸爸46岁,妈妈43岁。 之后 有一天,有一个叫杰克的男孩。他和他妈妈住在一起。他们非常贫穷,他们有一头奶牛。于是杰克去了村庄,路上杰克看到一个人。他有四颗魔法豆。那人说:“如果你把那头奶牛给我,我就给你四颗魔法豆。” 好的。当他回到家时,他妈妈对他非常生气,她把豆子扔出了窗外。第二天,当杰克醒来时,他看向窗外,看到了一根六个普通豆茎。于是他下楼爬了上去…… |
Qwen2-VL-OCR-2B-Instruct | 之前 [结束] |
测试样本 10
模型 | OCR 输出 |
---|---|
visionOCR-3B-061125 | 英国于1947年8月15日给予印度独立。印度人民以极大的喜悦庆祝独立日。1月26日是印度的共和国日。独立日和共和国日被视为全国性节日,我们在这些天放假。 |
Qwen2-VL-OCR-2B-Instruct | 英国于1947年8月15日给予印度独立。印度人民以极大的喜悦庆祝独立日。1月26日是印度的共和国日。独立日和共和国日被视为全国性节日,我们在这几天放假。 |
结论
本次实验评估凸显了 visionOCR-3B-061125 和 Qwen2-VL-OCR-2B-Instruct 在处理各种程度的凌乱手写体方面的有效性。在所有测试样本中,visionOCR-3B-061125 始终表现出
- 在保留句子结构和语法方面更高的准确性
- 对细微或结构不佳的字符有更好的识别能力
- 在提取较长或复杂手写段落时具有更高的一致性
尽管 Qwen2-VL-OCR-2B-Instruct 在较简单和清晰的样本上表现良好,但它在以下方面表现不佳:
- 在较密集段落中部分或不完整的文本提取
- 频繁的拼写和结构错误
- 对不常见或艺术化字母形式的误解
总的来说,基于 Qwen2.5-VL-3B-Instruct 构建的 visionOCR-3B-061125 被证明是一种更精确、更强大的凌乱手写识别模型。它更适合手写风格和清晰度可能差异很大的实际 OCR 应用。