开放金融大语言模型(Open FinLLM)排行榜发布

发布于 2024 年 10 月 4 日
在 GitHub 上更新

寻找适用于金融用例的最佳大语言模型(LLM)

金融语言模型(LLM)日益复杂,因此需要超越通用自然语言处理(NLP)基准的评估。虽然传统的排行榜侧重于更广泛的NLP任务,如翻译或摘要,但它们往往无法满足金融行业的特定需求。金融任务,如预测股票走势、评估信用风险和从财务报告中提取信息,提出了独特的挑战,需要具有专门技能的模型。这就是我们决定创建开放金融大语言模型(Open FinLLM)排行榜的原因。

排行榜提供了专门为金融行业量身定制的专业评估框架。我们希望它能填补这一关键空白,通过提供一个透明的框架,通过一站式解决方案评估模型在实际使用中的准备情况。排行榜旨在通过关注对金融专业人士最重要的任务(例如从财务文档中提取信息、市场情绪分析和预测金融趋势)来突出模型的金融技能

  • 全面的金融任务覆盖: 排行榜仅根据与金融直接相关的任务来评估模型。这些任务包括信息提取情感分析信用风险评分股票走势预测,这些对实际金融决策至关重要。
  • 实际金融相关性: 用于基准测试的数据集代表了金融行业面临的实际挑战。这确保了模型实际上是根据其处理复杂金融数据的能力进行评估的,使其适用于行业应用。
  • 专注的零样本评估: 排行榜采用零样本评估方法,在不进行任何预先微调的情况下,对模型进行未见过的金融任务测试。这种方法揭示了模型在金融语境下进行泛化和良好表现的能力,例如预测股票价格走势或从监管文件中提取实体,而无需专门针对这些任务进行训练。

开放金融大语言模型(Open Financial LLM)排行榜主要特性

  • 多样化的任务类别: 排行榜涵盖七个类别的任务:信息提取 (IE)、文本分析 (TA)、问答 (QA)、文本生成 (TG)、风险管理 (RM)、预测 (FO) 和决策 (DM)。
  • 评估指标: 模型使用多种指标进行评估,包括准确率 (Accuracy)、F1 分数 (F1 Score)、ROUGE 分数 (ROUGE Score) 和马修斯相关系数 (Matthews Correlation Coefficient, MCC)。这些指标提供了模型性能的多维度视图,帮助用户识别每个模型的优缺点。

支持的任务和指标

开放金融大语言模型(Open Financial LLM Leaderboard,OFLL)评估金融语言模型在反映金融行业复杂需求的多样化类别中的表现。每个类别都针对特定的能力,确保对模型在与金融直接相关的任务中的表现进行全面评估。

类别

OFLL 中任务类别的选择旨在捕捉金融模型所需的全方位能力。这种方法受到金融应用的多样性和金融语言处理任务复杂性的影响。

  • 信息提取(IE): 金融部门通常需要从非结构化文档中获取结构化洞察,例如监管备案、合同和收益报告。信息提取任务包括命名实体识别(NER)关系提取因果分类。这些任务评估模型识别关键金融实体、关系和事件的能力,这对于欺诈检测或投资策略等下游应用至关重要。
  • 文本分析(TA): 金融市场受到情绪、观点以及对金融新闻和报告的解读的驱动。文本分析任务,如情绪分析新闻分类鹰派-鸽派分类,有助于评估模型解释市场情绪和文本数据的能力,从而辅助投资者情绪分析和政策解读等任务。
  • 问答(QA): 此类别涉及模型解释复杂金融查询的能力,特别是那些涉及数字推理或领域特定知识的查询。问答任务,例如源自 FinQATATQA 等数据集的任务,评估模型响应详细金融问题的能力,这在风险分析或金融咨询服务等领域至关重要。
  • 文本生成(TG): 复杂财务报告和文件的摘要对于决策至关重要。ECTSumEDTSum 等任务测试模型从冗长的金融文本中生成简洁连贯摘要的能力,这在生成报告或分析师简报中很有价值。
  • 预测(FO): 金融领域最关键的应用之一是预测市场走势的能力。此类别下的任务评估模型根据历史数据、新闻和情绪预测股票价格走势或市场趋势的能力。这些任务是投资组合管理和交易策略等任务的核心。
  • 风险管理(RM): 此类别侧重于评估模型预测和评估金融风险的能力,例如信用评分欺诈检测财务困境识别。这些任务是信用评估、风险管理和合规目的的基础。
  • 决策(DM): 在金融领域,根据多种输入(例如,市场数据、情绪和历史趋势)做出明智决策至关重要。决策任务模拟复杂的金融决策,例如兼并与收购股票交易,测试模型处理多模态输入并提供可操作见解的能力。

指标

  • F1 分数,即精确率和召回率的调和平均值,提供了均衡的评估,在数据集存在类别不平衡时尤为重要。这两个指标都是分类任务的标准,共同提供了模型辨别金融语言中情绪的全面视图。
  • 准确率衡量正确分类实例占所有实例的比例,提供了对整体性能的直接评估。
  • 均方根误差(RMSE)提供了预测情绪分数与实际情绪分数之间平均偏差的衡量,提供了模型预测准确性的定量洞察。
  • 实体 F1 分数 (EntityF1)。此指标专门评估识别实体的精确率和召回率之间的平衡,清晰地展现了模型在识别相关金融实体方面的有效性。高 EntityF1 表示模型在检测实体和最大程度地减少误报方面表现出色,使其成为金融数据分析和自动化应用的重要衡量标准。
  • 精确匹配准确率(EmAcc)衡量模型答案与真实情况完全匹配的问题比例,清晰地指示了模型在理解和处理金融背景下数值信息的有效性。高 EmAcc 反映了模型提供精确可靠答案的能力,这对于依赖准确金融数据解读的应用至关重要。
  • ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 是一组用于通过将摘要与参考摘要进行比较来评估摘要质量的指标。它侧重于生成摘要与参考摘要之间的 n-gram 重叠,提供了内容覆盖率和忠实度的衡量。
  • BERTScore 利用 BERT 模型的上下文嵌入来评估生成摘要与参考摘要之间的相似性。通过比较每个 token 嵌入的余弦相似度,BERTScore 捕捉了语义相似性,从而可以更细致地评估摘要质量。
  • BARTScore 基于 BART(双向和自回归转换器)模型,该模型结合了自回归和自编码文本生成方法的优点。它评估生成的摘要在连贯性和流畅性方面与参考摘要的对齐程度,提供了对提取过程整体质量的洞察。
  • Matthews 相关系数 (MCC) 考虑了真阳性、假阳性、真阴性和假阴性,从而提供了模型在二元分类背景下的有效性洞察。这些指标共同确保了对模型在股票走势预测这一挑战性领域中的预测能力的全面评估。
  • 夏普比率 (SR)。 夏普比率衡量模型经风险调整后的收益,提供了关于模型交易策略相对于所承担风险水平的表现的洞察。较高的夏普比率表明每单位风险的收益更有利,使其成为衡量模型生成的交易策略有效性和效率的关键指标。此指标使用户能够衡量模型在各种市场条件下的整体盈利能力和稳健性。

单个任务

我们在此排行榜上使用了 40 个任务,涵盖以下类别:

  • 信息提取 (IE):NER、FiNER-ORD、FinRED、SC、CD、FNXL、FSRL
  • 文本分析 (TA):FPB、FiQA-SA、TSA、Headlines、FOMC、FinArg-ACC、FinArg-ARC、MultiFin、MA、MLESG
  • 问答 (QA):FinQA、TATQA、Regulations、ConvFinQA
  • 文本生成 (TG):ECTSum、EDTSum
  • 风险管理 (RM):German、Australian、LendingClub、ccf、ccfraud、polish、taiwan、ProtoSeguro、travelinsurance
  • 预测 (FO):BigData22、ACL18、CIKM18
  • 决策 (DM):FinTrade
  • 西班牙语:MultiFin-ES、EFP、EFPA、FinanceES、TSA-Spanish
点击此处查看每个任务的简要说明
  1. **FPB(金融短语银行情绪分类) **
    描述: 对金融新闻和报告中的短语进行情感分析,将其分为积极、消极或中性类别。
    指标: 准确率、F1 分数

  2. FiQA-SA(金融领域情绪分析)
    描述: 对金融媒体(新闻、社交媒体)中的情绪进行分析。将情绪分为积极、消极和中性,有助于市场情绪解读。
    指标: F1 分数

  3. TSA(社交媒体情绪分析)
    描述: 对金融推文进行情感分类,反映公众对市场趋势的看法。挑战包括非正式语言和简洁性。指标: F1 分数、RMSE

  4. Headlines(新闻标题分类)
    描述: 将金融新闻标题分类为情绪或事件类别。对于理解市场动向信息至关重要。
    指标: 平均 F1 分数

  5. FOMC(鹰派-鸽派分类)
    描述: 将 FOMC 声明分类为鹰派(倾向于提高利率以抑制通货膨胀)或鸽派(倾向于降低利率以刺激经济增长),这是货币政策预测的关键。
    指标: F1 分数、准确率

  6. FinArg-ACC(论证单位分类)
    描述: 识别金融文本中的关键论证单位(主张、证据),这对于自动化文档分析和透明度至关重要。
    指标: F1 分数、准确率

  7. FinArg-ARC(论证关系分类)
    描述: 对金融文档中论证单位之间的关系(支持、反对)进行分类,帮助分析师构建连贯的叙述。
    指标: F1 分数、准确率

  8. MultiFin(多类别情绪分析)
    描述: 将不同的金融文本分类为情绪类别(看涨、看跌、中性),对情绪驱动型交易很有价值。
    指标: F1 分数、准确率

  9. MA(交易完成分类)
    描述: 将兼并和收购报告分类为已完成、待定或已终止。对于投资和战略决策至关重要。
    指标: F1 分数、准确率

  10. MLESG(ESG 问题识别)
    描述: 识别金融文档中的环境、社会和治理 (ESG) 问题,这对负责任的投资很重要。
    指标: F1 分数、准确率

  11. NER(金融文本中的命名实体识别)
    描述: 识别和分类金融文档中的实体(公司、金融工具),这对于信息提取至关重要。
    指标: 实体 F1 分数

  12. FINER-ORD(金融 NER 中的序数分类)
    描述: 通过分类金融文档中实体的重要性来扩展 NER,有助于优先处理关键信息。
    指标: 实体 F1 分数

  13. FinRED(金融关系提取)
    描述: 从金融文本中提取实体(所有权、收购)之间的关系,支持知识图谱构建。
    指标: F1 分数、实体 F1 分数

  14. SC(因果分类)
    描述: 对金融文本中的因果关系(例如,“X 导致 Y”)进行分类,有助于市场风险评估。
    指标: F1 分数、实体 F1 分数

  15. CD(因果检测)
    描述: 检测金融文本中的因果关系,有助于风险分析和投资策略。
    指标: F1 分数、实体 F1 分数

  16. FinQA(金融中的数值问答)
    描述: 回答金融文档(例如资产负债表)中的数值问题,这对于自动化报告和分析至关重要。
    指标: 精确匹配准确率(EmAcc)

  17. TATQA(基于表格的问答)
    描述: 从财务表格(资产负债表、损益表)中提取信息,回答需要数值推理的查询。
    指标: F1 分数、EmAcc

  18. ConvFinQA(金融中的多轮问答)
    描述: 处理金融问答中的多轮对话,在整个对话过程中保持上下文。
    指标: EmAcc

  19. FNXL(数值标注)
    描述: 标注金融文档中的数值(例如,收入、费用),有助于金融数据提取。
    指标: F1 分数、EmAcc

  20. FSRL(财务报表关系链接)
    描述: 链接财务报表中的相关信息(例如,损益表中的收入与现金流量数据)。
    指标: F1 分数、EmAcc

  21. EDTSUM(抽取式文档摘要)
    描述: 摘要长篇金融文档,提取关键信息以供决策。
    指标: ROUGE、BERTScore、BARTScore

  22. ECTSUM(抽取式内容摘要)
    描述: 摘要金融内容,从大量文本中提取关键句子或短语。
    指标: ROUGE、BERTScore、BARTScore

  23. BigData22(股票走势预测)
    描述: 根据金融新闻预测股票价格走势,利用文本数据预测市场趋势。
    指标: 准确率、MCC

  24. ACL18(基于金融新闻的股票预测)
    描述: 从新闻文章中预测股票价格走势,解读情绪和事件进行短期预测。
    指标: 准确率、MCC

  25. CIKM18(使用新闻进行金融市场预测)
    描述: 从金融新闻中预测更广泛的市场走势(指数),综合信息进行市场趋势预测。
    指标: 准确率、MCC

  26. German(德国信用评分)
    描述: 预测德国贷款申请人的信用worthiness,这对于负责任的贷款和风险管理很重要。
    指标: F1 分数、MCC

  27. Australian(澳大利亚信用评分)
    描述: 预测澳大利亚市场的信用worthiness,考虑当地经济状况。
    指标: F1 分数、MCC

  28. LendingClub(点对点贷款风险预测)
    描述: 预测点对点贷款的违约风险,帮助贷方管理风险。
    指标: F1 分数、MCC

  29. ccf(信用卡欺诈检测)
    描述: 识别欺诈性信用卡交易,确保金融安全和欺诈预防。
    指标: F1 分数、MCC

  30. ccfraud(信用卡交易欺诈检测)
    描述: 检测信用卡交易中指示欺诈的异常情况,同时处理不平衡数据集。
    指标: F1 分数、MCC

  31. Polish(波兰信用风险预测)
    描述: 预测波兰贷款申请人的信用风险,评估与当地经济状况相关的因素。
    指标: F1 分数、MCC

  32. Taiwan(台湾信用风险预测)
    描述: 预测台湾市场的信用风险,帮助贷方管理当地环境中的风险。
    指标: F1 分数、MCC

  33. [Portoseguro(巴西索赔分析)](https://huggingface.co/datasets/TheFinAI/en-forecasting-portosegur
    描述: 预测巴西保险索赔的结果,重点关注汽车保险索赔。
    指标: F1 分数、MCC

  34. [Travel Insurance(索赔预测)](https://huggingface.co/datasets/TheFinA
    描述: 预测旅行保险索赔的可能性,帮助保险公司管理定价和风险。
    指标: F1 分数、MCC

  35. MultiFin-ES(西班牙语情绪分析)
    描述: 对西班牙语金融文本中的情绪进行分类(看涨、看跌、中性)。
    指标: F1 分数

  36. EFP(西班牙语金融短语分类)
    描述: 对西班牙语金融短语中的情绪或意图进行分类(积极、消极、中性)。
    指标: F1 分数

  37. EFPA(西班牙语论证分类)
    描述: 识别西班牙语金融文本中的主张、证据和反驳。
    指标: F1 分数

  38. FinanceES(西班牙语情绪分类)
    描述: 对西班牙语金融文档中的情绪进行分类,理解语言细微差别。
    指标: F1 分数

  39. TSA-Spanish(西班牙语情绪分析推文)
    描述: 对西班牙语推文进行情绪分析,解读实时市场讨论中的非正式语言。
    指标: F1 分数

  40. FinTrade(股票交易模拟)
    描述: 评估模型在股票交易模拟中的表现,分析历史股票价格和金融新闻以优化交易结果。
    指标: 夏普比率(SR)

点击此处查看每个任务的详细说明

本节将更详细地介绍每个类别中的每个任务,解释具体的数据集、评估指标和金融相关性。

  1. FPB(金融短语库情感分类)

    • 任务描述。 在此任务中,我们评估语言模型对金融文本进行情感分析的能力。我们采用金融短语库数据集1,该数据集包含从金融新闻文章和报告中提取的带注释短语。每个短语都标记为以下三种情感类别之一:积极、消极或中性。该数据集提供了对金融语境中表达的情感的细致理解,使其对于市场情感分析和自动化交易策略等应用至关重要。主要目标是根据其情感准确分类每个金融短语。此任务中使用的输入、输出示例和提示模板详见附录中的表5和表8。
    • 指标。 准确率、F1 分数。
  2. FiQA-SA(FiQA 金融领域情感分析)

    • 任务描述。 FiQA-SA 任务评估语言模型在金融领域进行情感分析的能力,特别侧重于源自 FiQA 数据集的数据。该数据集包含各种媒体(包括新闻文章、金融报告和社交媒体帖子)的金融文本集合。该任务的主要目标是将这些文本中表达的情感分类为不同的类别,例如积极、消极和中性。这种分类对于理解市场情绪至关重要,因为它可以直接影响投资决策和策略。FiQA-SA 任务在当今快节奏的金融环境中尤其相关,其中情感的解释可以导致及时和明智的决策。
    • 指标。 F1 分数。
  3. TSA(社交媒体情绪分析)

    • 任务描述。 TSA 任务侧重于评估模型对与金融市场相关的推文进行情感分析的能力。该任务利用由社交媒体帖子组成的数据集,旨在将情感分类为积极、消极或中性。社交媒体的动态特性使其成为实时情感数据的丰富来源,反映了公众对市场趋势、公司新闻和经济事件的看法。TSA 数据集包含各种推文,其中包含与金融主题相关的各种情感表达,从股票表现到宏观经济指标。鉴于推文的简洁和非正式性质,该任务在准确解释情感方面提出了独特的挑战,因为上下文和细微之处会显著影响含义。因此,有效的模型必须表现出对非正式语言、俚语和社交媒体平台上常用情感指标的强大理解和分析能力。
    • 指标。 F1 分数、RMSE。RMSE 提供了预测情感分数与实际情感分数之间平均偏差的衡量,提供了模型预测准确性的定量洞察。
  4. Headlines(新闻标题分类)

    • 任务描述。 Headlines 任务涉及将金融新闻标题分类为各种类别,反映不同的金融事件或情感类别。该数据集包含从知名金融新闻机构获取的丰富标题集合,涵盖从公司收益报告到市场预测的广泛主题。此任务的主要目标是评估模型准确解释和分类简短、上下文丰富的文本片段的能力,这些片段通常会推动市场波动。鉴于标题的简洁性,分类任务要求模型快速掌握每个标题的潜在情感和相关性,这会显著影响投资者行为和市场情绪。
    • 指标。 平均 F1 分数 (AvgF1)。此指标提供了精确率和召回率的平衡衡量,允许细致地理解模型在分类标题方面的表现。高 AvgF1 表示模型有效地识别和分类标题中反映的情感和事件,使其成为评估其在实际金融环境中适用性的关键指标。
  5. FOMC(鹰派-鸽派分类)

    • 任务描述。 FOMC 任务评估模型将联邦公开市场委员会 (FOMC) 会议记录中的声明分类为鹰派或鸽派的能力。鹰派声明通常表示倾向于提高利率以抑制通货膨胀,而鸽派声明则表示侧重于降低利率以刺激经济增长。这种分类对于理解可能影响金融市场和投资策略的货币政策信号至关重要。该数据集包含 FOMC 会议中的一系列声明,提供了对美联储关于经济状况、通货膨胀和就业立场的洞察。准确分类这些声明使分析师和投资者能够预测市场反应并相应调整其策略,使该任务在金融决策背景下高度相关。
    • 指标。 F1 分数和准确率。
  6. FinArg-ACC(金融论证单元分类)

    • 任务描述。 FinArg-ACC 任务侧重于对金融文档中的论证单元进行分类,旨在识别关键组成部分,如主要论点、支持证据和反驳。该数据集包含各种金融文本,包括研究报告、投资分析和监管备案。主要目标是评估模型将复杂金融叙事分解为不同论证单元的能力,这对于自动化金融文档分析至关重要。该任务在监管审查日益严格以及金融通信透明度需求日益增长的背景下尤其相关,其中理解论证结构有助于合规和风险管理。
    • 指标。 F1 分数、准确率。
  7. FinArg-ARC(金融论证关系分类)

    • 任务描述。 FinArg-ARC 任务侧重于分类金融文本中不同论证单元之间的关系。这包括识别各种主张、证据和反驳如何相互关联,例如支持、反对或中立。该数据集包含带注释的金融文档,这些文档突出了论证结构,使模型能够学习金融论述的细微差别。理解这些关系对于从零散数据中构建连贯的叙述和分析至关重要,这可以帮助金融分析师、投资者和研究人员从复杂信息中获取有意义的见解。鉴于金融论证的复杂性质,有效的模型必须在辨别意义和上下文的细微差别方面表现出熟练程度,这对于准确分类至关重要。
    • 指标。 F1 分数、准确率
  8. MultiFin(多类别金融情感分析)

    • 任务描述。 MultiFin 任务侧重于将各种金融文本中表达的情感分类为多个类别,例如看涨、看跌或中性。该数据集包含各种金融文档,从报告和文章到社交媒体帖子,提供了不同来源和背景下情感的全面视图。该任务的主要目标是评估模型准确识别和分类影响市场行为和投资者决策的情感的能力。模型必须表现出对金融讨论中固有的上下文线索和不同语气的强大理解。MultiFin 任务对于情感驱动型交易策略和市场分析中的应用特别有价值,其中精确的情感分类可以带来更明智的投资选择。
    • 指标。 F1 分数、准确率。
  9. MA(交易完成分类)

    • 任务描述
      MA 任务侧重于对兼并和收购 (M&A) 报告进行分类,以确定交易是否已完成。该数据集包含从金融新闻文章、新闻稿和公司备案中获取的各种 M&A 公告。主要目标是根据报告中提供的信息准确识别每笔交易的状态——分类为已完成、待定或已终止。这种分类对于投资分析师和金融机构至关重要,因为了解 M&A 交易的完成状态可以显著影响投资策略和市场反应。模型必须表现出对 M&A 格局的强大理解以及根据通常复杂且不断变化的叙述准确分类交易状态的能力。
    • 指标
      F1 分数,准确率。
  10. MLESG(ESG 问题识别)

    • 任务描述
      MLESG 任务侧重于识别金融文本中的环境、社会和治理 (ESG) 问题。该数据集专门设计用于捕获各种文本,包括公司报告、新闻文章和监管备案,这些文本讨论 ESG 主题。该任务的主要目标是评估模型准确分类和归类 ESG 相关内容的能力,这在当今的投资格局中变得越来越重要。模型的任务是检测特定的 ESG 问题,例如气候变化影响、社会正义倡议或公司治理实践。模型必须对这些语境中使用的语言有深入的理解,以及辨别意义和意图的细微差别的能力。
    • 指标
      F1 分数,准确率。
  11. NER(金融文本中的命名实体识别)

    • 任务描述
      NER 任务侧重于识别和分类金融文档中的命名实体,例如公司、金融工具和个人。此任务利用包含各种金融文本的数据集,包括监管备案、收益报告和新闻文章。主要目标是准确识别与金融领域相关的实体并对其进行适当分类,这对于信息提取和分析至关重要。有效的命名实体识别增强了金融分析过程的自动化,使利益相关者能够快速从大量非结构化文本中获取洞察。
    • 指标
      实体 F1 分数 (EntityF1)。
  12. FINER-ORD(金融 NER 中的序数分类)

    • 任务描述
      FINER-ORD 任务侧重于通过要求模型不仅按类型而且按其在金融文本中的序数相关性对实体进行分类来扩展标准命名实体识别(NER)。该数据集包含一系列金融文档,其中包括报告、文章和监管备案,其中实体(例如公司、金融工具和事件)都带有一个额外的分类层,反映了它们的重要性或优先级。主要目标是评估模型根据周围文本的上下文辨别和分类实体的能力。例如,模型可能会将主要实体(例如一家大型公司)识别为比同一文档中提到的次要实体(例如一家小型竞争对手)具有更高的相关性。此功能对于信息优先级排序和提高自动化金融分析的效率至关重要,因为区分不同级别的重要性可以显著影响决策过程。
    • 指标
      实体 F1 分数 (EntityF1)。
  13. FinRED(从文本中提取金融关系)

    • 任务描述
      FinRED 任务侧重于提取文本数据中提及的金融实体之间的关系。此任务利用包含各种金融文档的数据集,例如新闻文章、报告和监管备案。主要目标是识别和分类各种实体(例如公司、金融工具和利益相关者)之间的关系,例如所有权、收购和合作关系。准确提取这些关系对于构建全面的知识图谱和促进深入的金融分析至关重要。挑战在于准确解释上下文,因为这些关系通常涉及细致的语言和隐性联系,这需要对金融术语有复杂的理解。
    • 指标
      F1 分数、实体 F1 分数 (EntityF1)。
  14. SC(金融领域因果分类任务)

    • 任务描述
      SC 任务侧重于评估语言模型对金融文本中的因果关系进行分类的能力。这涉及识别一个事件是否导致另一个事件,这对于理解金融市场中的动态至关重要。用于此任务的数据集包含各种金融文档,包括报告、文章和监管备案,其中因果语言通常嵌入其中。通过检查表达因果关系短语(例如“由于”、“导致”或“导致”)的模型必须准确确定金融事件、趋势或现象之间的因果关系。此任务与风险评估、投资策略制定和决策过程特别相关,因为理解因果关系可以显著影响市场状况和预测的评估。
    • 指标
      F1 分数、实体 F1 分数 (EntityF1)。
  15. CD(因果检测)

    • 任务描述
      CD 任务侧重于检测各种金融文本中的因果关系,包括报告、新闻文章和社交媒体帖子。此任务评估模型识别一个事件影响或导致另一个事件的能力,这对于理解金融市场中的动态至关重要。该数据集包含明确突出因果链接的带注释示例,使模型能够从各种上下文和因果表达中学习。检测因果关系对于风险评估至关重要,因为它有助于分析师了解事件对市场行为、投资策略和决策过程的潜在影响。模型必须驾驭文本中的细微差别和微妙之处,以准确辨别因果关系。
    • 指标
      F1 分数、实体 F1 分数 (EntityF1)。
  16. FinQA(金融中的数值问答)

    • 任务描述
      FinQA 任务评估模型根据金融文档(例如资产负债表、损益表和财务报告)回答数值问题的能力。该数据集包含各种问题,这些问题不仅需要理解文本,还需要准确提取和处理数值数据。主要目标是评估模型解释复杂金融信息和执行必要计算以得出答案的能力。FinQA 任务与金融分析、投资决策和自动化报告中的应用特别相关,其中精确的数值响应对于利益相关者至关重要。
    • 指标
      精确匹配准确率(EmAcc)
  17. TATQA(金融文档中基于表格的问答)

    • 任务描述
      TATQA 任务侧重于评估模型回答需要解释和提取金融文档中表格信息的问答的能力。该数据集专门设计用于包含各种金融表格,例如资产负债表、损益表和现金流量表,每个表格都包含对金融分析至关重要的结构化数据。此任务的主要目标是评估模型在这些表格中导航以提供对通常需要数值推理或领域特定知识的问题的准确和相关答案的能力。模型必须表现出不仅能够找到正确数据,而且能够理解金融分析上下文中不同数据点之间关系的能力。
    • 指标
      F1 分数,精确匹配准确率 (EmAcc)。
  18. ConvFinQA(金融中的多轮问答)

    • 任务描述
      ConvFinQA 任务侧重于评估模型在金融领域处理多轮问答的能力。此任务模拟金融分析师进行对话的真实场景,他们提出一系列相关问题,这些问题建立在之前的答案之上。该数据集包含反映金融数据、市场趋势和经济指标常见查询的对话,要求模型在整个对话过程中保持上下文和连贯性。主要目标是评估模型解释和准确响应多轮查询的能力,确保它能够随着对话的进展提供相关和精确的信息。此任务在金融咨询环境中特别相关,分析师必须从复杂数据集中提取洞察,同时与客户或利益相关者互动。
    • 指标
      精确匹配准确率(EmAcc)。
  19. FNXL(金融文本中的数值标注)

    • 任务描述
      FNXL 任务侧重于金融文档中数值的识别和分类。这涉及根据其类型(例如,收入、利润、费用)及其在文本上下文中的相关性来标注数字。用于此任务的数据集包含各种金融报告、报表和分析,呈现了对理解财务业绩至关重要的各种数值表达式。准确的数值标注对于自动化金融分析和确保关键数据点易于访问以供决策至关重要。模型必须表现出强大的解析上下文和语义能力,以准确分类数值信息,从而提高金融数据处理的效率。
    • 指标
      F1 分数,精确匹配准确率 (EmAcc)。
  20. FSRL(财务报表关系链接)

    • 任务描述
      FSRL 任务侧重于链接不同财务报表中的相关信息,例如将损益表中的收入数据与相应的现金流量数据进行匹配。此任务对于全面的财务分析至关重要,使模型能够综合来自多个来源的数据,以提供对公司财务状况的连贯理解。用于此任务的数据集包含来自上市公司的各种财务报表,具有不同财务指标之间复杂的相互关系。准确链接此信息对于依赖财务业绩整体视图的金融分析师和投资者至关重要。该任务要求模型驾驭金融术语的复杂性,并理解各种金融要素之间的关系,确保它们能够有效地连接相关数据点。
    • 指标
      F1 分数,精确匹配准确率 (EmAcc)。
  21. EDTSUM(金融中的抽取式文档摘要)

    • 任务描述
      EDTSUM 任务侧重于通过提取最相关的句子来总结冗长的金融文档,以创建简洁连贯的摘要。此任务在金融领域至关重要,专业人士经常处理大量的报告、研究论文和监管备案。从大量文本中提取关键信息的能力对于高效的决策和信息传播至关重要。EDTSUM 数据集包含各种金融文档,每个文档都配有专家生成的摘要,突出关键见解和数据点。模型根据其识别和选择准确反映原始文档中主要主题和论点的句子的能力进行评估。
    • 指标
      ROUGE、BERTScore 和 BARTScore。
  22. ECTSUM(抽取式内容摘要)

    • 任务描述
      ECTSUM 任务侧重于金融领域中的抽取式内容摘要,其目标是从大量金融文档中生成简洁的摘要。此任务利用包含各种金融文本的数据集,例如报告、文章和监管备案,每个文本都包含与利益相关者相关的关键信息。目标是评估模型识别和提取最显著的句子或短语的能力,这些句子或短语概括了原始文本的要点。ECTSUM 任务挑战模型展示其对上下文、相关性和连贯性的理解,确保提取的摘要准确地代表主要思想,同时保持可读性和清晰度。
    • 指标
      ROUGE、BERTScore 和 BARTScore。
  23. BigData22(股票走势预测)

    • 任务描述
      BigData22 任务侧重于根据金融新闻和报告预测股票价格走势。该数据集旨在捕捉市场情绪与股票表现之间错综复杂的关系,利用新闻文章、社交媒体帖子和市场数据的综合集合。此任务的主要目标是评估模型在限定时间范围内准确预测特定股票价格是上涨还是下跌的能力。模型必须有效地分析文本数据并辨别与市场走势相关的模式。
    • 指标
      准确率,马修斯相关系数(MCC)。
  24. ACL18(基于金融新闻的股票预测)

    • 任务描述
      ACL18 任务侧重于根据金融新闻文章和标题预测股票走势。此任务利用包含各种新闻报道的数据集,旨在评估模型分析文本内容和预测短期内股票价格是上涨还是下跌的能力。该数据集涵盖一系列金融新闻主题,从公司公告到经济指标,反映了新闻情绪与市场反应之间复杂的相互作用。模型必须有效地解释语言和情绪中的细微差别,这些细微差别可能影响股票表现,确保预测与实际市场走势保持一致。
    • 指标
      准确率,马修斯相关系数(MCC)。
  25. CIKM18(使用新闻进行金融市场预测)

    • 任务描述
      CIKM18 任务侧重于根据金融新闻文章预测更广泛的市场走势(例如股票指数)。此任务利用包含各种与市场事件相关的新闻报道的数据集,评估模型综合来自多个来源的信息并对未来市场趋势进行知情预测的能力。该数据集包含涵盖重要金融事件、经济指标和公司新闻的文章,反映了新闻情绪与市场行为之间复杂的相互作用。此任务的目标是评估模型分析金融新闻内容并利用该分析预测市场走势的能力。
    • 指标
      准确率,马修斯相关系数(MCC)。
  26. German(德国市场信用评分)

    • 任务描述
      German 任务侧重于评估模型预测德国市场贷款申请人信用worthiness的能力。此任务利用包含各种财务指标、人口统计信息和历史信用数据的数据集,旨在将申请人分类为信用良好或信用不良。该数据集反映了德国独特的经济和监管条件,提供了对影响该特定市场信用决策的因素的全面视图。鉴于准确信用评分对于金融机构的重要性,此任务对于最大程度地降低风险和确保负责任的贷款实践至关重要。模型必须有效地分析多个变量以做出明智的预测,从而促进贷款审批和风险管理中的更好决策。
    • 指标
      F1 分数,马修斯相关系数(MCC)。
  27. Australian(澳大利亚市场信用评分)

    • 任务描述
      Australian 任务侧重于预测澳大利亚金融环境中贷款申请人的信用worthiness。该数据集包含从各种来源(例如财务历史、收入水平和人口统计信息)派生的一系列全面特征。此任务的主要目标是将申请人分类为信用良好或信用不良,使金融机构能够做出明智的贷款决策。鉴于澳大利亚独特的经济条件和监管环境,此任务对于理解影响该市场信用评分的特定因素尤其相关。
    • 指标
      F1 分数,马修斯相关系数(MCC)。
  28. LendingClub(点对点贷款风险预测)

    • 任务描述
      LendingClub 任务侧重于预测通过 LendingClub 平台(一家主要的点对点贷款服务)发放的贷款的违约风险。此任务利用包含贷款申请人详细信息的数据集,例如信用评分、收入水平、就业历史和其他财务指标。主要目标是评估贷款违约的可能性,使贷方能够做出有关贷款审批和风险管理的明智决策。在此任务中评估的模型必须有效地分析各种特征,捕捉数据中复杂的关系以提供可靠的风险评估。
    • 指标
      F1 分数,马修斯相关系数(MCC)。
  29. ccf(信用卡欺诈检测)

    • 任务描述
      ccf 任务侧重于在一个大型信用卡操作数据集中识别欺诈性交易。该数据集包含各种交易特征,包括交易金额、时间、地点和商家信息,提供了对消费行为的全面视图。该任务的主要目标是将交易分类为合法或欺诈性,从而使金融机构能够有效地检测和预防欺诈活动。模型必须应对类别不平衡带来的挑战,因为欺诈性交易通常只占总数据集的一小部分。
    • 指标
      F1 分数,马修斯相关系数(MCC)。
  30. ccfraud(信用卡交易欺诈检测)

    • 任务描述
      ccfraud 任务侧重于识别信用卡操作数据集中欺诈性交易。该数据集包含大量交易记录,每条记录都被标记为合法或欺诈。主要目标是评估模型准确区分正常交易和显示可疑行为(指示欺诈)的交易的能力。ccfraud 任务提出了独特的挑战,包括需要处理不平衡数据,因为欺诈性交易通常只占总数据集的一小部分。模型必须表现出检测欺诈活动的细微模式和异常情况的能力,同时最大程度地减少误报以避免给合法客户带来不便。
    • 指标
      F1 分数,马修斯相关系数(MCC)。
  31. Polish(波兰市场信用风险预测)

    • 任务描述
      Polish 任务侧重于预测波兰金融市场贷款申请人的信用风险。此任务利用包含申请人人口统计和财务信息的综合数据集,旨在评估贷款违约的可能性。此预测对于金融机构做出明智的贷款决策和有效管理风险至关重要。模型必须根据影响信用worthiness的当地因素(例如收入水平、就业状况和信用历史)进行调整。
    • 指标
      F1 分数,马修斯相关系数(MCC)。
  32. Taiwan(台湾市场信用风险预测)

    • 任务描述
      台湾任务侧重于预测台湾市场贷款申请人的信用风险。该任务利用包含借款人详细财务和个人信息的数据集,旨在根据各种因素(包括信用历史、收入和人口统计信息)评估违约可能性。模型分析数据中复杂模式并提供可靠预测的能力在快速变化的金融环境中至关重要。鉴于台湾独特的经济条件和监管环境,该任务还强调了当地背景在风险评估中的重要性,要求模型有效地适应特定的市场特征和趋势。
    • 指标
      F1 分数,马修斯相关系数(MCC)。
  33. Portoseguro(巴西市场索赔分析)

    • 任务描述
      Portoseguro 任务侧重于分析巴西市场中的保险索赔,特别是汽车保险。该任务利用包含各种索赔详细信息的数据集,例如事件性质、保单持有人详细信息和索赔结果。主要目标是评估模型根据这些因素预测索赔被批准或拒绝的可能性。通过准确分类索赔,模型可以帮助保险公司简化决策流程,增强风险管理策略,并减少欺诈活动。模型必须考虑区域细微差别和评估索赔时使用的具体标准,确保预测与当地法规和市场惯例保持一致。
    • 指标
      F1 分数,马修斯相关系数(MCC)。
  34. 旅行保险(旅行保险索赔预测)

    • 任务描述
      旅行保险任务侧重于根据各种因素和数据点预测旅行保险索赔发生的可能性。该数据集包含与旅行保险保单、已提出索赔以及相关变量(如旅行类型、持续时间、目的地和被保险人的身份信息)相关的历史数据。该任务的主要目标是评估模型准确评估索赔提交风险的能力,这对于保险公司确定保单定价和风险管理策略至关重要。通过分析数据中的模式和趋势,模型可以深入了解哪些因素导致索赔的可能性更高,从而使保险公司能够就承保和保费设置做出明智的决策。
    • 指标
      F1 分数,马修斯相关系数(MCC)。
  35. MultiFin-ES(西班牙语多类别金融情感分析)

    • 任务描述
      MultiFin-ES 任务侧重于分析
    • 西班牙语金融文本中的情感,将情感分类为多个类别,例如看涨、看跌和中性。该数据集包含各种金融文档,包括新闻文章、报告和社交媒体帖子,反映了金融领域的各个方面。主要目标是评估模型根据上下文线索、语言细微差别和西班牙金融论述中普遍存在的文化参考来准确分类情感的能力。模型必须表现出熟练处理西班牙语的细微之处,包括习语和区域变体,以实现准确分类。
    • 指标
      F1 分数。
  36. EFP(西班牙语金融短语分类)

    • 任务描述
      EFP 任务侧重于西班牙语金融短语的分类,利用为此目的专门设计的数据集。该数据集包含从西班牙语金融文本(包括新闻文章、报告和社交媒体帖子)中提取的带注释的短语集合。主要目标是根据情感或意图对这些短语进行分类,将它们归类为相关分类,例如积极、消极或中性。鉴于西班牙语市场在全球金融中日益增长的重要性,准确解释和分析西班牙语金融通信中的情感对于投资者和分析师至关重要。
    • 指标
      F1 分数。
  37. EFPA(西班牙语金融论证分类)

    • 任务描述
      EFPA 任务侧重于分类西班牙语金融文档中的论证,旨在识别关键组成部分,如主张、证据和反驳。该数据集包含一系列金融文本,包括报告、分析和监管文档,为理解金融领域中的论证结构提供了丰富的资源。主要目标是评估模型准确分类不同论证单元的能力,这对于自动化复杂金融叙事的分析至关重要。通过有效分类论证,利益相关者可以深入了解金融决策背后的原因以及影响市场的各种因素之间的相互作用。此任务提出了独特的挑战,要求模型展示对语言和领域特定上下文的深入理解。
    • 指标
      F1 分数。
  38. FinanceES(西班牙语金融情感分类)

    • 任务描述
      FinanceES 任务侧重于对各种西班牙语金融文档中的情感进行分类。该数据集包括新闻文章、报告和社交媒体帖子,反映了各种金融主题和事件。主要目标是评估模型准确识别积极、消极或中性情感的能力,从而提供对西班牙语地区市场看法深入的见解。鉴于西班牙语固有的文化和语言细微差别,有效的情感分类要求模型熟练地驾驭习语、俚语和特定上下文的术语。此任务尤其相关,因为金融情感分析在全球范围内扩展,需要强大的模型才能在不同语言和文化背景下有效执行。
    • 指标
      F1 分数。
  39. TSA-Spanish(西班牙语情感分析)

    • 任务描述
      TSA-Spanish 任务侧重于评估模型对西班牙语推文和与金融市场相关的短文本进行情感分析的能力。该任务利用由各种社交媒体帖子组成的数据集,旨在将情感分类为积极、消极或中性。社交媒体的动态特性提供了丰富的实时情感数据来源,反映了公众对各种金融主题的看法,包括股票表现、公司公告和经济发展。该任务在准确解释情感方面提出了独特的挑战,因为上下文、俚语和区域表达会显著影响含义。模型必须对西班牙语的细微之处有深入的理解,包括在不同西班牙语社区中常用的口语和各种情感指标。
    • 指标
      F1 分数。
  40. FinTrade(股票交易数据集)

    • 任务描述
      FinTrade 任务评估模型在股票交易模拟中的能力,使用专门开发的数据集,该数据集整合了一年内的历史股票价格、金融新闻和情绪数据。该数据集旨在反映真实世界的交易场景,提供对各种因素如何影响股票表现的全面视图。此任务的主要目标是评估模型根据定量和定性数据(如市场趋势和情绪分析)组合做出明智交易决策的能力。通过模拟交易活动,模型的任务是生成可操作的见解和策略,以最大化盈利能力同时管理风险。数据的多样性,包括价格走势、新闻事件和情绪波动,要求模型有效地整合和分析多个数据流以优化交易结果。
    • 指标
      夏普比率(SR)。

如何使用开放金融大语言模型(Open Financial LLM)排行榜

当您首次访问 OFLL 平台时,您会看到主页,其中提供了排行榜概述,包括平台用途介绍以及提交模型进行评估的链接。

在主页顶部,您会看到不同的选项卡:

  • 大语言模型基准: 评估模型的核心页面。
  • 在此提交: 提交您自己的模型进行自动评估的地方。
  • 关于: 有关基准、评估过程和所用数据集的更多详细信息。

选择要显示的任务

为了根据您的特定需求定制排行榜,您可以在“选择要显示的列”部分选择您想关注的金融任务。这些任务分为几个类别,例如:

  • 信息提取 (IE)
  • 文本分析 (TA)
  • 问答 (QA)
  • 文本生成 (TG)
  • 风险管理 (RM)
  • 预测 (FO)
  • 决策 (DM)

只需勾选您感兴趣的任务旁边的方框即可。选定的任务将作为列出现在评估表中。如果您希望删除所有选择,请单击“取消全选”按钮以重置任务类别。

选择要显示的模型

为了进一步细化排行榜中显示的模型,您可以使用界面右侧的“模型类型”“精度”过滤器,并根据其

  • 类型: 预训练、微调、指令微调或强化学习 (RL) 微调。
  • 精度: float16、bfloat16 或 float32。
  • 模型大小: 范围从约 15 亿到 700 亿以上参数。

在任务表中查看结果

一旦您选择了任务,结果将显示在任务表中(见图)。此表提供了每个模型在您选择的任务中的详细指标。每个模型的表现显示在标有平均 IE平均 TA平均 QA 等的列下,对应于您选择的任务。

提交模型进行评估

如果您有新模型希望在排行榜上进行评估,提交部分允许您上传模型文件。您需要提供:

  • 模型名称
  • 修订提交
  • 模型类型
  • 精度
  • 权重类型

上传模型后,排行榜将自动开始评估其在所选任务中的表现,并提供实时反馈。

当前最佳模型和令人惊喜的结果

在开放金融大语言模型排行榜的整个评估过程中,有几个模型在各种金融任务中表现出卓越的能力。

截至最新评估:

  • 最佳模型:GPT-4 和 Llama 3.1 在许多任务中持续优于其他模型,在解释金融情感方面表现出高准确性和鲁棒性。
  • 令人惊喜的结果:专注于股票走势预测的预测 (FO) 任务显示,小型模型,如 Llama-3.1-7b、internlm-7b,在准确率和 MCC 方面通常优于大型模型,例如 Llama-3.1-70b。这表明模型大小不一定与金融预测中的更好性能相关,尤其是在实时市场数据和细致的情感分析至关重要的任务中。这些结果突出表明,根据任务特定性能评估模型的重要性,而不是仅仅依赖模型大小或通用基准。

致谢

我们衷心感谢包括 Linux 基金会在内的赞助商对开放金融大语言模型排行榜的慷慨支持。他们的贡献帮助我们建立了这个平台,为金融 AI 社区服务,并推动了金融语言模型的评估。

我们也邀请社区通过提交模型、数据集或评估任务来参与这个持续进行的项目。您的参与对于确保排行榜保持为衡量金融大型语言模型的全面且不断发展的工具至关重要。我们可以共同推动创新,帮助开发更适合实际金融应用的模型。

社区

注册登录 发表评论