LooGLE团队 投稿自 凹非寺色中色影院
量子位 | 公众号 QbitAI
在长文次序悟智商这块,果然莫得一个大模子合格!
北大齐集北京通用东说念主工智能询查院提议了一个新基准数据集:LooGLE,突出用于测试和评估大言语模子(LLMs)长高下文相识智商。
该数据集既好像评估LLMs对长文本的管理和检索智商,又不错评估其对文本长程依赖的建模和相识智商。
恶果不评不知说念,一评估发现这些模子在复杂的长依赖任务中的多信息检索、时期重排序、筹商、相识推明智商进展均不乐不雅。
比如像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种买卖模子,平均惟有40%的准确率。
而像开源模子进展就更不睬想了…
ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K平均惟有10%的准确率。
当今该论文已被ACL 2024收受。
论文共归拢看成通研院的李佳琪、王萌萌,通信作家为通研院询查员郑子隆和北京大学东说念主工智能询查院助理老师张牧涵。
LooGLE基准测试LooGLE基准测试主要有这么几个特色:
领先,它包含包含近 800 个最新收罗的超长文档。平均近2万字(是现存同样数据集长度的2倍),并从这些文档中重重生成了6千个不同领域和类别的任务/问题用于构建LooGLE。
当今当今莫得既评估LLMs对长文本的管理和驰念色中色影院,又评估其对文本长程依赖的建模和相识智商的数据集。
LooGLE的数据集由7个主要的任务类别构成,旨在评估LLMs相识短程和长程依赖实质的智商。
团队假想了5种类型的长久依赖任务,包括相识与推理、筹商、时期线重新排序、多重信息检索和提要。
通过东说念主工标注悉心生成了越过1100对高质地的长依赖问答对,以显示长依赖性条款。这些问答对经过了严格的交叉考证,从而得到了对大型言语模子(LLMs)长依赖智商的精准评估。
LooGLE基准数据集仅包含2022年之后发布的文本,尽可能地幸免了预西宾阶段的数据败露,锤真金不怕火大模子运用其高下文体习智商来完成任务,而不是依靠驰念事实和常识储备。
该基准的文本源自粗鄙招供的开源文档,包括了arxiv论文、维基百科著述以及电影和电视脚本,波及学术、历史、体育、政事、艺术、赛事、文娱等领域。
长文相识中长程问答任务生成在本询查中,团队组织了近百名标注者手工编制了约1100个的确的长依赖问答对,分为4类长依赖任务:多信息检索、时期重排序、筹商、相识推理。
多信息检索:与传统的短期检索任务显赫不同,该任务下回话一个特定谜底频频需要在统统这个词文本中征集多个踪迹或凭证。任务条款从长文本中粗鄙散布的筹商凭证或踪迹中进行检索和索取,然后对这些凭证进行汇总,才调得出最终谜底。
筹商:与前一个任务访佛,领先需要从粗鄙的文本中进行屡次信息检索索取筹商数字,举例对于数目、频率、抓续时期、特定年份等。要得出准确的谜底,还需要对这些数字进行筹商。这个经过既依赖于雄壮的长高下文信息索取智商,况且波及一定进度的数学推明智商。
时期重排序:这个任务给大模子输入领导“请重新成列以下事件的时期轴”,以及一组按轨则成列的事件面容。任务筹谋是根据这些事件在长文本中出现的时期先后轨则将这些事件成列起来。到手完成这个任务需要对文档的主要故事情节进行抽取和相识,且条款模子具巧合期坚硬。
相识推理:这个任务条款模子运用洒落在长高下文中的凭证,真切相识问题并推理出谜底。最常见的问题阵势波及到因果关联、影响、孝顺、气派以及与各式事件筹商的基本属性。此外,当问题围绕着凭证的要害进度、显赫进度、最高或最要道方面时,则需要进行更粗鄙的相比和评估。此任务的谜底频频在源文本中不赫然。它们频频需要多步推理来模拟内在的筹商和依赖关联,通过复杂的分析经过取得谜底。
实际分析为了提供更全面和通用的性能评估,LooGLE 使用基于语义同样性的度量、GPT4 看成判断的度量,以及东说念主类评估看成度量。在LooGLE上对9种泉源进的长文本LLMs进行评估(其中包括OpenAI和Anthropic的商用模子,以及几个主流开源基座模子微调得到的长文本模子,和带有外部驰念模块的检索增强模子),得出了以下要道发现:
买卖模子显赫优于开源模子;LLMs在短依赖任务(如短问答和填空任务)方面进展出色,但在更复杂的长依赖任务中均进展欠安;CoT(念念维链)只在长高下文相识方面带来了微弱的纠正;基于检索的时间在短问答方面进展出赫然的上风,而通过优化的Transformer架构或位置编码来彭胀高下文窗口长度的战略对长高下文相识的普及有限。△不同LLM在LooGLE上展现的长文次序悟智商
△不同模子在LooGLE短程问答上的性能
△不同模子在LooGLE短程问答上的性能
△不同高下文窗口对长程问答性能的影响
△不同模子在4种不同类型长程问答上的性能
因此,LooGLE不仅提供了对于长高下文LLMs的系统和全面的评估决策,而且为异日建树增强型模子以达成“的确的长高下文相识”提供了启示。
论文地址:
https://arxiv.org/abs/2311.04939数据地址:蛇蝎尤物https://huggingface.co/datasets/bigainlco/LooGLE代码地址:https://github.com/bigai-nlco/LooGLE— 完 —
量子位 QbitAI · 头条号签色中色影院
下一篇:【RD-314】この熟女いやらしい!SPECIAL 魅惑の熟女10人絶頂4時間 荣耀互联网做事详解拓荒时代与做事场景最新贯通 助力拓荒者完毕营业增长
- 2024-09-29孟若羽 肛交 《男东谈主如一稔》唱笑剧独角 传递港式笑剧正能量
- 2024-09-28国产 porn 《男东谈主如衣着》明日上映 监制:能让面瘫笑出来
- 2024-09-28勾引 色情 《男东说念主如穿着》开机中秋档上映 黄百鸣海澄清相
- 2024-09-28另类图片激情 《男东说念主如穿着》唱笑剧独角 传递港式笑剧正能量
- 2024-09-28女同 91 《男东谈主如穿着》气势经典 搞笑教父搭档性感嫩模