北大团队提出全新框架LIFT 将长上下文知识注入模型参数_AI资讯_AI_新闻资讯

北大团队提出全新框架LIFT 将长上下文知识注入模型参数

AI资讯

2025-03-17

北京大学张牧涵团队提出了一种全新的框架——Long Input Fine-Tuning （LIFT），通过将长输入文本训练进模型参数中，使任意短上下文窗口模型获得长文本处理能力。这一方法颠覆了传统的长文本处理思路，不再专注于无限扩充上下文窗口，而是将长文本知识内化到模型参数中，类似于人类将工作记忆转化为长期记忆的过程。

目前大模型处理长文本面临两大主要挑战:

传统注意力机制的平方复杂度导致处理长文本时计算和内存开销巨大模型难以理解散落在长文本各处的长程依赖关系

现有的解决方案如RAG和长上下文适配各有局限:

RAG依赖准确的检索，容易引入噪声导致幻觉长上下文适配的推理复杂度高，上下文窗口仍然有限

LIFT的技术创新

LIFT框架包含三个关键组件:

动态高效的长输入训练

通过分段的语言建模将长文本切分为有重叠的片段避免因过长上下文造成的推理复杂度提升和长程依赖丢失训练复杂度对长文本长度呈线性增长

平衡模型能力的门控记忆适配器

设计专门的Gated Memory Adapter架构动态平衡原始模型的In-Context Learning能力和对长输入的记忆理解允许模型根据查询自动调节使用多少LIFT记忆的内容

辅助任务训练

通过预训练LLM基于长文本自动生成问答类辅助任务补偿模型在切段训练中可能损失的能力帮助模型学会应用长文本中的信息回答问题

实验结果

LIFT在多个长上下文基准测试上取得显著提升:

LooGLE长依赖问答:Llama38B的正确率从15.44%提升至29.97% LooGLE短依赖问答:Gemma29B的正确率从37.37%提升至50.33% LongBench多项子任务:Llama3通过LIFT在5个子任务中的4个有明显提升

消融实验表明，Gated Memory架构相比使用PiSSA微调的原模型，在LooGLE ShortQA数据集上的GPT-4score提升了5.48%。

局限与未来发展方向

尽管LIFT取得了显著成果，仍存在一些局限:

对需要精确信息提取的"大海捞针"任务效果仍不理想模型对LIFT获得的参数化知识提取能力有待优化辅助任务的设计严重依赖下游测试任务，通用性有限如何更好地平衡记忆和原有能力仍是研究重点

研究团队鼓励社区共同探索LIFT在更广泛的训练数据、更丰富的模型、更先进的辅助任务设计以及更强计算资源支持下的潜力。

结论

LIFT提供了一个全新的长文本处理范式，将上下文知识转化为参数化知识，这一思路与人类短期记忆转化为长期记忆的过程相似。虽然距离彻底解决长上下文挑战仍有距离，但LIFT开辟了一个极具潜力的研究方向。

0 人点赞

文章来源于网络，如有侵权请联系本站删除

精选二手好课

更多>>

次卡|广州奥园广场芒果健身私教课转让

康复课、常规私教课

￥7500

次卡|瑜伽课转让

小班课

￥4263

年卡|大刊牛文课转让

大刊牛文课

￥1000

年卡|26考研英语课程转让

考研课

￥600

年卡|优路教育注册监理工程师线上课程

注册监理工程师

￥1800

年卡|一级建造师优路教育私教班

一级建造师

￥1000

年卡|注册电气工程师基础考试，英之教育，优培班

注册电气工程师

￥2000

年卡|超格网课转让

教师招聘

￥500

次卡|宁波哈喽贝比早教课时托班

早教课

￥8800

次卡|泰安克莱沃（金色雨林）早教课。配合更名。还余76节课。一口价8890转。

早教课

￥8890