AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.03.15-2024.03.20

文章目录~

1.Dated Data: Tracing Knowledge Cutoffs in Large Language Models
2.Automatic Information Extraction From Employment Tribunal Judgements Using Large Language Models
3.mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding
4.Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models
5.Epistemology of Language Models: Do Language Models Have Holistic Knowledge?
6.Instructing Large Language Models to Identify and Ignore Irrelevant Conditions
7.LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models
8.AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework
9.Factorized Learning Assisted with Large Language Model for Gloss-free Sign Language Translation
10.Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales
11.OpenEval: Benchmarking Chinese LLMs across Capability, Alignment and Safety
12.Improving LoRA in Privacy-preserving Federated Learning
13.FinLlama: Financial Sentiment Classification for Algorithmic Trading Applications
14.TnT-LLM: Text Mining at Scale with Large Language Models
15.Fusing Domain-Specific Content from Large Language Models into Knowledge Graphs for Enhanced Zero Shot Object State Classification
16.CICLe: Conformal In-Context Learning for Largescale Multi-Class Food Risk Classification
17.Reasoning Abilities of Large Language Models: In-Depth Analysis on the Abstraction and Reasoning Corpus
18.Meta-Prompting for Automating Zero-shot Visual Recognition with LLMs
19.InsCL: A Data-efficient Continual Learning Paradigm for Fine-tuning Large Language Models with Instructions
20.A Novel Paradigm Boosting Translation Capabilities of Large Language Models
21.X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment
22.Correcting misinformation on social media with a large language model
23.ProgGen: Generating Named Entity Recognition Datasets Step-by-step with Self-Reflexive Large Language Models
24.SelfIE: Self-Interpretation of Large Language Model Embeddings
25.Detecting Bias in Large Language Models: Fine-tuned KcBERT
26.DRAGIN: Dynamic Retrieval Augmented Generation based on the Real-time Information Needs of Large Language Models
27.Lost in Overlap: Exploring Watermark Collision in LLMs

1.Dated Data: Tracing Knowledge Cutoffs in Large Language Models

标题:过时数据：追踪大型语言模型中的知识截止点

author:Jeffrey Cheng, Marc Marone, Orion Weller, Dawn Lawrie, Daniel Khashabi, Benjamin Van Durme

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12958v1

摘要：
已发布的大型语言模型（LLM）通常会附带一个声称的知识截止日期，或收集训练数据的日期。这些信息对于 LLM 必须提供最新信息的应用来说至关重要。然而，这种说法只是浮于表面：训练数据中的所有资源是否共享相同的知识截止日期？模型为这些子集展示的知识是否与它们的截止日期密切相关？在这项工作中，我们定义了有效截止日期的概念。它有别于 LLM 设计者报告的截止日期，并分别适用于子资源和主题。我们提出了一种简单的方法，通过探测不同版本的数据来估算 LLM 资源级时间一致性的有效截止日期。通过这一分析，我们发现有效截止值往往与报告截止值不同。为了解这一现象的根本原因，我们直接对开放的预训练数据集进行了大规模分析。我们的分析揭示了造成这些不一致的两个原因：(1) CommonCrawl 数据的时间偏差，这是由于新转储数据中存在大量旧数据；(2) LLM 重复数据删除方案的复杂性，其中涉及语义重复和词性近似重复。总之，我们的研究结果表明，知识截止点并不像看起来那么简单，LLM 数据集的策划者以及试图使用这些模型信息的从业人员都必须谨慎行事。

2.Automatic Information Extraction From Employment Tribunal Judgements Using Large Language Models

标题:利用大型语言模型从就业法庭判决中自动提取信息

author:Joana Ribeiro de Faria, Huiyuan Xie, Felix Steffek

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12936v1

摘要：
法庭记录和判决书是丰富的法律知识宝库，详细记录了案件的复杂性和司法判决背后的理由。从这些文件中提取关键信息可提供案件的简要概述，这对法律专家和公众都至关重要。随着大型语言模型（LLM）的出现，自动信息提取变得越来越可行和高效。本文全面研究了大型语言模型 GPT-4 在英国就业法庭（UKET）案件信息自动提取中的应用。我们仔细评估了 GPT-4 在提取关键信息方面的性能，并通过人工验证过程确保提取数据的准确性和相关性。我们的研究围绕两项主要提取任务展开：第一项任务涉及对法律专家和普通大众都具有重要意义的八个关键方面的一般提取，包括案件事实、索赔要求、法律法规参考、先例参考、一般案件结果和相应标签、详细顺序和补救措施以及裁决理由。第二项任务的重点更加突出，旨在分析所提取的其中三个特征，即事实、诉求和结果，以促进开发一种能够预测就业法纠纷结果的工具。通过分析，我们证明了像 GPT-4 这样的法律信息管理工具在法律信息提取方面可以获得很高的准确性，突出了法律信息管理工具在革新法律信息处理和利用方式方面的潜力，对法律研究和实践具有重要意义。

3.mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding

标题:mPLUG-DocOwl 1.5：用于无 OCR 文档理解的统一结构学习

author:Anwen Hu, Haiyang Xu, Jiabo Ye, Ming Yan, Liang Zhang, Bo Zhang, Chen Li, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou

publish:21 pages, 15 figures

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12895v1

摘要：
结构信息对于理解文档、表格和图表等文本丰富的图像的语义至关重要。现有的用于视觉文档理解的多模态大语言模型（MLLM）具备文本识别能力，但缺乏对文本丰富的文档图像的一般结构理解能力。在这项工作中，我们强调了结构信息在视觉文档理解中的重要性，并提出了统一结构学习来提高 MLLM 的性能。我们的统一结构学习包括结构感知解析任务和多粒度文本定位任务，横跨 5 个领域：文档、网页、表格、图表和自然图像。为了更好地编码结构信息，我们设计了一个简单有效的视觉到文本模块 H-Reducer，它不仅能保留布局信息，还能通过卷积合并水平相邻的斑块来减少视觉特征的长度，从而使 LLM 更高效地理解高分辨率图像。此外，我们还通过构建结构感知文本序列以及多粒度文本对和边界框，为公开的文本丰富的图像构建了一个全面的训练集 DocStruct4M，以支持结构学习。最后，我们构建了一个小型但高质量的推理调整数据集 DocReason25K，以激发文档领域的详细解释能力。我们的模型 DocOwl 1.5 在 10 个可视化文档理解基准测试中取得了最先进的性能，在 5/10 个基准测试中将具有 7B LLM 的 MLLM 的 SOTA 性能提高了 10 分以上。我们的代码、模型和数据集可通过 https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5 公开获取。

4.Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models

标题:Agent-FLAN：为大型语言模型设计有效的代理调整数据和方法

author:Zehui Chen, Kuikun Liu, Qiuchen Wang, Wenwei Zhang, Jiangning Liu, Dahua Lin, Kai Chen, Feng Zhao

publish:Technical Report

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12881v1

摘要：
开源的大型语言模型（LLM）在各种 NLP 任务中取得了巨大成功，但在作为代理时，它们仍然远远不如基于 API 的模型。如何将代理能力整合到通用 LLM 中成为一个关键而紧迫的问题。本文首先提出了三个关键观察结果：(1) 当前的代理训练语料与格式遵循和代理推理都纠缠在一起，与其训练前的数据分布有很大不同；(2) LLMs 对代理任务所需的能力表现出不同的学习速度；(3) 当前的方法在提高代理能力时会引入幻觉，从而产生副作用。基于上述发现，我们提出了 Agent-FLAN 来有效地微调代理的 LANguage 模型。通过对训练语料的仔细分解和重新设计，Agent-FLAN 使 Llama2-7B 在各种代理评估数据集上的表现比之前的最佳作品高出 3.5/%。通过全面构建负样本，Agent-FLAN 极大地缓解了基于我们既定评估基准的幻觉问题。此外，在扩大模型规模时，它还能持续提高 LLM 的代理能力，同时略微增强 LLM 的一般能力。代码可在 https://github.com/InternLM/Agent-FLAN 上获取。

5.Epistemology of Language Models: Do Language Models Have Holistic Knowledge?

标题:语言模型的认识论：语言模型拥有整体知识吗？

author:Minsu Kim, James Thorne

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12862v1

摘要：
本文从认识论整体论的角度研究语言模型中的固有知识。本文旨在探讨语言模型是否表现出与认识论整体论一致的特征。这些特征表明，核心知识（如一般科学知识）各自发挥着特定的作用，是我们知识体系的基础，并且难以修改。为了评估这些与整体论相关的特征，我们创建了一个科学推理数据集，并通过三个任务对语言模型的认识论进行了研究：诱导、修正和论证生成。在归纳任务中，语言模型在解释情况的同时避免了修改核心知识。然而，在其他任务中，语言模型没有区分核心知识和边缘知识，显示出与整体知识原则的不完全一致。

6.Instructing Large Language Models to Identify and Ignore Irrelevant Conditions

标题:指导大型语言模型识别和忽略无关条件

author:Zhenyu Wu, Chao Shen, Meng Jiang

publish:NAACL 2024 - Camera Ready

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12744v1

摘要：
数学文字问题（MWP）的解决需要根据给定的问题描述生成推理路径，而问题描述往往包含无关条件。现有的思维链（CoT）提示方法能够激发大型语言模型（LLM）的多步骤推理能力，以解决 MWP 问题。但是，它们被不相关的条件严重混淆，导致准确率很低。在本文中，我们提出了一种名为 I $^3$ C 的新方法，它能指导大型语言模型识别并忽略无关条件。它能识别出一组与问题语义相关性较弱的候选无关条件。然后，它提示 LLM 验证无关条件。最后，它指导 LLM 对相关和不相关条件进行验证，以避免混淆并改进推理路径。此外，我们还建议选择（问题、推理路径）对作为示范，通过少量推理来增强 I $^3$ C。我们开发的 I $^3$ C-Select 可根据语义相关性测量选择最容易混淆的问题。我们在八个 MWP 数据集上进行了广泛的实验。I $^3$ C 可以与任何 CoT 提示方法相结合，以提高解决 MWP 的性能。值得注意的是，通过 GPT-3.5-Turbo 和 I $^3$ C-Select，我们在 GSM-IC2-1K 和 GSM-ICM-1K 上的准确率分别达到了 96.0 和 94.1，比最先进的少量提示方法 Complex-CoT 高出+11.7 和+11.1。我们的实现已在 https://wzy6642.github.io/I3C.github.io/ 上公开。

7.LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models

标题:LHMKE：中文大语言模型的大规模整体多主体知识评估基准

author:Chuang Liu, Renren Jin, Yuqi Ren, Deyi Xiong

publish:Accepted by LREC-COLING 2024

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12601v1

摘要：
中文大语言模型（LLM）最近在各种 NLP 基准和实际应用中表现出了令人印象深刻的能力。然而，用于全面评估这些 LLM 的现有基准仍然不足，尤其是在衡量 LLM 所捕捉的知识方面。为了解决这个问题，目前的数据集收集了不同学科和教育水平的中国考试试题。然而，这些基准主要侧重于客观题，如选择题，导致题型缺乏多样性。为了解决这个问题，我们在本文中提出了大规模、整体性和多学科知识评价基准 LHMKE。LHMKE旨在全面评估中国法律硕士的知识获取能力。它包含 10,465 道题，涉及 75 个任务，涵盖 30 个学科，范围从小学到专业认证考试。值得注意的是，LHMKE 同时包含客观题和主观题，能够更全面地评估法律硕士的知识水平。我们对 11 名中国法律硕士进行了与真实考试一致的零点测试，并比较了他们在不同科目中的表现。我们还进行了深入分析，以检验 GPT-4 能否自动对主观预测进行评分。我们的研究结果表明，LHMKE 对中国法律硕士来说是一个具有挑战性的先进测试平台。

8.AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework

标题:AlphaFin：利用检索增强股票链框架为金融分析设定基准

author:Xiang Li, Zhenyu Li, Chen Shi, Yong Xu, Qing Du, Mingkui Tan, Jun Huang, Wei Lin

publish:COLING 2024. The first three authors contributed equally. Project
website: https://github.com/AlphaFin-proj/AlphaFin

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12582v1

摘要：
金融分析任务主要包括两个关键领域：股票走势预测和相应的金融问题解答。目前，机器学习和深度学习算法（ML&DL）已被广泛应用于股票走势预测，并取得了显著进展。然而，这些方法无法提供预测理由，缺乏可解释性和推理过程。此外，它们也无法整合金融新闻或报告等文本信息。与此同时，大型语言模型（LLM）具有出色的文本理解和生成能力。但是，由于金融训练数据集的稀缺以及与实时知识的整合有限，大语言模型仍然存在幻觉，无法跟上最新的信息。为了解决这些难题，我们首先发布了 AlphaFin 数据集，将传统研究数据集、实时金融数据和手写思维链（CoT）数据结合在一起。这对训练 LLM 完成金融分析具有积极影响。然后，我们使用 AlphaFin 数据集对名为 Stock-Chain 的先进方法进行基准测试，该方法集成了检索增强生成（RAG）技术，可有效处理金融分析任务。我们进行了广泛的实验，以证明我们的框架在金融分析方面的有效性。

9.Factorized Learning Assisted with Large Language Model for Gloss-free Sign Language Translation

标题:用大语言模型辅助因式分解学习，实现无词汇手语翻译

author:Zhigang Chen, Benjia Zhou, Jun Li, Jun Wan, Zhen Lei, Ning Jiang, Quan Lu, Guoqing Zhao

publish:Accepted by LREC-COLING-2024

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12556v1

摘要：
以往的手语翻译（SLT）方法依靠词汇注释实现了卓越的性能。然而，标注高质量词汇是一项劳动密集型任务，限制了 SLT 的进一步发展。虽然有些方法通过联合训练视觉编码器和翻译网络来实现无词汇的手语翻译，但这些方法仍然存在性能不佳和对强大的大语言模型（LLM）使用效率低下的问题。最严重的是，我们发现直接将 LLM 引入 SLT 会导致视觉表征学习不足，因为 LLM 主导了学习曲线。为了解决这些问题，我们提出了针对无词汇 SLT 的因式分解学习（Factorized Learning assisted with Large Language Model，FLa-LLM）。具体来说，我们将训练过程分为两个阶段。在视觉初始化阶段，我们在视觉编码器之后使用一个轻量级翻译模型来预训练视觉编码器。在 LLM 微调阶段，我们冻结视觉编码器中获得的知识，并将其与预先训练的 LLM 相整合，以激发 LLM 的翻译潜力。事实证明，这种因式分解训练策略非常有效，在三个 SLT 数据集上取得的显著改进就是证明，这些数据集都是在无光泽度设置下进行的。

10.Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales

标题:利用大语言模型提取理由，实现可解释的仇恨言论检测

author:Ayushi Nirmal, Amrita Bhattacharjee, Paras Sheth, Huan Liu

publish:First two authors contributed equally

date Time:2024-03-19

paper pdf:http://arxiv.org/pdf/2403.12403v1

摘要：
虽然社交媒体平台是用户进行人际讨论和表达意见的重要舞台，但社交媒体提供的门面和匿名性可能会让用户发表仇恨言论和攻击性内容。鉴于此类平台规模庞大，因此需要自动识别和标记仇恨言论事件。虽然有几种仇恨言论检测方法，但这些黑盒子方法大多无法解释或解释。为了解决缺乏可解释性的问题，我们在本文中建议使用最先进的大语言模型（LLM）从输入文本中提取理由形式的特征，以训练基本的仇恨言论分类器，从而通过设计实现忠实的可解释性。我们的框架有效地结合了大型语言模型的文本理解能力和最先进的仇恨言论分类器的判别能力，使这些分类器具有忠实的可解释性。我们在各种社交媒体仇恨言论数据集上进行的综合评估表明：(1) LLM 提取的理由非常好；(2) 即使在训练之后，检测器的性能仍能令人惊讶地保持，以确保可解释性。

11.OpenEval: Benchmarking Chinese LLMs across Capability, Alignment and Safety

标题:OpenEval：中国法律硕士在能力、对齐和安全方面的基准测试

author:Chuang Liu, Linhao Yu, Jiaxuan Li, Renren Jin, Yufei Huang, Ling Shi, Junhui Zhang, Xinmeng Ji, Tingting Cui, Tao Liu, Jinwang Song, Hongying Zan, Sun Li, Deyi Xiong

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.12316v1

摘要：
中文大型语言模型（LLM）的快速发展给高效的 LLM 评估带来了巨大挑战。虽然目前已有一些计划推出了用于评估中文 LLM 的新基准或评估平台，但其中许多主要侧重于能力，通常忽略了潜在的对齐和安全性问题。为了弥补这一不足，我们引入了 OpenEval，这是一个评估测试平台，可在能力、一致性和安全性方面对中文 LLM 进行基准评估。在能力评估方面，我们纳入了12个基准数据集，从4个子维度对中文LLM进行评估：NLP任务、学科知识、常识推理和数学推理。在对齐性评估方面，OpenEval 包含 7 个数据集，用于检查中文 LLM 输出中的偏差、冒犯性和非法性。为了评估安全性，特别是高级 LLM 的预期风险（如权力追求、自我意识），我们包含了 6 个数据集。除了这些基准，我们还实施了分阶段的公开评估和基准更新策略，以确保 OpenEval 与中国 LLM 的发展保持一致，甚至能够提供最前沿的基准数据集来指导中国 LLM 的发展。在首次公开评估中，我们测试了一系列中文 LLM，参数范围从 7B 到 72B，包括开源模型和专利模型。评估结果表明，虽然中文 LLM 在某些任务中表现出了令人印象深刻的性能，但更多的注意力应放在常识推理、对齐和安全性等更广泛的方面。

12.Improving LoRA in Privacy-preserving Federated Learning

标题:改进隐私保护联合学习中的 LoRA

author:Youbang Sun, Zitao Li, Yaliang Li, Bolin Ding

publish:published at ICLR 2024, full paper 17 pages

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.12313v1

摘要：
低秩适应（Low-rank adaptation，LoRA）因其良好的性能和计算效率，成为预训练语言模型上最流行的特定任务参数高效微调（PEFT）方法之一。LoRA 将两个可训练秩分解矩阵的乘积注入每个冻结的预训练模型模块之上。然而，在保护隐私的联合学习（FL）环境中应用时，LoRA 可能会因以下事实而变得不稳定：1) 数据异质性和多步局部更新的影响是不可忽略的；2) 为保证差分隐私（DP）而强制更新梯度的附加噪声会被放大；3) 最终性能易受超参数影响。导致这些现象的一个关键因素是，本地客户端联合优化两个低阶矩阵与中央服务器分别聚合两个低阶矩阵之间的不一致。因此，本文提出了一种高效的 LoRA 版本–联合冻结 LoRA（FFA-LoRA），以缓解这些难题，并进一步将联合微调 LLM 的通信成本减半。FFA-LoRA 的核心思想是固定随机初始化的非零矩阵，只微调零初始化矩阵。与 LoRA 相比，FFA-LoRA 在隐私保护 FL 方面具有实际和理论上的优势。我们的实验证明，在各种 FL 任务中，FFA-LoRA 比 vanilla LoRA 性能更稳定，计算效率更高。

13.FinLlama: Financial Sentiment Classification for Algorithmic Trading Applications

标题:FinLlama：算法交易应用中的金融情绪分类

author:Thanos Konstantinidis, Giorgos Iacovides, Mingxue Xu, Tony G. Constantinides, Danilo Mandic

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.12285v1

摘要：
网上有多种金融新闻来源，这些新闻会影响市场走势和交易者的决策。因此，除了采用适当的算法交易技术外，还需要进行准确的情感分析，以做出更明智的交易决策。基于词典的标准情感分析方法已经证明了其在辅助金融决策方面的能力。不过，众所周知，这些方法存在与上下文敏感性和词序相关的问题。大语言模型（LLM）也可用于这种情况，但它们并非专门针对金融，而且往往需要大量的计算资源。为了促进金融专用 LLM 框架的发展，我们引入了一种基于 Llama 2 7B 基础模型的新方法，以便从其生成性和全面的语言操作中获益。为此，我们在一小部分有监督的金融情感分析数据上对 Llama2 7B 模型进行了微调，以便共同处理复杂的金融词汇和上下文，并进一步为其配备了基于神经网络的决策机制。这种生成器-分类器方案被称为 FinLlama，经过训练后不仅能对情感价位进行分类，还能量化其强度，从而为交易者提供对金融新闻文章的细微洞察。作为补充，通过 LoRA 实现了参数高效微调，优化了可训练参数，从而最大限度地降低了计算和内存需求，同时不影响准确性。仿真结果表明，所提出的 FinLlama 能够为增强投资组合管理决策和提高市场回报提供一个框架。这些结果证明了 FinLlama 有能力构建高回报的投资组合，即使在动荡时期和不可预测的市场事件中也能表现出更强的弹性。

14.TnT-LLM: Text Mining at Scale with Large Language Models

标题:TnT-LLM：利用大型语言模型进行大规模文本挖掘

author:Mengting Wan, Tara Safavi, Sujay Kumar Jauhar, Yujin Kim, Scott Counts, Jennifer Neville, Siddharth Suri, Chirag Shah, Ryen W White, Longqi Yang, Reid Andersen, Georg Buscher, Dhruv Joshi, Nagu Rangan

publish:9 pages main content, 8 pages references and appendix

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.12173v1

摘要：
将非结构化文本转换为结构化和有意义的形式，并通过有用的类别标签进行组织，是文本挖掘的基本步骤，以便进行下游分析和应用。然而，大多数现有的生成标签分类法和构建基于文本的标签分类器的方法仍然严重依赖于领域专业知识和人工整理，使得这一过程既昂贵又耗时。尤其是当标签空间指定不足和大规模数据注释不可用时，这个过程就更具有挑战性。在本文中，我们利用大型语言模型（LLM）来应对这些挑战，其基于提示的界面有助于大规模伪标签的归纳和使用。我们提出了 TnT-LLM，这是一个分两个阶段的框架，利用 LLM 自动完成端到端的标签生成和分配过程，在任何给定的用例中都能将人力投入降到最低。在第一阶段，我们引入了一种 "0-shot "多阶段推理方法，使 LLM 能够反复生成和完善标签分类法。在第二阶段，LLM 被用作数据标注器，生成训练样本，这样就能可靠地构建、部署和大规模使用轻量级监督分类器。我们将 TnT-LLM 应用于分析 Bing Copilot（前身为 Bing Chat）的用户意图和对话域，Bing Copilot 是一款基于聊天的开放域搜索引擎。使用人工和自动评估指标进行的广泛实验表明，与最先进的基线相比，TnT-LLM 生成的标签分类法更准确、更相关，并在大规模分类的准确性和效率之间实现了良好的平衡。我们还分享了我们在实际应用中使用 LLM 进行大规模文本挖掘所面临的挑战和机遇方面的实践经验和见解。

15.Fusing Domain-Specific Content from Large Language Models into Knowledge Graphs for Enhanced Zero Shot Object State Classification

标题:将大型语言模型中的特定领域内容融合到知识图谱中，增强零点拍摄物体状态分类功能

author:Filippos Gouidis, Katerina Papantoniou, Konstantinos Papoutsakis Theodore Patkos, Antonis Argyros, Dimitris Plexousakis

publish:Accepted at the AAAI-MAKE 24

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.12151v1

摘要：
特定领域的知识可以极大地帮助解决各种视觉任务。然而，生成这些知识需要大量的人力和时间成本。本研究探讨了大型语言模型（LLM）在通过语义嵌入生成和提供特定领域信息方面的潜力。为此，我们将 LLM 集成到一个管道中，在基于视觉的 "零镜头物体状态分类 "任务中利用知识图谱和预训练语义向量。我们通过广泛的消融研究彻底检查了 LLM 的行为。我们的研究结果表明，将基于 LLM 的嵌入式与通用预训练嵌入式相结合，可大幅提高性能。我们从消融研究中汲取灵感，对竞争模型进行了比较分析，从而凸显了所提出的方法所取得的一流性能。

16.CICLe: Conformal In-Context Learning for Largescale Multi-Class Food Risk Classification

标题:CICLe：大规模多类别食品风险分类的共形上下文学习

author:Korbinian Randl, John Pavlopoulos, Aron Henriksson, Tony Lindgren

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.11904v1

摘要：
受污染或掺假的食品对人类健康构成巨大风险。给定标注的网络文本集进行训练，机器学习和自然语言处理就能应用于自动检测此类风险。我们发布了一个包含 7,546 篇短文的数据集，这些短文描述了公共食品召回公告。每篇文本都在两个粒度级别（粗粒度和细粒度）上人工标注了召回所对应的食品和危害。我们对数据集进行了描述，并对天真模型、传统模型和 Transformer 模型进行了基准测试。根据我们的分析，在支持度较低的类别上，基于 tf-idf 表示的逻辑回归优于 RoBERTa 和 XLM-R。最后，我们讨论了不同的提示策略，并介绍了基于共形预测的 LLM 在环框架，与普通提示相比，该框架在提高基础分类器性能的同时降低了能耗。

17.Reasoning Abilities of Large Language Models: In-Depth Analysis on the Abstraction and Reasoning Corpus

标题:大型语言模型的推理能力：对抽象与推理语料库的深入分析

author:Seungpil Lee, Woochang Sim, Donghyeon Shin, Sanha Hwang, Wongyu Seo, Jiwon Park, Seokki Lee, Sejin Kim, Sundong Kim

publish:25 pages

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.11793v1

摘要：
现有的评估大型语言模型（LLM）推理能力的方法都是以结果为中心，很难评估推理过程。我们引入了一种新方法，利用抽象与推理语料库（ARC）数据集，以过程为中心评估大型语言模型的推理和上下文理解能力。ARC 要求严格的逻辑结构来解决问题，这使其成为一个基准，便于比较模型与人类的推理能力。实验结果证实，虽然大型语言模型具有较弱的推理能力，但它们在逻辑一致性、组合性和生产率方面仍然落后。我们的实验凸显了 LLM 的推理能力，为实现人类水平的推理提出了发展路径。

18.Meta-Prompting for Automating Zero-shot Visual Recognition with LLMs

标题:利用 LLM 自动进行零点视觉识别的元提示技术

author:M. Jehanzeb Mirza, Leonid Karlinsky, Wei Lin, Sivan Doveh, Jakub Micorek, Mateusz Kozinski, Hilde Kuhene, Horst Possegger

publish:Project Page (Code and Data):
https://jmiemirza.github.io/Meta-Prompting/

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.11755v2

摘要：
对大型语言模型（LLM）生成的特定类别提示进行提示组合，已成为提高视觉语言模型（VLM）零误差识别能力的有效方法。为了获得这些针对特定类别的提示，目前的方法依赖于为 LLM 手工制作提示，以便为下游任务生成 VLM 提示。然而，这需要人工编写这些特定任务提示，而且这些提示可能无法涵盖与相关类别相关的各种视觉概念和特定任务风格。为了有效地将人类排除在外，并使零镜头识别的提示生成过程完全自动化，我们提出了视觉识别元提示（MPVR）。MPVR 仅以简短的自然语言描述和相关类别标签列表的形式输入有关目标任务的极少量信息，就能自动生成一系列不同类别的特定提示，从而产生强大的零拍分类器。在使用多个 LLM 和 VLM 进行测试时，MPVR 能在各种流行的零镜头图像识别基准中有效地进行泛化，这些基准属于广泛不同的领域。例如，与 CLIP 相比，MPVR 利用 GPT 和 Mixtral LLMs 分别提高了 19.8% 和 18.2%（20 个数据集的平均值分别为 5.0% 和 4.5%）。

19.InsCL: A Data-efficient Continual Learning Paradigm for Fine-tuning Large Language Models with Instructions

标题:InsCL：利用指令微调大型语言模型的数据高效持续学习范式

author:Yifan Wang, Yafei Liu, Chufan Shi, Haoling Li, Chen Chen, Haonan Lu, Yujiu Yang

publish:Accepted by NAACL 2024

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.11435v1

摘要：
指令调整可有效优化大型语言模型（LLM），使其适用于下游任务。由于实际应用中的环境不断变化，LLMs 需要在不发生灾难性遗忘的情况下，针对特定任务进行持续适应。考虑到沉重的计算成本，基于重放的持续学习（CL）方法是解决遗忘问题的最简单、最广泛的 LLM 方法。然而，传统的基于重放的方法不能充分利用指令来定制重放策略。在这项工作中，我们提出了一种名为基于指令的持续学习（InsCL）的新模式。InsCL 基于任务相似性动态重放之前的数据，任务相似性由带有指令的 Wasserstein Distance 计算得出。此外，我们还进一步引入了指令信息度量（InsInfo）来量化指令的复杂性和多样性。根据 InsInfo，InsCL 引导重放过程更倾向于高质量数据。我们在 16 个任务中以不同的训练顺序进行了大量实验，观察到 InsCL 在性能上的持续改进。当所有任务都训练完毕后，InsCL 与随机重放相比实现了 3.0 的相对性能增益，与无重放相比实现了 27.96 的相对性能增益。

20.A Novel Paradigm Boosting Translation Capabilities of Large Language Models

标题:提升大型语言模型翻译能力的新范式

author:Jiaxin Guo, Hao Yang, Zongyao Li, Daimeng Wei, Hengchao Shang, Xiaoyu Chen

publish:Accepted in NAACL 2024

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.11430v1

摘要：
本文研究了在机器翻译（MT）任务中增强大型语言模型（LLM）翻译能力的策略。本文提出了一种新颖的范式，包括三个阶段：使用大量单语数据进行二次预训练，使用跨行文本格式文档进行持续预训练，以及利用源语言一致性指导进行监督微调。以往对 LLM 的研究主要集中在各种监督微调（SFT）策略上，但其效果有限。传统的机器翻译方法依赖于大量的平行双语数据，而我们的范例则强调了使用较小的高质量双语数据集的重要性。我们认为，重点应放在预训练过程中增强 LLM 的跨语言对齐能力，而不是在 SFT 过程中仅仅依赖大量双语数据。使用 Llama2 模型进行的实验结果，尤其是单语增强后的中文-Llama2，证明了 LLMs 翻译能力的提高。我们的方法的重大贡献在于第二阶段：该阶段只需不到 1B 的训练数据，因此我们的方法非常高效。此外，在第三阶段，我们观察到设置与源语言一致的指令有利于监督微调过程。实验结果表明，我们的方法超越了之前的工作，与 NLLB-54B 和 GPT3.5-text-davinci-003 等模型相比，尽管参数数量只有 7B 或 13B，但却取得了卓越的性能。这一成就确立了我们的方法在机器翻译领域的先驱地位。

21.X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment

标题:X-LaVA：优化双语大型视觉语言对齐系统

author:Dongjae Shin, Hyunseok Lim, Inho Won, Changsu Choi, Minjun Kim, Seungwoo Song, Hangyeol Yoo, Sangmin Kim, Kyungtae Lim

date Time:2024-03-18

paper pdf:http://arxiv.org/pdf/2403.11399v1

摘要：
大型语言模型（LLM）的发展给人留下了深刻印象，目前正在向大型多模态模型（LMM）领域扩展，后者除文本外还包含多种类型的数据。然而，多模态模型的性质导致在创建训练数据方面花费巨大。此外，由于语言的多样性和复杂性，为 LMM 构建多语言数据也面临着一系列挑战。因此，在本研究中，我们提出了两种经济有效的方法来解决这一问题：(1) 针对特定语言对多语言 LLM 进行词汇扩展和预训练；(2) 使用 GPT4-V 自动构建多模态数据集。基于上述方法，我们构建了一个 91K 英韩汉多语种多模态训练数据集。此外，我们还开发了一种双语多模态模型，该模型在韩语和英语中均表现出色，超越了现有方法。

22.Correcting misinformation on social media with a large language model

标题:利用大型语言模型纠正社交媒体上的错误信息

author:Xinyi Zhou, Ashish Sharma, Amy X. Zhang, Tim Althoff

publish:50 pages

date Time:2024-03-17

paper pdf:http://arxiv.org/pdf/2403.11169v1

摘要：
错误信息破坏了公众对科学和民主的信任，尤其是在社交媒体上，不准确的信息会迅速传播。事实证明，专家和非专业人士通过人工识别和解释不准确信息，可以有效地纠正错误信息。然而，这种方法难以推广，因为大语言模型（LLM）等技术使错误信息更容易产生。大型语言模型还具有多功能性，可以加速错误信息的纠正；但是，由于缺乏最新信息、容易产生似是而非的内容和引用以及在处理多模态信息方面的局限性，大型语言模型在这方面还存在困难。为了解决这些问题，我们提出了 MUSE，这是一种可访问最新信息并对其可信度进行评估的 LLM。通过检索上下文证据和反驳，MUSE 可以提供准确可信的解释和参考。它还能描述视觉效果并进行多模态搜索，以纠正多模态错误信息。我们招募了事实核查和新闻专家，从解释的事实性和参考文献的相关性等 13 个方面对真实社交媒体帖子的更正进行评估。结果表明，MUSE 有能力在错误信息出现在社交媒体上后及时更正；总体而言，MUSE 比 GPT-4 高出 37%，甚至比普通人的高质量更正高出 29%。这项工作凸显了 LLM 在有效打击现实世界中的错误信息方面的潜力。

23.ProgGen: Generating Named Entity Recognition Datasets Step-by-step with Self-Reflexive Large Language Models

标题:ProgGen：利用自反式大型语言模型逐步生成命名实体识别数据集

author:Yuzhao Heng, Chunyuan Deng, Yitong Li, Yue Yu, Yinghao Li, Rongzhi Zhang, Chao Zhang

publish:under review

date Time:2024-03-17

paper pdf:http://arxiv.org/pdf/2403.11103v1

摘要：
虽然大语言模型（LLM）在跨领域方面表现出了卓越的适应性，但这些模型在命名实体识别（NER）等结构化知识提取任务中往往表现不佳。本文探讨了一种创新的、具有成本效益的策略，利用具有适度 NER 能力的 LLM 来生成卓越的 NER 数据集。我们的方法不同于基本的类条件提示，而是指示 LLM 对特定领域进行自我反思，从而生成与领域相关的属性（如电影评论的类别和情感），并利用这些属性创建属性丰富的训练数据。此外，我们还预先生成实体术语，然后围绕这些实体开发 NER 上下文数据，从而有效地绕过了 LLMs 在处理复杂结构时所面临的挑战。我们在一般领域和特殊领域的实验表明，与传统的数据生成方法相比，该方法的性能有了显著提高，同时比现有的替代方法更具成本效益。

24.SelfIE: Self-Interpretation of Large Language Model Embeddings

标题:SelfIE：大型语言模型嵌入的自我解释

author:Haozhe Chen, Carl Vondrick, Chengzhi Mao

date Time:2024-03-16

paper pdf:http://arxiv.org/pdf/2403.10949v1

摘要：
大型语言模型（LLM）是如何获得答案的？能否解释和控制 LLM 的推理过程是可靠性、透明度和未来模型开发的关键。我们提出的 SelfIE（嵌入式自我解释）是一个框架，它能让 LLMs 通过利用其对给定段落的询问做出回应的能力，在自然语言中解释自己的嵌入式。SelfIE 能够解释隐藏嵌入中的开放世界概念，揭示 LLM 在做出道德决定、内化提示注入和回忆有害知识等情况下的内部推理。SelfIE 对隐藏嵌入的文本描述也为控制 LLM 推理开辟了新途径。我们提出了 “监督控制”（Supervised Control），它允许编辑开放式概念，同时只需要对单个层进行梯度计算。我们将 RLHF 扩展到了隐藏嵌入式，并提出了强化控制法，可以在没有监督目标的情况下清除 LLM 中的有害知识。

25.Detecting Bias in Large Language Models: Fine-tuned KcBERT

标题:检测大型语言模型中的偏差：微调 KcBERT

author:J. K. Lee, T. M. Chung

publish:14 pages, 5 figures

date Time:2024-03-16

paper pdf:http://arxiv.org/pdf/2403.10774v1

摘要：
大型语言模型（LLMs）的快速发展使自然语言处理能力与人类相仿，LLMs 正被广泛应用于教育和医疗保健等各个社会领域。虽然这些模型的通用性得到了提高，但它们也有可能产生主观和规范性的语言，导致社会群体之间的歧视性待遇或结果，特别是由于网络冒犯性语言。在本文中，我们将这种伤害定义为社会偏见，并通过基于模板的掩码语言建模（MLM），利用双向编码器转换器（KcBERT）和 KOLD 数据对韩国评论进行微调，评估模型中的民族、性别和种族偏见。为了定量评估偏差，我们采用了 LPBS 和 CBS 指标。与 KcBERT 相比，微调模型减少了种族偏差，但在性别和种族偏差方面有显著变化。基于这些结果，我们提出了两种减轻社会偏见的方法。首先，在预训练阶段采用数据平衡方法，通过调整特定词语的出现分布以及将周围的有害词语转换为非有害词语来调整数据的统一性。其次，在训练中阶段，我们通过调整丢弃率和正则化来应用去偏正则化（Debiasing Regularization），从而证实了训练损失的减少。我们的贡献在于证明了韩语模型中存在的社会偏差是由语言特点决定的。

26.DRAGIN: Dynamic Retrieval Augmented Generation based on the Real-time Information Needs of Large Language Models

标题:DRAGIN：基于大型语言模型实时信息需求的动态检索增强生成技术

author:Weihang Su, Yichen Tang, Qingyao Ai, Zhijing Wu, Yiqun Liu

date Time:2024-03-15

paper pdf:http://arxiv.org/pdf/2403.10081v1

摘要：
动态检索增强生成（RAG）范式在大型语言模型（LLM）的文本生成过程中主动决定检索的时间和内容。该范式有两个关键要素：确定激活检索模块的最佳时机（决定何时检索）和检索触发后制作适当的查询（决定检索什么）。然而，目前的动态 RAG 方法在这两方面都存在不足。首先，决定何时检索的策略往往依赖于静态规则。此外，决定检索内容的策略通常仅限于 LLM 最近的句子或最后几个词组，而 LLM 的实时信息需求可能跨越整个上下文。为了克服这些局限性，我们引入了一个新的框架 DRAGIN，即基于 LLM 实时信息需求的动态检索增强生成（Dynamic Retrieval Augmented Generation based on the real-time Information Needs of LLMs）。我们的框架专门设计用于在文本生成过程中根据 LLM 的实时信息需求决定何时检索以及检索什么。我们在 4 个知识密集型文本生成数据集上对 DRAGIN 和现有方法进行了全面评估。实验结果表明，DRAGIN 在所有任务中都取得了优异的性能，证明了我们方法的有效性。我们已将所有代码、数据和模型开源到 GitHub：https://github.com/oneal2000/DRAGIN/tree/main

27.Lost in Overlap: Exploring Watermark Collision in LLMs

标题:在重叠中迷失：探索 LLM 中的水印碰撞

author:Yiyang Luo, Ke Lin, Chao Gu

publish:Short Paper, 4 pages

date Time:2024-03-15

paper pdf:http://arxiv.org/pdf/2403.10020v1

摘要：
大型语言模型（LLM）在生成内容方面的普及引发了对文本版权的担忧。水印方法，尤其是基于对数的方法，将不易察觉的标识符嵌入文本中，以应对这些挑战。然而，在问题解答和转述等常见任务中，水印在不同 LLM 中的广泛使用导致了一个不可避免的问题，即水印碰撞。本研究侧重于双水印碰撞，即同一文本中同时存在两个水印。研究表明，水印碰撞会对上游和下游水印算法检测器的检测性能造成威胁。