NAACL 2024 | 基于LLM的问答系统：表格转文本方法为什么能成功？

2024-05-24 05:05

©PaperWeekly 原创 · 作者 | 闵德海

单位 | 东南大学硕士生

研究方向 | 大语言模型问答

使用特定领域数据增强大型语言模型（LLM）进行问答（QA）已引起社区的广泛研究和关注。然而，领域数据通常以混合格式存在，包括文本和半结构化表格，这为信息的无缝整合带来了挑战。表格转文本生成是一种通过促进混合数据转换为统一文本格式语料库的有前景的解决方案。尽管自然语言处理（NLP）社区已广泛研究了这种技术，但目前仍没有关于不同表格转文本策略生成的语料库如何影响 QA 系统性能的比较分析。

在本文中，我们分两步解决这一研究空白。首先，我们创新性地将表格转文本生成集成到使用混合领域数据增强基于 LLM 的 QA 系统的框架中。然后，我们利用这一框架在真实的工业数据中对两种类型的 QA 系统（DSFT 和 RAG 框架）进行广泛的实验，使用四种代表性方法：Markdown格式、模板序列化、基于 TPLM 的方法和基于 LLM 的方法。

基于实验结果，我们得出了一些经验性发现，并探索了某些方法成功背后的潜在原因。我们希望这项工作的发现能为学术界和工业界在开发稳健的 QA 系统方面提供宝贵的参考。

论文标题：

Exploring the Impact of Table-to-Text Methods on Augmenting LLM-based Question Answering with Domain Hybrid Data

论文作者：

闵德海（东南大学）、胡楠（东南大学）、金日辉（东南大学）、林诺（东南大学）、陈矫彦（曼彻斯特大学）、陈永锐（东南大学）、李煜（东南大学）、漆桂林（东南大学）、李昀（华为）、李拟珺（华为）、王乾人（华为）

论文录用：

NAACL-2024 Industry Track Paper（Oral）

论文地址：

https://arxiv.org/abs/2402.12869

引言

在特定领域的问答（QA）中增强大型语言模型（LLM）的性能一直是研究的焦点，主要采用两种关键方法 [1][2]：领域特定的微调（DSFT），即在特定领域语料上训练 LLM [3][4]；以及检索增强生成（RAG），利用特定领域语料作为外部知识库 [5]。这些方法利用 LLM 固有的文本处理优势，在仅文本的场景中得到了广泛应用，取得了显著的改进。

然而，许多领域的现实世界数据通常以混合格式存在，不仅包括文本，还包括大量的半结构化表格，常见于科学文献和医疗报告等场景 [6]。这些表格经常与文本一起出现在同一文档中，提供语义上的补充或互补信息，这对于全面理解内容至关重要。在探索利用混合数据来增强 LLM 性能的潜力时，有效整合这些数据，确保文本和表格的共存是至关重要的。

目前处理文本和表格异质性的方法存在显著缺陷：1）直接通过行与行之间的单元格连接来展平表格，不仅会导致原始表格中嵌入的结构信息丢失，还会切断单元格之间的信息链接 [7][8]；2）将文本和表格分别映射到不同的向量空间，然后再整合它们，这不仅增加了复杂性，还破坏了两种数据类型之间的语义联系 [9][10]。

表格转文本生成 [11][12] 是一种有前景的解决方案，旨在生成忠实描述所提供表格信息的自然语言表述。通过这种方式，我们可以将混合数据转换为更适合 LLM 使用的统一自然语言表达，同时保留表格中的重要信息和数据之间的语义联系。尽管表格转文本生成已被 NLP 社区广泛研究，但目前还没有比较分析不同表格转文本方法生成的语料如何影响特定领域 QA 系统的性能。

在这项工作中，我们通过两个步骤解决这一研究空白。首先，我们创新性地将表格转文本生成整合到以混合领域数据增强基于 LLM 的 QA 系统的框架中。然后，我们利用这一框架对两种类型的 QA 系统（DSFT 和 RAG 范式）进行广泛的实验，采用四种代表性的表格转文本方法。

我们选择以下四种策略：1）Markdown 格式；2）模板序列化；3）TPLM-based 方法；4）LLM-based 方法。这些策略在复杂性和底层技术方面各不相同。Markdown 和模板序列化提供简单性，而基于 TPLM 和基于 LLM 的方法利用先进语言模型的能力生成更细腻的文本。

在实施方面，我们收集了一个名为 ICT-DATA 的真实混合数据集，通过从关于信息和通信技术（ICT）产品的众多文档中提取文本和表格。重要的是，表格中包含的文本约占 ICT-DATA 总内容的 18%（基于词数统计）。我们使用不同的表格转文本方法处理 ICT-DATA 中的表格，获得不同的 ICT 语料。然后利用这些语料构建 QA 系统。

此外，我们创建了一个名为 ICTQA 的基准数据集，该数据集包含基于 ICT-DATA 知识的 QA 对。这个数据集特别适合评估增强的 LLM，因为它包含了一些通用 LLM 培训阶段未涵盖的行业特定知识。

据我们所知，我们的研究是第一个全面比较不同表格转文本策略在基于混合领域数据增强的 LLM QA 系统上的表现。我们的主要发现如下：

表格转文本方法显著影响 QA 系统的性能，相对得分差异在人类评估中从 2.8% 到 9.0% 不等，在 GPT-4 评估中从 4.8% 到 16% 不等。在两个系统中，选择合适的方法可以带来相当的好处。
在 DSFT 范式中，基于 LLM 和基于 TPLM 的方法始终优于其他方法，显示出它们的优越性。在 RAG 范式中，尽管基于 LLM 的方法仍表现出色，Markdown 显示出意外的有效性。
这些方法产生的领域特定术语和动词的不同频率，以及生成的文本块中语义表达的不同质量，似乎是影响两个系统性能差异的关键因素。

表格转文本

表 1 提供了这些方法在资源需求、处理速度和文本多样性方面的比较分析。

Markdown 格式：一种直接使用 Markdown 格式表示表格的方法。它不涉及模型训练，可以通过脚本快速处理，无需人工干预。
模板序列化：此方法使用一组基于表格特征设计的模板进行文本化。与 Markdown 方法相比，由于使用了多个预先准备好的模板来适应不同类型的表格，它在生成的文本中实现了略高的多样性，这需要一些人工参与。
基于 TPLM 的方法：该方法涉及对传统预训练语言模型（TPLM），如 T5 和 BART，在特定的表格转文本生成任务数据集上进行微调。在本文中，我们使用了 MVP 模型，该模型首先在众多自然语言生成数据集上预训练 BART 模型，然后在各种跨领域表格转文本数据集上进行微调。它允许通过微调调整输出，提供更高的灵活性和领域适应性，同时需要更多的计算资源。
基于 LLM 的方法：最近使用 LLM 进行此任务的工作引起了显著关注。令人印象深刻的是，[13] 表明 GPT-* 模型通常优于表现最佳的微调模型。我们参考他们的发现，并在我们的工作中使用 ChatGPT 和 one-shot 设置。与基于 TPLM 的方法类似，这种方法可以使用上下文学习对输出进行定制。此外，使用某些专有 LLM 的 API 可能存在领域数据泄露的风险。

▲ 表1 表格转文本方法的比较：资源使用、生成速度和生成文本的多样性。

如图 1 所示，我们将四种典型的表格文本化方法应用于 ICT-DATA 数据集，形成了四个不同的语料库。

▲ 图1 四个领域语料库生成过程的图示。不同的表格到文本方法应用于领域文档的表格，生成不同的文本。这些生成的文本然后与原始文档文本合并，产生了不同的领域语料库。

基于领域语料库构建基于LLM的QA系统

我们分别介绍两个基于 LLM 的 QA 系统如何使用这些语料库。它们的框架概览如图 2 所示。

▲ 图2 领域增强的 LLM 问答系统框架

DSFT 领域特定微调

我们首先在 ICT 语料上预训练 LLM，使模型逐步学习领域知识。随后，我们通过指令微调将模型适应 QA 任务。

RAG检索增强生成

在这个范式中，我们采用 LangChain 框架，结合 Dense Passage Retriever （DPR），该方法包括多步骤过程：1）将大型语料库分割成较小的块；2）通过编码器将每个文本块编码成一个向量，这个向量捕捉其语义本质；3）为这些向量建立一个索引向量存储库，优化存储以实现高效检索；4）对于每个查询，检索最相关的文本块；5）使用查询和检索到的信息来生成最终答案。

数据集与评估指标

评估数据集

ICT-DATA：我们基于 170 份与 ICT 产品相关的英文技术文件收集了 ICT-DATA。每份产品文件包含表格和文本，其内容包括产品描述、配置指南、术语和定义等。总存储大小约为 6GB。此外，表格数据中的单词数约占数据集总单词数的 18%。

ICTQA：我们创建 ICTQA 数据集来评估领域 QA 系统的性能，通过从实际 ICT 产品技术支持 QA 平台收集 9,000 个带有长答案的问题。我们手动选择 500 个问题作为测试集，其答案涉及表格和文本两方面的知识。其余的 QA 对被用作 DSFT 范例中指令微调阶段的训练集。

评估指标

自动化评估指标：鉴于传统的基于词汇重叠的指标（如 BLEU）不适用于评估 LLM 生成的长篇回答的质量，我们使用 GPT-4 在 one-shot 设置下作为评估器，根据响应与标准答案的相似度进行评分。分数范围是从 0 到 5 离散值；0 表示不连贯的输出，例如重复的字段或回复“我不知道答案”，1 表示与黄金答案相似度最低，5 表示准确的答案。

人工评估：本文还使用了三名具有领域知识的评估人员根据模型相应的有用性和与标准答案的相似性对答案进行评分，使用与 GPT-4 相同的评分标准，范围从 0 到 5。

实验设置

在 DSFT 范式中：我们使用 Meta的OPT（1.3B 到 13B）和 Llama2-base（7B，13B）作为基础模型。为了减少训练成本，我们采用 QLoRA 策略进行预训练和指令微调。

在 RAG 范式中：我们使用 Llama2-chat 模型（7B、13B 和 70B）和 GPT3.5-turbo 进行推理。我们将语料库分成较小的块，确保句子的完整性并将其长度保持在 3000 个字符以下。随后，使用 BGE 嵌入模型将文本块向量化。我们利用 FAISS 库根据相似性检索前 3 个相关文本块的向量。将这些块与相应的问题一起输入到 LLM 中，通过 LangChain 中的 RAG-Chain 进行回答。

公平比较：为了保持一致性和控制变量，所有模型都在四个不同的语料库上以相同的设置进行训练或使用。详细的训练参数和 GPU 成本可以在原文中找到。

实验结果

6.1 Overall Results

表 2 和表 3 分别显示了 DSFT 范式和 RAG 范式 QA 系统在 ICTQA 测试集上不同 QA 系统设置的平均分数。我们可以看到，由不同表格转文本方法生成的语料库增强的两种类型 QA 系统在性能上存在显著差异。它们的相对得分差异在人工评估中范围从 2.8% 到 9.0%，在 GPT-4 评估中从 4.8% 到 16%。

▲ 表2. DSFT 系统中四种代表性表格转文本方法下的人类评估和 GPT-4 评估的平均分数。相对得分差异（RSD）使用公式（最高分 - 最低分）/ 5 计算。

从表 2 中，我们注意到在 DSFT 范式中，使用语言模型进行表格转文本生成的 TPLM-based 和 LLM-based 方法在不同模型中表现良好。特别是，LLM-based 方法在许多模型中显示出最佳性能。

▲ 表3. RAG 系统中四种代表性表格转文本方法下的人类评估和 GPT-4 评估的平均分数。

另一方面，在表 3 中 RAG 范式提供了不同的观察结果。虽然 LLM-based 方法继续展示出卓越的性能，但 Markdown 格式在 RAG 范式中相比于 DSFT 显示出显著且意外的改进性能，甚至在一些模型中表现最好。

为了进一步说明这些发现，我们在图 3 中展示了一些 QA 系统得分的比较结果。我们可以清楚地观察到平均得分较高的方法也有更高的概率在每个问题上获得更好的得分。这些观察结果强调了在构建领域特定 QA 系统时选择适当的表格数据处理方法的必要性。

▲ 图3. 使用不同表格到文本方法的问答模型之间的人工评估分数比较。“A vs. B 获胜”表示测试集实例中模型 A 的分数超过模型 B 的百分比。

6.2 RQ：它们的性能差异的潜在原因是什么？

由于 DSFT 和 RAG 系统以不同方式利用领域语料库，我们将分别讨论它们。

对于DSFT范式

受到 [14][15][16] 的研究启发，这些研究表明 LLMs 回答事实问题的能力与它们预训练语料中显著实体的频率之间存在相关性和因果关系，我们也观察到不同的表格转文本方法在描述表格时对领域动词的偏好不一致。遵循 [17][18] 的方法，我们从 ICTQA 测试集中的 QA 对中提取领域术语集和相关动词集。然后，我们计算这些术语和动词在不同表格转文本方法生成的语料中的绝对频率。

▲ 表4. 不同方法生成的语料库中包含的领域动词和术语的绝对频率

在表 4 中，我们可以清楚地看到不同语料库中这些频率的显著差异。例如，基于 LLM 的方法显示的术语频率是模板方法的两倍以上，动词频率是四倍。这是因为基于 LLM 的方法在描述表格时倾向于用领域实体补充主题，并在动词上展示更大的多样性。

相比之下，模板方法使用更多的代词，如 “It”，和单调的谓词（通常是 “be” 动词）。通过将这些频率排名与表 2 中显示的系统 QA 性能进行比较，我们可以观察到它们之间的正相关性：频率较高的方法，特别是 TPLM 和基于 LLM 的方法，对应于 DSFT 系统中更优越的 QA 能力。

对于RAG范式

在相同的 LLM 作为 Reader 的设置下，语义空间的检索精确度对 RAG 性能至关重要 [19]。检索过程涉及选择与查询向量相似度得分最高的向量化块。

▲ 图4. RAG 系统嵌入空间中块簇的 t-SNE 可视化

为了研究不同方法对检索效果的影响，我们使用 t-SNE 在图 4 中可视化查询及相关块在语义空间中的聚类情况。可以清晰地看到表现良好的基于 LLM 和 Markdown 方法生成的文本块在语义空间中更接近查询向量。这使得与问题相关的块更有可能被检索到，从而提高系统的性能。这表明，在使用 DPR 方法的 RAG 框架中，这些方法生成的文本具有更友好的检索语义表示和查询与文档之间更好的对齐。

6.3 关于选择表格转文本方法的实用建议

基于上面的结果，我们可以知道在两种框架中，基于 LLM 的策略（例如使用 one-shot 设置的 ChatGPT）表现出色且可靠。如果基于 LLM 方法的成本或者数据安全担忧而不可接受，那么基于 TPLM 的策略（即选择一个良好微调的表格转文本模型）在 DSFT 范式中是一个很好的替代方案。在 RAG 范式中，简单易用的 Markdown 策略也是一个可行的替代选项。

总结

本文研究了不同的表格到文本方法对使用混合数据构建的基于 LLM 问答系统的影响。具体来说，我们仔细比较了四种代表性方法：Markdown 格式化、模板序列化、基于 TPLM 的方法和基于 LLM 的方法。通过实验，我们展示了在 DSFT 框架中基于 LLM 和基于 TPLM 的方法的优越性，以及在 RAG 框架中基于 LLM 和 Markdown 方法的卓越性。

一个关键发现是这些方法产生的领域特定术语和动词的使用频率不同，以及生成的文本块中语义表示的质量差异，这些似乎是影响两种系统性能差异的关键因素。这些见解不仅揭示了表格到文本生成方法的细微差别，而且对于构建强壮的 LLM 问答系统有着深远的影响。此外，本文的研究为根据特定需求开发领域特定的问答系统提供了实际指导。

参考文献

[1] Li Y, Cui H, Zhang X, Zhao T, Panalkar A, Cheng W, Wang H, Liu Y, Chen Z, Chen H, White C, Gu Q, Pei J, Zhao L. Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey. ArXiv:2305.18703 [cs], 2023.

[2] Wang C, Liu X, Yue Y, Tang X, Zhang T, Jiayang C, Yao Y, Gao W, Hu X, Qi Z, Wang Y, Yang L, Wang J, Xie X, Zhang Z, Zhang Y. Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity. ArXiv:2310.07521 [cs], 2023a.

[3] Gururangan S, Marasović A, Swayamdipta S, Lo K, Beltagy I, Downey D, Smith NA. Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8342–8360, Online. Association for Computational Linguistics, 2020.

[4] Wu C, Lin W, Zhang X, Zhang Y, Wang Y, Xie W. PMC-LLaMA: Towards Building Open-source Language Models for Medicine. ArXiv:2304.14454 [cs], 2023.

[5] Lewis P, Perez E, Piktus A, Petroni F, Karpukhin V, Goyal N, Küttler H, Lewis M, Yih WT, Rocktäschel T, Riedel S, Kiela D. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. In Advances in Neural Information Processing Systems, volume 33, pages 9459-9474. Curran Associates, Inc., 2020b.

[6] Chen W, Zha H, Chen Z, Xiong W, Wang H, Wang WY. Hybridqa: A dataset of multi-hop question answering over tabular and textual data. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 1026–1036, 2020c.

[7] Sui Y, Zhou M, Zhou M, Han S, Zhang D. GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study. ArXiv:2305.13062 [cs], version: 3, 2023.

[8] Xie T, Wu CH, Shi P, Zhong R, Scholak T, Yasunaga M, Wu CS, Zhong M, Yin P, Wang SI, Zhong V, Wang B, Li C, Boyle C, Ni A, Yao Z, Radev D, Xiong C, Kong L, Zhang R, Smith NA, Zettlemoyer L, Yu T. UnifiedSKG: Unifying and Multi-Tasking Structured Knowledge Grounding with Text-to-Text Language Models. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pages 6026-631, Abu Dhabi, United Arab Emirates. Association for Computational Linguistics, 2022.

[9] Li AH, Ng P, Xu P, Zhu H, Wang Z, Xiang B. Dual reader-parser on hybrid textual and tabular evidence for open domain question answering. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 4078–4088, 2021.

[10] Huang J, Zhong W, Liu Q, Gong M, Jiang D, Duan N. Mixed-modality Representation Learning and Pre-training for Joint Table-and-Text Retrieval in OpenQA. In Findings of the Association for Computational Linguistics: EMNLP 2022, pages 4117–4129, Abu Dhabi, United Arab Emirates. Association for Computational Linguistics, 2022.

[11] Luo Y, Lu M, Liu G, Wang S. Few-shot Table-to-text Generation with Prefix-Controlled Generator. In Proceedings of the 29th International Conference on Computational Linguistics, pages 6493–6504, Gyeongju, Republic of Korea. International Committee on Computational Linguistics, 2022.

[12] Cheng Z, Dong H, Wang Z, Jia R, Guo J, Gao Y, Han S, Lou JG, Zhang D. HiTab: A hierarchical table dataset for question answering and natural language generation. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1094–1110, Dublin, Ireland. Association for Computational Linguistics, 2022.

[13] Zhao Y, Zhang H, Si S, Nan L, Tang X, Cohan A. Investigating table-to-text generation capabilities of large language models in real-world information seeking scenarios. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing: Industry Track, pages 160–175, Singapore. Association for Computational Linguistics, 2023b.

[14] Biderman S, Schoelkopf H, Anthony QG, Bradley H, O’Brien K, Hallahan E, Khan MA, Purohit S, Prashanth US, Raff E, Skowron A, Sutawika L, Van Der Wal O. Pythia: A suite for analyzing large language models across training and scaling. In Proceedings of the 40th International Conference on Machine Learning, volume 202 of Proceedings of Machine Learning Research, pages 2397–2430. PMLR, 2023.

[15] Razeghi Y, Logan RL IV, Gardner M, Singh S. Impact of pretraining term frequencies on few-shot numerical reasoning. In Findings of the Association for Computational Linguistics: EMNLP 2022, pages 840–854, Abu Dhabi, United Arab Emirates. Association for Computational Linguistics, 2022.

[16] Elazar Y, Kassner N, Ravfogel S, Feder A, Ravichander A, Mosbach M, Belinkov Y, Schütze H, Goldberg Y. Measuring Causal Effects of Data Statistics on Language Model’s ‘Factual’ Predictions. ArXiv:2207.14251 [cs], 2023.

[17] Zevallos R, Farrús M, Bel N. Frequency Balanced Datasets Lead to Better Language Models. In Findings of the Association for Computational Linguistics: EMNLP 2023, pages 7859–7872, Singapore. Association for Computational Linguistics, 2023.

[18] Wang Y, Kordi Y, Mishra S, Liu A, Smith NA, Khashabi D, Hajishirzi H. Self-instruct: Aligning language models with self-generated instructions. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 13484–13508, Toronto, Canada. Association for Computational Linguistics, 2023c.

[19] Ma X, Gong Y, He P, Zhao H, Duan N. Query rewriting in retrieval-augmented large language models. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pages 5303–5315, Singapore. Association for Computational Linguistics, 2023.

更多阅读