破解搜索质量的关键:判断列表的作用

数据库 创建于:05-30 15:15

作者:来自 Elastic Daniel Wrigley

探索为什么判断列表(udgment list)是必不可少的、判断的不同类型,以及定义搜索质量的关键因素。

Elasticsearch 拥有大量新功能,帮助你为你的使用场景构建最佳的搜索解决方案。现在就深入我们的示例笔记本了解更多内容,开始免费云试用,或者在你的本地机器上试用 Elastic。


在当今数字时代,搜索引擎是我们获取信息的支柱。无论是网页搜索引擎、电商网站、企业内部搜索工具,还是 RAG ( Retrieval Augmented Generation )系统,搜索结果的质量直接影响用户的满意度和参与度。但是什么能确保搜索结果符合用户的期望?这就需要判断列表(judgment list) —— 一个用于评估和优化搜索结果质量的工具。在 OpenSource Connections,我们的专家经常帮助客户创建和使用判断列表,以提升用户的搜索体验。本文将探讨判断列表为何必不可少、判断的不同类型,以及定义搜索质量的关键因素。

为什么需要判断列表?

判断列表在持续改进搜索结果质量的循环中扮演着关键角色。它们通过提供一组精心整理的评估,来判断搜索结果是否真正满足用户需求,从而为评估搜索相关性提供可靠的基准。如果没有高质量的判断列表,搜索团队将难以解读来自用户和自动化信号的反馈,也就难以验证提升搜索效果的假设。例如,如果某个团队假设混合搜索会提高相关性,并预计点击率( CTR )会提升 2%,他们就需要判断列表来对比调整前后的表现,才能得出有意义的结论。

这些列表有助于将实验结果建立在客观标准之上,确保在大规模上线之前,改动确实对业务结果有积极影响。通过维护强大的判断列表,搜索团队可以更有信心地进行迭代,从而以结构化、数据驱动的方式优化搜索体验。

判断列表是一组搜索查询与其对应结果的相关性评分组合,也被称为测试集合。利用该列表计算的指标可作为衡量搜索引擎性能的基准。以下是判断列表不可或缺的原因:

  • 评估搜索算法:帮助确定搜索算法是否为给定查询返回了最相关的结果。

  • 衡量改进或退步:当你对搜索引擎进行更改时,判断列表可以量化这些更改对结果质量的影响。

  • 提供用户满意度洞察:通过模拟期望结果,判断列表能让系统性能更贴近用户需求。

  • 帮助产品开发:通过明确产品需求,判断列表支持搜索工程师实现这些目标。

例如,当用户搜索 “500 美元以下的最佳智能手机” 时,判断列表可以判断结果是否不仅列出了相关产品,还能满足查询中 “价格实惠” 和 “质量优秀” 的意图。

判断列表用于离线测试。离线测试可以在不耗费时间进行 A/B 测试等线上实验之前,实现快速、低成本的迭代。理想情况下,结合线上和离线测试可以最大限度地提升实验效率,并确保搜索质量稳步提升。

什么是判断?

从本质上讲,判断是一种对某个搜索结果在特定查询下的相关性进行评分的方式。判断主要分为两种类型:二元判断等级判断

二元判断

  • 结果被标记为相关(1)或不相关(0)。
  • 示例:针对查询 “无线耳机” 返回的产品页面,要么符合查询意图,要么不符合。
  • 使用场景:二元判断简单,适用于答案明确的查询。

等级判断

  • 结果被赋予一个范围内的相关性分数(例如 0 到 3),每个数值表示不同的相关程度:
    • 0:完全不相关

    • 1:可能不相关

    • 2:可能相关

    • 3:完全相关

  • 示例:对于查询 “最适合玩游戏的笔记本电脑”,搜索结果可能评分如下:
    • 3:专为游戏设计的笔记本电脑页面

    • 2:可能适合玩游戏的笔记本电脑页面

    • 1:与游戏相关的配件

    • 0:与游戏笔记本无关的内容

  • 评分也可以是分类而不是数字,例如:
    • 完全匹配(Exact)

    • 可替代(Substitute)

    • 补充(Complement)

    • 不相关(Irrelevant)

  • 使用场景:等级判断适用于需要细致评估相关性的查询,超出 “相关/不相关” 的简单判断。这种方式适合受多个因素影响的相关性场景。

有些评估指标明确要求使用非二元判断。当我们希望在评估指标中模拟用户特定的信息检索行为和期望时,会使用等级判断。例如:

  • 增益类指标,如 折扣累计增益( DCG

  • 归一化折扣累计增益( nDCG

  • 预期倒数排名( ERR

这些指标可以建模出用户对结果满意程度存在差异但仍然相关的情况,这对于那些在做决策前进行研究和信息收集的用户特别有用。

判断列表示例

我们来看一个用于电商搜索引擎的判断列表示例:

Query Result URL Relevance
wireless headphones /products/wireless-headphones-123 3
wireless headphones /products/noise-cancelling-456 3
best laptops for gaming /products/gaming-laptops-789 3
best laptops for gaming /products/ultrabook-321 2

在这个列表中:

  • 查询 “ wireless headphones ” 用来评估两个产品页面的相关性,分数表示结果满足用户意图的程度。
  • 得分为 3 表示高度相关,非常匹配,而较低的得分表示结果不够理想。

这种结构化的方法让搜索团队能够客观地评估和优化他们的搜索算法。

不同类型的判断

要创建一个 judgment list,你需要评估搜索结果的相关性,而这个评估可以来自不同的来源。每种类型都有其优点和局限性:

1. 明确判断

由人工评估者根据预定义的指南来评估搜索结果。通常会优先选择领域专家(Subject Matter Experts - SMEs)作为评估者,因为他们具备专业知识。明确判断具有很高的准确性和细致的洞察力,但也存在一些挑战。它在评估文档对查询的实际相关性方面非常有效。

  • 优点: 准确性高、能细致理解意图、能解释复杂查询。
  • 局限性: 对于大规模数据集来说耗时高、成本高,并存在一些挑战。

挑战:

  • 差异性:不同评估者可能对同一结果的判断不同,造成不一致。

  • 位置偏差:排名靠前的结果往往被认为更相关,无论其实际质量如何。

  • 专业程度:并非所有评估者都具有相同的领域或技术知识,可能导致不准确。

  • 理解偏差:用户意图或查询背后的信息需求可能不清晰或难以理解。

  • 多任务处理:评估者可能同时处理多个任务,导致注意力不集中。

  • 疲劳:判断过程可能较耗神,随着时间推移判断质量下降。

  • 实际相关性 vs 感知相关性:一些结果乍看似乎相关(例如误导性的产品图片),但仔细审查后并不相关。

  • 可扩展性:随着数据集增长,如何高效收集足够的判断成为一个后勤难题。

最佳实践:
为应对这些挑战,请遵循以下指南:

  • 明确定义信息需求和任务,减少评估者评分的差异。

  • 对评估者进行充分培训,并提供详细指导。

  • 避免在列表视图中进行判断,以减少位置偏差。

  • 比较不同群体(例如领域专家 vs 一般评估者)的判断结果,找出差异。

  • 使用众包或专业评估机构来高效扩展评估流程。

2. 隐式判断

隐式判断是通过用户行为数据推断得出的,例如点击率(click-through rates - CTR)、停留时间和跳出率。虽然它们具有显著优势,但也面临一些独特挑战。除了相关性,隐式判断还能反映与用户偏好相关的搜索结果质量因素(例如价格、配送时间),以及能满足用户某些需求或吸引用户注意的因素(例如产品的可持续性特征)。

  • 优点: 可扩展且基于真实使用场景,可在无需人工干预的情况下收集大量数据。
  • 局限性: 容易受到偏差等问题影响,降低判断的可靠性。

挑战:

  • 点击数据较嘈杂:用户可能因搜索结果页面信息缺失或不清晰而点击某结果,而非因为该结果真正相关。

  • 偏差

    • 位置偏差:用户更倾向于点击排名靠前的结果,而不考虑实际相关性。

    • 展示偏差:用户无法点击未展示的内容,导致一些潜在相关结果缺乏交互数据。

    • 概念偏差:例如,在网格视图中,用户往往更频繁地与边缘位置的结果交互。

  • 稀疏性问题:像 CTR 这样的指标在数据较少时容易失真(例如仅 1 次展示和 1 次点击时 CTR = 1.0)。

  • 无自然扩展点:基本模型如 CTR 缺乏处理复杂用户行为或反馈的机制。

最佳实践:

为缓解上述挑战并最大化隐式判断的价值,请遵循以下方法:

3. AI 生成的判断

AI 生成的判断利用大型语言模型(LLMs),如 OpenAI 的 GPT-4o,对查询-文档对进行评判。这种判断因其可扩展性和成本效益正在逐渐流行。LLMs 作为评判者能较好地捕捉文档对给定查询的实际相关性。

  • 优点: 成本效益高、可扩展、在大规模数据集上保持一致,能快速评估大量结果。
  • 局限性: AI 生成的判断可能缺乏特定上下文理解,带有训练数据中的偏见,且对极端案例处理不佳。

挑战:

  • 训练数据偏差:AI 模型的输出质量取决于训练数据,可能继承或放大偏见。

  • 上下文细微差别:AI 可能难以处理需要人类理解的主观或模糊查询。

  • 可解释性:理解模型为何做出特定判断较困难,降低系统信任度。

  • 可扩展性权衡:虽然 AI 容易扩展,但确保所有评估质量需要大量计算资源和可能的微调。

  • 成本:虽然 LLM 判断可扩展,但并非免费,应密切监控费用。

最佳实践:

为应对这些挑战并充分利用 AI 生成的判断,请采取以下措施:

  • 融入人工监督:定期将 AI 判断与人工明确评估进行比对,发现错误和极端案例,并用此信息优化提示词。

  • 提升可解释性:使用可解释 AI 技术提升对 LLM 决策的理解和信任,让 LLMs 在提示中解释其判断理由。

  • 优化计算资源:投资平衡可扩展性与成本效益的基础设施。

  • 结合其他判断类型:将 AI 生成判断与显式和/或隐式判断结合,形成全面的评估体系。

  • 提示词设计:花时间优化提示词,即使是小改动也能显著提升判断质量。

搜索质量的不同因素

不同类型的判断涵盖搜索质量的不同方面或因素。我们可以将搜索结果质量因素分为三类:

  • 搜索相关性: 衡量文档与查询中表达的信息需求的匹配程度。例如:
    • 二元判断:文档是否满足查询(相关或不相关)?

    • 分级判断:文档在细微尺度上满足查询的程度如何?

        显式判断和 AI 生成的判断在捕捉搜索相关性方面表现良好。

  • 相关性因素: 关注文档是否符合特定用户偏好。例子包括:
    • 价格:结果是否负担得起或在指定范围内?

    • 品牌:是否属于用户偏好的品牌?

    • 可用性:物品是否有库存或可立即使用?

        隐式判断能够很好地捕捉相关性因素。

  •  满足度方面: 超越相关性和偏好,考虑文档如何契合更广泛的用户价值或目标。例子包括:
    • 可持续性:产品或服务是否促进环境责任?

    • 道德规范:公司或提供商是否以公平贸易或道德标准著称?

      满足度方面是最难以衡量和量化的。了解你的用户是关键,而隐式反馈是朝这个方向迈进的最佳方式。注意隐式反馈中的偏见,并采用技术尽可能地对抗这些偏见,例如在基于隐式反馈建模判断时

通过系统地解决这些因素,搜索系统能够确保对结果质量进行全面的评估和提升。

判断列表在搜索质量改进周期中的位置

搜索质量改进是一个迭代过程,涉及评估和优化搜索算法以更好地满足用户需求。判断列表在离线实验中(下图中较小的左侧循环)起着核心作用,在这里,搜索结果根据预定义的相关性评分进行测试,不涉及实时用户。这使团队能够对性能进行基准测试,识别弱点,并在部署更改之前进行调整。离线实验是一种快速且低风险的方式,用于探索潜在改进,然后再在在线实验中验证。

在线实验(较大、右侧循环)利用实时用户交互,如 A/B 测试,收集对系统更新的真实反馈。离线实验通过判断列表确保基础质量,在线实验捕捉动态的现实细节和用户偏好。两者相辅相成,构成了一个全面的搜索质量改进框架。

 

创建判断列表的工具

创建判断列表的核心是一个标注任务,最终目的是为查询-文档对添加相关性标签。现有的一些服务包括:

  • Quepid:一个开源解决方案,支持从创建查询集到用判断列表衡量搜索结果质量的整个离线实验生命周期,判断列表可在 Quepid 中创建。

  • Label Studio:一个数据标注平台,主要用于生成训练数据或验证 AI 模型。

  • Amazon SageMaker Ground Truth:一个云服务,提供数据标注以在机器学习生命周期中应用人工反馈。

  • Prodigy:一个完整的数据开发体验,带有数据标注功能。

展望未来:使用 Quepid 创建判断列表

这篇文章是搜索质量评估系列的第一篇。下一篇我们将深入讲解如何使用一个叫 Quepid 的特定工具一步步创建显式判断。Quepid 简化了构建、管理和完善判断列表的流程,使团队能够协作提升搜索质量。敬请期待关于如何利用这个工具提升搜索结果质量的实用技巧和见解。

总结

判断列表是搜索质量评估的基石,提供了衡量性能和指导改进的可靠基准。通过结合显式、隐式和 AI 生成的判断,组织能够全面覆盖搜索质量的多方面 —— 从相关性和准确性到个性化和多样性。结合这些方法可以确保一个全面且稳健的评估策略。

投入完善的搜索质量策略不仅提升用户满意度,还能让你的搜索系统成为可信赖的工具。无论你是在管理搜索引擎还是优化内部搜索功能,认真对待判断和搜索质量因素对成功至关重要。

Open Source Connections 合作,提升你的搜索能力,赋能团队持续进化。我们有全球客户成功案例,持续带来搜索质量、团队能力和业务绩效的显著提升。欢迎联系我们了解更多。

 

原文:Cracking the code on search quality: The role of judgment lists - Elasticsearch Labs

 

原文地址:https://my.oschina.net/u/3343882/blog/18513695

免责声明:本文来源于互联网,版权归合法拥有者所有,如有侵权请公众号联系管理员

* 本站提供的一些文章、资料是供学习研究之用,如用于商业用途,请购买正版。

elasticstack