Re: [LLMs] Meta发布可数十种语言互译的AI模型

时间Sat Aug 26 16:36:23 2023

Meta(fb)在github的seamless_communication里面有提供Paper连结(内容超多101页...) SeamlessM4T—Massively Multilingual & Multimodal Machine Translation https://dl.fbaipublicfiles.com/seamless/seamless_m4t_paper.pdf https://github.com/facebookresearch/seamless_communication Paper中用许多方法比较SeamlessM4T与OpenAI的Whisper 因挺有兴趣所以手动用GPT-3.5翻译 _________________ 摘要要创建能够帮助个人在任意两种语言之间进行语音翻译的「巴别鱼(Babel Fish)」工具，需要哪些条件？尽管基於文本的模型最近取得了突破，使机器翻译的涵盖范围超过了200 种语言，但统一的语音到语音翻译模型尚未取得类似的进展。更具体地说，传统的语音到语音翻译系统依赖级联系统，由多个子系统逐步执行翻译，这使得可扩展且高性能的统一语音翻译系统难以实现。为了解决这些问题，我们介绍了「SeamlessM4T」—一个支援语音到语音翻译、语音到文本翻译、文本到语音翻译、文本到文本翻译以及自动语音识别的单一模型，可支援多达100种语言。为了构建这个模型，我们使用了100万小时的开放式语音音频数据，通过w2v-BERT 2.0学习自我监督的语音表示。随後，我们创建了一个多模态语料库，其中包含自动对齐的语音翻译，被称为「SeamlessAlign」。经过过滤并与人工标记的数据和虚标记的数据相结合（总计406,000小时），我们开发出了第一个能够进行从英语到其他语言的语音和文本翻译的多语言系统。在Fleurs数据集上，SeamlessM4T在多种目标语言的翻译中设立了新的标准，在直接的语音到文本翻译中，BLEU指标比先前的最新技术提高了20%。与强级联模型相比，SeamlessM4T在语音到文本的英语翻译质量方面提高了1.3个BLEU点，在语音到语音的英语翻译质量方面提高了2.6个ASR-BLEU点。在CVSS 数据集上，与两阶段级联语音到语音翻译模型相比，SeamlessM4T-Large的性能提高了58% 。对於语音到文本翻译输出进行的初步人工评估同样取得了令人印象深刻的结果；对於从英语翻译而来的翻译，对於24种评估语言，XSTS评分一直在4分（满分5分）以上。对於从其他语言翻译成英语的方向，我们在24种语言中的7种中看到了显着的改进，超过了 Whisper-Large-v2的基准。为了进一步评估我们的系统，我们开发了Blaser 2.0，该版本在跨语音和文本的评估方面具有与前版本相似的准确性，当涉及质量估计时。在耐用性方面经过测试，我们的系统在处理语音到文本任务中的背景噪音和讲话者变化方面表现更好（分别平均提高了38%和49%），相比当前最先进的模型。至关重要的是，我们对性别偏见和添加毒性进行了评估以评估翻译的安全性。与最先进的模型相比，我们报告在翻译输出中添加的毒性减少了高达63%。最後，本工作中的所有贡献——包括模型、推理代码、通过我们改进的建模工具包Fairseq2支援的微调配方，以及用於重新创建未过滤的470,000 小时SeamlessAlign数据的元数据——均已开源，可在下网址获得。 https://github.com/facebookresearch/seamless_communication _________________ 目录 1 引言 2 多模态翻译的社会技术维度 2.1 为什麽在机器翻译中优先考虑语音？ 2.2 语音翻译的现况 2.3 语言 3 SeamlessAlign：自动创建语音对齐数据 3.1 语音语言识别 3.2 规模化获取原始音频和文本数据 3.3 语音挖掘 3.4 相关工作 4 SeamlessM4T 模型 4.1 无监督语音预训练 4.2 X2T：从语音到文本的翻译和转录 4.3 语音到语音翻译 4.4 SeamlessM4T 模型 4.5 分析和消融研究 4.6 相关工作 5 自动评估与人工评估 5.1 模态不可知的自动评估指标：Blaser 2.0 5.2 人工评估 5.3 自动稳健性(Robustness)评估 6 负责任的人工智慧 6.1 定义 6.2 毒性 6.3 偏见 6.4 限制 7 社会影响与结论 7.1 增强世界准备 7.2 未来的工作 A FAIRSEQ2 B 数据统计 C 模型卡(Model Card) - SeamlessM4T _________________ 1.引言《银河系漫游指南》中的「巴别鱼」、《星际争霸战》中的「通用翻译机」以及《异世奇人》中的「塔迪斯翻译电路」都是同一概念的不同变体，这些计算设备赋予了人们在任意两种语言之间进行翻译的能力。抛开其多元的起源，实现这样的愿景在社会上的需求从未如此迫切。首先，日益互相联系的世界需要开发能够在线上和离线上促进和简化多语言交流的技术。此外，移动设备的普及和全球的平台经济为即时语音到语音翻译（S2ST）提供了契机，使其成为大多数人生活中的主要部分。尽管语音在日常交流中至关重要，但今天的机器翻译（MT）系统仍然以文本为中心。如果存在语音支持，则通常被视为其基於文本的对应物的附属品。虽然单一的单模型，如「 No Language Left Behind」（NLLB; [NLLB Team et al., 2022]），将文本到文本翻译（T2TT）的涵盖范围推至超过200种语言，但统一的S2ST模型在范围或性能上远未达到类似的水平。这种基於模式的不平等可能有许多原因，但音频数据的稀缺性和建模限制仍然是关键障碍。从机器翻译的角度来看，语音较难处理的挑战本质上就是它包含了更多的信息和表达成分，这也是它在传达意图并在交谈者之间建立更强社会联系方面的优势。将巴别鱼带入技术实现的核心在於开发基础的语音到语音翻译（S2ST）系统。如今，现有的这种类型的系统存在三个主要缺点。首先，它们往往专注於高资源语言，如英语、西班牙语和法语，而忽略了许多低资源语言。其次，它们主要服务於从源语言到英语（X–eng ）的翻译，而不是相反（eng–X）。第三，大多数S2ST系统今天在很大程度上依赖级联系统，由多个子系统逐步执行翻译，例如从自动语音识别（ASR）到T2TT，然後再到文本到语音合成（TTS）在3阶段系统中进行。试图将这些多种能力统一在一个单一实体下的努力，已经导致了端到端语音翻译系统的早期版本[Lavie et al., 1997; Jia et al., 2019b; Lee et al., 2022a]。然而，这些系统不及其级联对应物的性能[Agarwal et al., 2023]，後者更能够利用大规模多语言组件（例如T2TT的NLLB或ASR的Whisper [Radford et al., 2022]）和无监督或弱监督数据。为了解决这些限制，我们引入了「SeamlessM4T」（大规模多语言和多模态机器翻译），这是一个统一的系统，支援ASR、T2TT、语音到文本翻译（S2TT）、文本到语音翻译（ T2ST）以及S2ST（有关概述，请参见表1）。为了构建这个系统，我们使用了100万小时的开放式语音音频数据，通过w2v-BERT 2.0学习了自我监督的语音表示。随後，我们创建了一个包含超过470,000小时自动对齐的语音翻译的多模态语料库，称为「SeamlessAlign」。然後，我们将这个语料库的过滤子集与人工标记和虚标记的数据相结合，总计406,000 小时。借助这个汇编的数据集，我们开发出了第一个多任务系统，可以从100种语言翻译成英语（100-eng），从英语翻译成35种语言（eng-35），在100-eng和eng-95之间进行 S2TT，为96种语言进行ASR，对於95-eng和eng-35进行zero-shot T2ST，以及在95-eng和 eng-95之间进行T2TT（有关概述，请参见表2）。 https://i.imgur.com/maEfid0.png 表格 1：本文中任务的符号表示。我们发现，我们所释出的两个模型中的SeamlessM4T-Large，在翻译成英语时（即改进了 20%），在Fleurs数据集上表现优於之前的最新技术（SOTA）端到端S2TT模型（ AudioPaLM-2-8BAST [Rubenstein et al.，2023]），其BLEU分数优於4.2个BLEU点。与级联模型相比，SeamlessM4T-Large的翻译准确性提高了超过2个BLEU点。当从英语翻译时， SeamlessM4T-Large在CoVoST 2 [Wang et al.，2021c]上的BLEU分数比之前的SOTA（ XLSR-2B-S2T [Babu et al.，2022]）提高了2.8个BLEU点，在Fleurs数据集上与级联系统的性能相当。在S2ST任务中，SeamlessM4T-Large在Fleurs数据集上的ASR-BLEU分数优於强级联的3阶段模型（ASR，T2TT和TTS），提高了2.6个ASR-BLEU点。在CVSS数据集上， SeamlessM4T-Large的表现远远优於一个2阶段级联模型（Whisper-Large-v2 + YourTTS [Casanova et al.，2022]），ASR-BLEU分数提高了8.5个点（提升了50%）。对於S2TT的初步人工评估也显示出类似令人印象深刻的结果。对於从英语翻译而来的翻译，24种评估语言的XSTS分数始终在4分（满分5分）以上；对於从其他语言翻译成英语的方向，我们在 24种语言中的7种中看到了对Whisper-Large-v2基准的显着改进。此外，SeamlessM4T-Large在Fleurs数据集的ASR方面也优於Whisper-Large-v2 [Radford et al.，2022]，在77种重叠语言中，平均单词错误率（WER）减少了45%。在对Flores数据集上的T2TT进行评估时，我们的模型在翻译成英语时与NLLB-3.3B [NLLB Team et al. ，2022]的性能相匹配，在从英语翻译时平均提高了1个chrF++点。为了进一步评估 SeamlessM4T在S2TT和S2ST方面的表现，我们开发了Blaser 2.0，这是一个针对文本或语音翻译的语言和模式不可知的评估指标。当涉及质量估计时，Blaser 2.0能够在跨语音和文本模式上实现与其前身BLASER [Chen et al.，2023a]相似的准确性。我们还通过在 Fleurs数据集上创建开放性的耐用性基准来评估模型对於背景噪音和讲话者变化的耐用性。就结果而言，SeamlessM4T-Large在面对背景噪音和讲话者变化时比Whisper-Large-v2 更具耐用性，分别平均提高了38%和49%。 https://i.imgur.com/BdljdJ6.png 表格 2：一个最先进的基准模型和SeamlessM4T模型的列表。＋语言覆盖范围是基於使用监督标记数据或评估的Zero-shot语言和方向估计的。关於负责任的人工智能，我们专注於添加的毒性和性别偏见的评估。平均而言，在不同模式、数据集和翻译方向之间，我们发现添加的毒性的占比很低，介於0.11%到0.21%之间。与最先进的模型相比，我们在所有情况下都显着减少了添加的毒性（范围从26%到63%不等）。与Whisper-Largev2相比，S2TT方向的添加毒性减少最大。此外，我们还在多语言 HolisticBias数据集上对性别偏见进行了评估，发现SeamlessM4T在从中性术语进行翻译时过於概括为男性形式（平均偏好约为10%），而在性别变化大约3%的情况下表现出缺乏稳健性。在这些情况下，SeamlessM4T实现了与最先进的模型相当的结果。我们记录这些效果，以鼓励进一步的缓解努力。为了推动语音翻译领域的更深入研究并使我们的工作对社群开放，我们在 https://github.com/facebookresearch/seamless_communication上开源了以下内容： ‧SeamlessM4T模型，包括SeamlessM4T-Large（23亿参数）和SeamlessM4T-Medium（12亿参数）的模型权重，以及由我们的新建模工具包Fairseq2支援的推理代码和微调配方。 ‧创建对齐语音数据的工具，包括元数据以重新创建未过滤的470,000小时SeamlessAlign，基於Stopes的流程用於创建类似SeamlessAlign的对齐，以及用於37种语言的语音编码器和200种语言的文本编码器的Sonar。 ‧无需文本的S2ST自动评估模型Blaser 2.0，包括模型权重和推理脚本。本文的其余部分结构如下：第2节描述了多模态翻译的社会技术维度，并说明了在机器翻译研究背景下处理语音的重要性。它还包括我们的工作涵盖的语言列表和评估指标。第3 节讨论了我们如何通过开发扩展的语音语言识别系统和对我们的数据挖掘过程至关重要的新的多模态文本嵌入空间，来创建超过470,000小时的自动对齐语音翻译语料库。第4节详细介绍了我们设计的各种建模技术，用於训练支援多种语言的多模态和多任务翻译模型，涵盖了文本和语音的源语言和目标语言。第5节记录了我们翻译输出的自动和人工评估，以及我们模型在不同情境下的耐用性。第6节关注我们的负责任AI努力，我们对模型输出进行了偏见和毒性评估。最後，在第7节中，我们总结了我们的工作社会影响，并反思了现有的挑战和未来的可能性。 _________________ 2. 多模态翻译的社会技术维度 2.1 为什麽在机器翻译中优先考虑语音？正如自然语言处理（NLP）和其他基於语言的研究领域中的大多数技术一样，机器翻译（ MT）在易於记录、存储和传播的模式中达到了更高的成熟度：文本。进一步说，数位文本的丰富性使其成为NLP研究的主要候选项。相比之下，语音数据的相对稀缺性使得该领域的研究变得次要。更具体地说，语音不仅仅是口语的文本 - 这两种模式在语法、风格和形态学方面可能存在差异[Plag et al.，1999]。在大多数情况下，语音可能也被认为是一种更丰富的模式，具有文本无法匹敌的韵律和表达参数[Kraut et al.，1992]。语音和文本在互动和社交程度上有所区别，语音将注意力集中在讲话者或听众上，而文本则将焦点放在消息的内容上[Kraut et al.，1992]。语音与社交联系研究表明，与基於文本的交流相比，通过语音进行的交流会在交谈参与者之间建立更强的社交联系。例如，在一项研究中，研究人员发现，包括语音（电话、视频通话和语音聊天）的交互与那些通过文本媒体进行交流的人相比，会在对话伙伴之间产生更深的联系[Kumar and Epley，2021, 595]。与语音相比，带有音量、语调和速度等语用线索的文本通信被认为更加不亲切。有趣的是，看到另一个人并不会让人们感觉比只是和他们的伴侣交谈更有联系。在另一项研究中，听到外群体成员大声解释他们的观点使研究参与者认为他们比阅读他们观点的解释更富有思考性和情感温暖[Schroeder et al.， 2017]。在各种场景下，研究显示语音在传达个人特质方面似乎独一无二，因此可以加强交换方之间的联系。包容性与可访问性语音不仅在关系角度上对交流至关重要，而且通常也是最实用和可访问的选择。首先，联合国教科文组织估计，全球有7.73亿成年人（占所有成年人的12.5％）没有接受必要的教育，无法使用文本进行交流或获取信息[Markelova，2021]。另一个更依赖语音而不是文本的人群是视力有障碍或视觉受损的人。全球范围内，约有4300万人属於这一类别，另有2.95亿人有中度至重度的视觉受损[GBD 2019 Blindness and Vision Impairment Collaborators，2021]。尽管语音助手、文本到语音系统和语音激活技术在支持这些人完成日常任务方面起着重要作用，但他们对多语言基於语音的翻译或交流工具的访问仍然有限。在听觉内容量不断增加（例如播客、有声书、短片等）的世界中，这种社会技术差距的限制性可能会使他们失去可能有意义且丰富的经历或交流。脚本差异除了这些因素外，基於文本的通信或翻译受到脚本差异的进一步复杂化。例如，某些语言在地理政治边界的两侧以不同的书写方式进行书写。例如，乌尔都语根据居住地可以使用阿拉伯语或天城文书写（即巴基斯坦或印度）。在这种情况下，翻译成乌尔都语的T2TT输出对於那些所示的脚本不熟悉的人可能是不可读的。生成语音输出的S2ST则回避了这种多脚本困境。在另一些情况下，围绕一种语言书写系统的政治不稳定可能也促使需要基於语音的翻译。例如，在过去1000年中，乌兹别克语的书写系统已经更改了五次。尽管截至2021年2月，乌兹别克宣布将乌兹别克语的官方书写系统从西里尔字母转换为拉丁字母表，但西里尔字母在该国仍被广泛使用[Jung and Kim，2023]。对於书写系统正在极协商的语言，语音技术和翻译系统可能在转变发生时提供稳定的信息访问方式。 https://i.imgur.com/tIJ4X6Y.png 表格 3：S2TT和S2ST的2阶段和3阶段串联系统的选项。这些串联将Whisper ASR模型 [Raftord et al.，2022]与NLLB的T2TT模型[NLLB Team et al.，2022]配对。 2.2 语音翻译的现况串联系统在近年统一语音翻译模型出现之前，语音研究中受到的大部分关注都集中在串联方法上，通过链接执行不同任务的子系统，如ASR、T2TT和TTS [Lavie et al.，1997; Wahlster，2000; Nakamura et al.，2006]。例如，在3阶段S2ST串联场景中，语音输入首先通过ASR系统转录为文本，然後进行T2TT，最後使用TTS合成为语音（见表3）。串联系统的主要好处是它们可以利用在每个子系统相关领域取得的进展，例如最近释放的大规模多语言T2TT模型 [NLLB Team et al.，2022; Siddhant et al.，2022; Fan et al.， 2020]和弱监督ASR模型 [Radford et al.，2022; Zhang et al.，2023a; Pratap et al. ，2023]。尽管如此，串联系统也有其限制。首先，涉及ASR和T2TT的2阶段串联S2TT系统的输出质量无法达到单一大规模T2TT模型可以实现的质量。这种性能下降凸显了在不同模态之间转移和翻译含义的挑战，可以归因於许多因素，包括：（1）ASR模型对非英语语言，尤其是低资源语言的糟糕转录，（2）从ASR模型到T2TT模型和串联中的其他後续模型的错误传播的可能性增加（错误的累积加剧性能），以及（3）这些单独训练的子系统之间的域不匹配（例如，如果在使用在Wikipedia上训练的ASR模型的情况下，与专为会话数据优化的T2TT 模型相结合，可能会导致T2TT阶段的分布不匹配）。除了这些原因，串联系统中对文本的过分强调忽略了副语言特徵，可能不足以处理诸如专有名称和名词之类的元素 [Rubenstein et al.，2023]。直接的S2TT模型早期的端到端语音翻译研究是以生成文本为输出开始的 [Chan et al.， 2016; Berard et al.，2016; Bérard et al.，2018]。自2019年多语言端到端S2TT模型出现以来 [Gangi et al.，2019; Inaguma et al.，2019]，S2TT已成为一个越来越受欢迎的研究领域，今天许多现有模型都受到了开放多语言语音语料库的影响，如MuST-C [Di Gangi et al.，2019]、EuroParl-ST [Iranzo-Sánchez et al.，2020]、CoVoST 2 [Wang et al.，2021c]和VoxPopuli [Wang et al.，2021b]。端到端模型今天取得了重大进展，在几个情况下与串联模型在学术基准上取得了同等水平（例如，受限的数据、域内设置、特定语言对等等） [Ansari et al.，2020; Potapczyk and Przybysz，2020b] 尽管近期的最先进的预训练模型在语言覆盖方面取得了快速进展，从Babu等人 [2022]的 128种语言到Pratap等人 [2023]的1400多种语言，它们只能将翻译为英语，而不能反向翻译。另一个重要的模型，Google的通用语音模型 [Zhang et al.，2023a]，在300多种语言中进行了预训练，可以对100多种语言进行ASR。从技术上讲，一旦提供了监督数据， USM也可以适应在300多种涵盖的语言中执行ASR和S2TT任务（但该模型是在仅涵盖从21种语言翻译为英语的CoVoST 2上进行了微调和评估）。 OpenAI的Whisper [Radford et al.，2022]是另一个大规模模型，用於翻译成英语，而不是反向翻译。作为一个多任务模型，Whisper展示了弱监督预训练的规模化足以实现SOTA 的ASR和S2TT结果，无需自我监督和自我训练技术。Whisper在680,000小时的数据上训练，已经在82种语言中实现了Fleurs翻译质量的SOTA结果。结合基於文本的 [Anil et al.，2023] 和基於语音的语言模型 [Borsos et al.，2023] ，最近发布的AudioPaLM [Rubenstein et al.，2023] 是一个用於联合文本和语音处理和生成的大型语言模型。类似於USM，AudioPaLM仅评估101种Fleurs语言到英语的文本翻译输出。在本文发表之时，AudioPaLM是当前的SOTA模型，在ASR和S2TT任务中表现优於 Whisper [Radford et al.，2022]。直接的S2ST模型除了文本输出外，最近的语音翻译研究还集中於构建能够直接生成目标语音表示（即，频谱图、离散单位等）的模型。在这个领域中，Translatotron [Jia et al.，2019b]成为了第一个直接的S2ST模型。然而，在质量方面，该模型在2阶段串联系统之後落後很大。Translatotron-2 [Jia et al.，2022a]显着改善了前辈的性能，并通过引入两遍解码方法缩小了与串联系统之间的差距。尽管Translatotron在训练过程中依赖於S2TT作为辅助任务，但目标频谱图在推理时是直接生成的。另一方面， Translatotron-2则依赖於音素的中间解码输出。与Translatotron同步，Tjandra等人 [2019] 提出了基於离散语音表示的S2ST模型，这些表示或单位是通过无监督术语发现和序列到序列模型学习从一种语言到另一种语言的单位。相关地，Lee等人 [2022a]使用了HuBERT [Hsu et al.，2021]，一种预训练的语音表示模型，来对语音进行编码并学习目标单位。因此，S2ST被分解为语音到单位（S2U）和随後的单位到语音，并配有语音重合成器 [Polyak et al.，2021]。关於S2ST系统的覆盖率和评估迄今为止，前述的支持文本和语音作为输入和输出的 AudioPaLM [Rubenstein et al.，2023]是当前的SOTA，适用於S2TT和S2ST。尽管该模型的设计表明它可以在源和目标两侧支援多语种翻译，但其性能仅报告了翻译成英语的情况。同样地，尽管Whisper可以转录非英语语言，但它仅支援将S2TT翻译成英语。为了总结语音翻译系统中当前的语言覆盖范围和相关任务，我们在表2中列出了文本和语音翻译中的SOTA模型列表。此语言覆盖估计基於监督标记数据或评估的零样本(zero-shot)语言和方向。我们还在表4中提供了本文使用的ASR、T2TT、S2TT和S2ST评估指标的列表。对於 S2ST，我们的评估集中在翻译的语义内容上。在本文的整个过程中，我们主要在以下数据集上评估我们的模型： ‧ Flores-200 [NLLB Team et al.，2022]：一个用於200种语言的多对多多语种翻译基准数据集（我们在devtest上进行评估）。 ‧ Fleurs [Conneau et al.，2022]：一个在102种语言中进行机器翻译的n对多语音和文本数据集，建立在机器翻译Fleurs-101基准数据集之上 [Goyal et al.，2022]。Fleurs 非常适合涉及语音和文本的几个下游任务。我们在测试集上进行评估，除了在消融实验中我们在开发集上进行评估。 ‧ CoVoST 2 [Wang et al.，2021c]：一个大规模的多语种S2TT语料库，涵盖了从21种语言翻译成英语，以及从英语翻译成15种语言。我们在测试集上进行评估。 ‧ CVSS [Jia et al.，2022b]：一个多对英语的语音到语音翻译（S2ST）语料库，涵盖了从21种语言翻译成英语的句子级S2ST对。我们在CVSS-C上评估基於文本的语义准确性，用於S2ST和T2ST任务。我们注意到评估数据中的一些样本缺失（在21种语言中有8种：加泰罗尼亚语、德语、爱沙尼亚语、法语、意大利语、蒙古语、波斯语和葡萄牙语）。这项工作的整体目标. 监於上述所述的差距，我们的工作旨在以下方面推进语音翻译： 1.创建一个统一的大型模型，可以处理涉及文本和语音翻译的全部任务：S2ST、S2TT、 T2ST、T2TT和ASR。这为下一代设备内和按需的多模态翻译奠定了重要的基础，这些翻译可以从这个模型中获得。 2.扩展语言覆盖范围，无论是支援的语言数量还是翻译方向（即，不仅仅将翻译为英语，还包括从英语翻译）。大约有两打语言占世界口语人口的一半以上，这意味着相对较小的一组语言（超过7000种语言中的一小部分）产生了极大的语言影响。然而，当语言技术主要是为这个群体而开发时，一半世界人口的需求被忽视了。我们的努力旨在弥合使用高资源和低资源语言的人之间的翻译差距。 3.在整个工作流程中保持对系统的系统评估，以确保安全和稳健的性能。这使我们能够理解如何引导我们的努力，使当前和未来的贡献在用户人口统计方面更加公平和公正。 2.3 语言如今，广泛可接触的语音翻译模型根据所涉及的各种任务，涵盖的源语言数量从21种 [Zhang et al., 2023a] 到113种 [Rubenstein et al., 2023] 不等。然而，这些现有的基於语音的翻译模型都无法同时支援T2TT。为了建立一个统一的、多模态的、多任务的模型，可以处理语音和文本作为源输入，我们将语音源语言目标设定为100种。我们在表5中总结了关於每种支援语言的信息。以下提供有关表头的进一步详细信息。代码我们使用三字母的ISO 639-3代码来表示每种语言。语言对於同一种语言可能有多种称呼方式；由於格式限制，只显示其中一个版本。这些语言名称已经与Ethnologue [Lewis, 2009] 和Glottolog [Hammarström et al., 2022] 等主要语言信息平台进行了交叉参照。语系和分组我们根据Glottolog数据库 [Hammarström et al., 2022] 提供每种语言的语系信息。书写系统我们使用ISO 15924代码提供书写系统的信息。资源水平我们根据S2TT翻译成英语的可用主要数据量将语音资源水平分为高、中、低三类（以小时为单位，如果x > 1000则为高，如果x ∈]500,1000]则为中，如果x ∈ [0,500]则为低）。主要数据被定义为开源的S2TT和伪标记的ASR数据。如果缺少这些数据，在评估S2TT翻译成英语时，我们将该语言报告为零样本(zero-shot)。来源我们指示源语言是处於语音（Sp）还是文本（Tx）模态，或者两者兼有。目标我们指示目标语言是处於语音（Sp）还是文本（Tx）模态，或者两者兼有。 https://i.imgur.com/Be4pl0q.png 表格 4：本文使用的自动评估和人工评估指标列表。 * https://github.com/openai/whisper/tree/main/whisper/normalizers ＋ Popovic [2015] ‡ Papineni et al. [2002] https://i.imgur.com/y6nD7ZN.png https://i.imgur.com/bDNswIn.png 表格 5：SeamlessM4T支援的语言。我们显示语言代码、名称、家族、子分组和书写系统，以及语音资源级别，以及该语言是否在语音和/或文本模态中支援作为来源或目标语言。这里的Zero-shot指的是以该语言作为来源的S2TT或S2ST任务。 _________________ 3.SeamlessAlign：自动创建语音对齐数据开发一个像SeamlessM4T这样的有效多语言和多模态翻译系统需要丰富的资源，涵盖多种语言和模态。一些用於翻译的人工标记资源是免费提供的，虽然通常仅限於一小部分语言或非常特定的领域。着名的例子包括平行文本集合，如Europarl [Koehn, 2005] 和联合国语料库 [Ziemski et al., 2016]。少数人工创建的集合也涉及语音模态，如CoVoST [Wang et al., 2020, 2021c] 和mTEDx [Salesky et al., 2021]。然而，目前没有开放数据集能够达到像Whisper [Radford et al., 2022] 或USM [Zhang et al., 2023a] 这样的计画中所使用的规模，这些计画证明了它们能够实现前所未有的性能。平行数据挖掘作为使用封闭数据的替代方法，不仅在语言涵盖范围上具有优势，而且在语料库大小上也有优势。当今的主要方法是将来自不同语言和模态的句子编码成共同的固定大小的嵌入空间，并根据相似度指标找到平行实例。然後，通过对大型单语语料库进行成对比较，进行挖掘，相似度高於一定阈值的句子被视为互相翻译 [Schwenk, 2018; Artetxe and Schwenk, 2019a]。这种方法首次使用了多语言的Laser空间 [Artetxe and Schwenk, 2019b]。然後使用了师生训练方法，将这种方法扩展到了200种语言 [Heffernan et al., 2022; NLLB Team et al., 2022]，并随後扩展到语音模态 [Duquenne et al., 2021, 2023a]。在本节中，我们将描述如何使用平行数据挖掘来创建SeamlessAlign：迄今为止最大的多模态翻译开放数据集，总计470,000小时。整体工作流程在图1中有所概述，并基於 SpeechMatrix [Duquenne et al., 2023a]中使用的方法。从大型原始音频集合开始，我们将文件分成重叠的段落，并应用语音语言识别（LID）。在文本方面，我们使用了与 NLLB [NLLB Team et al., 2022]相同的句子分段数据集。然後，语音和文本语料库被投影到共同的嵌入空间中，其中进行挖掘以识别具有最佳分割的翻译对。相对於原始的 SpeechMatrix流程，引入了几个改进： ‧ 改进且扩展的语音语言识别（LID）模型， ‧ 一个新颖的多模态嵌入空间， ‧ 将涵盖范围从17种扩展到37种语言， ‧ 增加了原始音频量，总计4百万小时。在当前版本中，挖掘的焦点是SeamlessM4T系统的37种目标语言。将在我们未来的工作版本中探索扩展到所有100种语言。 3.1 语音语言识别对於原始音频数据进行语言识别（LID）是我们工作流程中的关键组成部分。在这个阶段错误地标记语音可能会阻止高质量的音频片段进行对齐，甚至更糟的是，可能会导致生成的配对数据集中添加噪音。这可能会对下游的翻译系统性能产生不利影响。 https://i.imgur.com/sPI1hmq.png 图1：语音处理的工作流程。尽管有众多现成的语言识别（LID）模型，但没有一个能够涵盖我们目标的100种语言。因此，我们训练了自己的模型，采用了ECAPA-TDNN架构，该架构在[Desplanques et al., 2020]中被引入，并且在VoxLingua107 [Valk and Alumäe, 2021]上训练了一个开源模型。这个新模型增加了对多种新语言的支援，包括摩洛哥阿拉伯语、埃及阿拉伯语、中央库尔德语、西中央奥罗莫语、爱尔兰语、伊博语、吉尔吉斯语、干达语、麦蒂利语、梅特语、尼扬扎语、奥迪亚语、广东话和祖鲁语。 3.1.1 训练基线我们首先从头开始重新训练了一个系统，使用 VoxLingua107 的数据来复制基线。这个系统被称为 VL107 基线，在 VoxLingua107 的开发集上，在第30个时期实现了5.25% 的分类错误率。相比之下，HuggingFace 上提供的开源模型，称为 VL107 HF，在错误率方面达到了7%。实验设置在我们的训练流程经过验证後，我们最终训练了我们自己的模型，进行了40个时期的训练。这需要在8个GPU上耗时约172小时。总共使用了17,000小时的语音，每种语言平均约171小时，范围从1到600小时不等。测试语料涵盖我们感兴趣的100种语言，由 FLEURS 测试集、VoxLingua107 开发集以及从 VAANI、IIITH [Kumar Vuddagiri et al., 2018] 和 KENCORPUS [Wanjawa et al., 2022] 提取的额外测试数据组成。结果所有模型在测试数据上的 F1 分数在表 6 中呈现。结果是针对100种 SeamlessM4T 语言和与 VoxLingua107 有79种共同的语言给出的。我们可以看到，对额外的语言进行训练略微降低了共同语言集的整体性能，这是接近语言数量较多的直接後果。例如，祖鲁语（zul）经常与尼扬扎语（nya）混淆，伊博语（ibo）与约鲁巴语（yor）混淆，现代标准阿拉伯语（arb）与摩洛哥阿拉伯语（ary）和埃及阿拉伯语（arz）混淆。我们的模型在 17种语言上改进了分类（F1 差异大於5%），平均增益为14.6%，不包括新涵盖的语言，同时在12种语言上降低了分类（平均损失9.8%）。 https://i.imgur.com/wcMrekJ.png 表 6: 考虑到的 LID 系统在所有 SeamlessM4T 语言和跨模型支援的语言交集上的 F1 微平均和宏平均。对於不支援完整100范围的模型，使用破折号表示。 3.1.2 过滤虽然在挖掘的过程中获取最大数量的数据很重要，但我们还必须确保 LID 标签的高质量。根据特定语言的可用数据量，过滤以保留高质量的数据可能是有用的。因此，我们根据开发语料库中正确和不正确分类的每种语言的 LID 分数的高斯分布进行了估计。我们选择了每种语言的阈值，使得 p(正确|分数) > p(不正确|分数)。通过拒绝8%的数据，我们能够将 F1 值进一步提高近3%。 https://i.imgur.com/6i92YdJ.png 表 7: 使用和不使用过滤的 LID100 系统在100种语言的 F1 微平均和覆盖率。 3.2 规模化获取原始音频和文本数据文本预处理在文本方面，我们完全依赖於 NLLB [NLLB 团队等，2022] 中使用的相同数据集。相同的数据来源、清理和过滤步骤在我们的 Stopes 库中规模运行。音频预处理我们首先从公开可用的网络数据储存库中获取了400万小时的原始音频。表 10 提供了每种语言的原始音频量统计数据。在此收集中，约有100万小时的音频是英语的。然後，我们进行了一系列预处理步骤来编辑和改善整体的音频质量。首先，我们去除了储存库中的音频文件URL的重复内容，下载了音频文件并重新取样为16KHz。随後，我们使用专用的音频事件检测（AED）模型过滤了非语音数据。音频分割为了进行 S2TT 或 S2ST 的挖掘，将音频文件分割成较小的块，使其能够尽可能地映射到自包含的句子，相当於文本语料库中的句子，是可取的。然而，语音中的真正语义分割是一个开放性的问题 - 暂停可能是信息的一个组成部分，并且在不同语言之间可能自然地出现不同的方式。对於挖掘目的，无法预先判断哪些特定的片段可以最大程度地提高挖掘对的整体质量。因此，我们采用了从 [Duquenne 等人，2021] 中绘制的过度分割方法（如图 1 所示）。首先，我们使用一个开源的语音活动检测（VAD）模型 [Silero, 2021] 将音频文件分割成较短的片段。随後，我们的语音 LID 模型被用於每个文件。最後，我们创建了每个段的几个可能重叠的分割，将最佳分割的选择留给下一节中描述的挖掘算法。这种过度分割策略大致将考虑的潜在片段数量增加了八倍。 3.3 语音挖掘我们的挖掘过程的整体工作流程如图 2 所示。首先，我们训练了文本（第 3.3.1 部分）和语音（第 3.3.2 部分）的编码器。然後，我们使用这些编码器将两种模态投影到一个联合嵌入空间中。然後，我们对其他语言中的文本句子或语音片段进行挖掘，以创建大量的 S2TT 和 S2ST 对。然後将这些语料与其他资源结合，以训练 SeamlessM4T 模型。 3.3.1 Sonar 文本嵌入空间架构和训练设置我们开发了一个新的句子嵌入空间，名为句子级多模态和语言无关表示，简称 Sonar。Sonar 在很大程度上优於以前的 Laser 空间。它遵循相同的两步方法： https://i.imgur.com/3OZhEOU.png 图2：Sonar编码和挖掘过程的工作流程。首先，我们训练了一个文本嵌入空间，然後依赖於一种教师-学生训练策略，将其扩展到语音模态。与 Laser 类似，最初的文本 Sonar 空间使用编码器-解码器架构，但基於能够在 200 种语言之间进行翻译的 NLLB-1.3B 模型，该模型能够在 200 种语言之间进行翻译[NLLB 团队等，2022]。我们用均值池化来替换中间表示（即，解码器仅关注单个向量）。此架构使用所有 NLLB 的 T2TT 训练数据进行微调，我们探索了几个训练目标。详细的剔除研究可以在 Duquenne 等人的 [2023b] 中找到。这产生了一个强大的、极具多语言性质的句子表示，可以解码为 NLLB 项目的所有 200 种语言。图 3 提供了 Sonar 架构的示意图，表 8 概述了 Sonar 框架的翻译评估。 https://i.imgur.com/d8yMJtK.png 表8：在200种NLLB语言和COMET支持的89种语言上的Flores devtest集上的平均性能：翻译spBLEU和COMET分数，自动编码spBLEU。 https://i.imgur.com/4WgZTkn.png 图3：SONAR架构。挖掘评估就纯粹的翻译性能而言，我们观察到固定大小的表示瓶颈导致翻译成英语（ 35.2→32.7）和从英语翻译出来（24.9→21.6）的 BLEU 分数分别下降了 7% 和 13%。这是一个相当有趣的结果，考虑到使用注意力通常被认为是实现合理性能的必要条件。在挖掘性能方面，我们依赖於多语言相似性搜索 xsim 指标，该指标衡量在嵌入空间中搜索最接近的向量时，Flores 数据集中未正确对齐的句子百分比。改进版本 xsim++ [Chen 等人，2023b] 在目标端添加了具有挑战性的英语句子。这两个指标都是实际的 T2TT 挖掘任务的良好代理，同时计算速度更快。如表 9 所总结的，Sonar 在其他流行的多语言句子表示，如 Laser3 [Heffernan 等人， 2022] 或 LaBSE [Feng 等人，2022] 上表现出色。 https://i.imgur.com/42PGBCj.png 表9：在所有200种Flores语言上的相似性搜索结果（错误率），以及限制在98种各模型都在其上进行了训练的语言的交集。 3.3.2 训练语音编码器架构和训练设置作为第二步，并遵循 [Duquenne 等人，2021]，新的 Sonar 文本嵌入空间通过教师-学生训练扩展到语音模态。在该工作中，通过采用预训练的 XLS-R 模型的 BOS 输出来获得了固定大小的语音表示[Babu 等人，2022]。然後，对该模型进行微调，以最大化这种汇总语音表示与相同语言（ASR 转录）或英语（语音翻译）中的句子嵌入之间的余弦损失。我们通过以下方式改进了这个初始配方： ‧ 使用 MSE 损失而不是余弦损失。这使我们能够将 Sonar 文本解码器用於语音输入， ‧ 使用 w2v-BERT 2.0 语音前端代替 XLS-R。w2v-BERT 2.0 在 143 种语言上进行了优化（有关详细信息，请参见第 4.1 节）， ‧ 注意力池化。我们实施了一个三层序列到序列模型，将 w2v-BERT 2.0 的可变长度序列转换为固定大小的向量，而不是使用常规的池化方法（即均值或最大池化）， ‧ 仅在人工执行的 ASR 转录上进行训练。我们收集了大多数语言的至少 100 小时的 ASR 转录（请参见表 10 的“train”栏），并将语音编码器专门用於它们， ‧ 与 [Heffernan 等人，2022; NLLB 团队等，2022] 一样，我们通过语言家族（即日耳曼语或印度语言）将语言分组，在一个语音编码器中将它们一起训练。对於未来的研究，留下了考虑每种语言的声学特性的替代语言分组方法。 https://i.imgur.com/VEaANtS.png 表 10: 语音编码器和挖掘数据量的统计信息。Sen2Txx、Sxx2Ten 和 SxxSen 分别对应於与外国文本配对的英语语音，与英文文本配对的外国语音，以及与英语语音配对的外国语音。破折号表示未挖掘的方向。我们提供了用於挖掘的原始音频数据量以及用於训练语音编码器的人工提供的 ASR 转录量。使用 Fleurs 测试数据集对语音编码器进行 S2TT BLEU 评估。我们的模型执行zero-shot S2TT。最後三列提供了挖掘数据量。语音编码器的评估训练过的语音编码器将用於 S2TT 和 S2ST 挖掘，所得的成对数据将被输入到 SeamlessM4T 系统中（参见第 4 节）。因此，理想的评估将包括通过在端到端循环中使用各种语音编码器的不同迭代来测试它们：进行挖掘，然後在挖掘的数据上训练 S2TT 或 S2ST 转译系统，并可能比较不同阈值的 Sonar 分数。不幸的是，这是一个需要大量计算的方法。因此，考虑到 Sonar 嵌入空间附带了文本解码器，我们选择在 S2TT 任务上评估个别语音编码器。即，如同 [Duquenne 等人，2022, 2023c]，我们将外语语音嵌入解码为英文文本。结果在表 10 中汇总，列“X-eng BLEU”。为了比较，我们还提供了 Whisper-Large-v2 [Radford 等人，2022] 的性能。需要强调的是，Sonar 语音编码器仅在 ASR 转录上进行了训练，而 Sonar 文本解码器从未接触过任何语音输入。因此，报告的结果对应於完全zero-shot语音翻译。尽管处於zero-shot的情况下，Sonar 语音编码器在一些高资源语言（如德语、俄语或葡萄牙语）中出现了 BLEU 分数的差距，然而，我们的语音编码器的zero-shot语音翻译在一些低资源语言方面优於 Whisper-Large-v2，特别是对於斯瓦希里语和一些南亚语言，如孟加拉语、坎纳达语、泰卢固语和泰米尔语。 3.3.3 语音挖掘边界设定使用我们的 Stopes 数据处理库 [Andrews 等人，2022] 进行了挖掘。整体处理与 NLLB [NLLB 团队等人，2022] 中开发的 T2TT 挖掘相同。我们进行了所谓的全局挖掘，其中一种语言中的所有语音片段都与另一种语言中的所有语音片段进行比较。相反，本地挖掘则尝试利用可能包含许多平行片段的较长语音片段的知识。一个典型的例子是多种语言的国际事件文档。这种高层次的信息在大规模情况下很难获取。首先，计算所有语音片段和文本句子的嵌入。然後，使用 FAISS 库 [Johnson 等人， 2019] 对它们进行索引，以便在 GPU 上进行高效的大规模相似性搜索。最後，检索出双向的最近邻居，并根据 [Artetxe 和 Schwenk，2019a] 中引入的公式计算边界分数： https://i.imgur.com/RMyJrY7.png 其中，x 和 y 分别表示来源和目标句子，而 NNk(x) 表示 x 在另一种语言中的 k 个最近邻居。我们将 k 设置为 16。在过去的工作中，基於 Laser 嵌入式的双语挖掘使用了 1.06 的边界分数阈值 [Schwenk 等人，2021; NLLB 团队等人，2022]。然而，Sonar 空间显示出不同的动态，因此相应地调整了最优阈值。由於通过 S2TT 或 S2ST 训练进行的完整端到端评估过於耗费计算资源，我们在人工检查後将新的阈值设置为 1.15。表 10 中报告的统计数据是基於此阈值的。挖掘数据集我们对外语语音进行了与英文文本的挖掘（表 10 中的 Sxx2Ten 栏）以及与英文语音的挖掘（表 10 中的 Sxx2Sen 栏）。监於我们庞大的原始英文语音数据（100 万小时）和外语文本收集（通常超过 10 亿句子），我们仅对某些语言执行了此操作（表 10 中的 Sen2Txx 栏）。其他方向将保留供未来的工作。除了马耳他语，我们只能获取少量的原始音频，我们能够对所有语言进行超过 100 小时的语音对齐，使其与英文语音相符。与英文文本的对齐对大多数语言而言达到了一千小时，对六种语言（即德语、法语、西班牙语、日语、俄语和中文普通话）则超过了一万小时。总的来说，SeamlessAlign 包括 37 种语言和总共 470,000 小时的数据： ‧ 英文语音对非英文文本（Sen2Txx）- 约 200,000 小时 ‧ 非英文语音对英文文本（Sxx2Ten）- 约 240,000 小时 ‧ 非英文语音对英文语音（Sxx2Sen）- 约 29,000 小时添加这麽大量的数据来训练大规模多语言的 S2ST 翻译系统对计算资源提出了重大挑战。如第 4 节所述，并非所有的数据都用於建模，而只使用了最高 Sonar 对齐分数的子集。由於我们的挖掘数据可以支持许多不同的用例，我们将开源完整数据的元数据（即 Sonar 阈值高达 1.15），以让社区重新构建 SeamlessAlign 并将其用於自己的目的。因此，最优阈值可以根据任务进行调整，平衡数据集大小和对齐质量。我们的挖掘代码也在 Stopes 库中开源。 3.4 相关工作 3.4.1 语音语言识别对於口语语言识别，传统上采用了两阶段的工作流程：在传统的表示法（如从原始音频信号提取的 i-vector 或 x-vector）之上训练了一个分类器 [Dehak 等人，2011; Snyder 等人，2018]。相同的想法在端到端、集成的神经结构中得到了重新审视 [Cai 等人， 2019; Miao 等人，2019; Wan 等人，2019]。这些方法通常在输入音频变短时效果不佳，这对於涉及多个说话者轮流交谈的语音录音可能是一个问题。为了解决这个问题，新的方法被开发出来。Lopez-Moreno 等人 [2014] 表明，一个简单的前馈网络在这个任务上可以超越 i-vectors。更复杂的架构，如卷积神经网络或双向 LSTM，在捕获语音输入信息方面更加高效 [Lozano-Diez 等人，2015; Fernando 等人，2017]。一些其他方法试图通过针对较长片段的模型来弥补差距，这些方法通常使用教师-学生训练 [Shen 等人， 2018, 2019]。近期的倡议旨在扩大语言覆盖范围，超越传统上非常高资源的少数语言。在 [Desplanques 等人，2020] 中介绍的 ECAPA-TDNN 架构已被证明能够区分 Voxlingua107 的 107 种语言 [Valk 和 Alumäe，2021]。XLS-R 预训练模型 [Babu 等人，2022] 也在相同的数据集上进行了语言识别任务的微调。Whisper-Largev2 是另一个流行的模型，可以为 99 种语言执行此任务 [Radford 等人，2022]。最近，MMS 项目进一步将语言支持扩展到 4,000 种口语语言 [Pratap 等人，2023]。 3.4.2 语音分割为了实现类似句子的语音片段，一种常用的方法是基於语音活动检测（VAD）的暂停分割。这种方法在各种应用中得到了广泛的应用，包括语音挖掘、自动语音识别（ASR）和语音翻译。在这项工作中，我们采用了 Duquenne 等人 [2021] 提出的过度分割策略，该策略在获得 VAD 分割的基础上进行。虽然这种过度分割显着提高了挖掘过程的召回率，但也带来了某些缺点。具体来说，它导致了片段数量的大幅增加（8 倍），在嵌入空间中引入了噪音，并增加了挖掘过程的计算需求。基於暂停的片段可能不会与语义一致的句子对齐；实际上，它们往往太短，因为说话者的暂停可能会超出句子边界。因此，为了语音翻译，研究人员提出了更复杂的分割策略，有可能提供更高质量的语音翻译结果。Gá llego 等人 [2021] 使用了预训练的 wav2vec 2.0 来检测语音片段，而不是使用 VAD。 Potapczyk 和 Przybysz [2020a] 提出了一种分治（DAC）算法，该算法在 VAD 最长的检测到的暂停之上进行迭代操作，直到所有片段都在最大片段长度参数以下。Gaido 等人 [2021] 通过混合方法进一步扩展了这一方法。SHAS [Tsiamas 等人，2022] 在顶部使用 wav2vec 2.0 上的分类器进行训练，并使用手动分割的语料库进行最佳分割。与 Potapczyk 和 Przybysz [2020a] 类似，它然後在网络的分割概率上应用 DAC 算法，以获得最终的分割决策。这种方法在文字到语音翻译任务中比简单的基於暂停的分割和其他基线方法取得了显着的改进。这些分割方法对於语音挖掘可能是有前景的，为未来的研究提供了令人兴奋的方向。 3.4.3 多语言和多模态表示有几项研究探讨了如何学习多语言句子表示。众所周知的方法包括 Laser [Artetxe 和 Schwenk，2019b]、LaBSE [Feng 等人，2022]，或者 [Yang 等人，2019; Ramesh 等人， 2022]。虽然 Laser 是通过 MT 翻译目标进行训练的，但与 Laser 嵌入空间兼容的解码器并不是免费提供的。据我们所知，Sonar 是第一个具有高效多语言解码器的句子嵌入空间。另一个研究方向是首先训练一个英文句子表示（例如 sentence-BERT [Reimers 和 Gurevych，2019]），然後在第二步中使用教师-学生训练将其扩展到更多语言 [Reimers 和 Gurevych，2020]。相同的方法被用来将 Laser 扩展到 200 种语言，称为 Laser3 [Heffernan 等人，2022]。学习无监督的语音表示是几项工作的焦点，无论是涉及单语言 [Baevski 等人，2022] 还是多语言语音 [Babu 等人，2022; Hsu 等人，2021; Chung 等人，2021]。联合文本和语音预训练模型的例子包括 mSLAM [Bapna 等人，2022] 和 Mu2SLAM [Cheng 等人，2023] 。Duquenne 等人 [2021] 是第一个引入了固定大小的文本和语音表示的人，可以用於执行多模态挖掘，随後是 [Khurana 等人，2022]。 3.4.4 语音挖掘 Duquenne 等人 [2021] 提出了一个联合文本/语音表示的概念验证，可以用於执行文本/ 语音或语音/语音挖掘。在後续工作中，这种方法被用於将 VoxPopuli 语料库中的 17 种语言的语音进行对齐，形成了 SpeechMatrix 语料库 [Duquenne 等人，2023a]。作者们在所有 136 种可能的语言组合中对平行语音片段进行了挖掘，总共产生了 41.8 万小时的语音对语音对齐，其中约 4.6 万小时与英语对齐。SpeechMatrix 是一个大型语料库，但其领域相对有限，因为 VoxPopuli 语料库的原始音频来自於欧洲议会演讲。 SpeechMatrix 语料库是免费提供的。Khurana 等人 [2022] 使用了一个称为 Samu-Xlsr 的联合文本/语音嵌入空间，在 CoVoST 2、MUST-C 和 MTEDx 语料库中评估了文本和语音检索的召回率。还有一些间接创建语音对语音语料库的方法。一个研究方向是对在文本层面进行对齐的语料库进行语音合成（例如基於 CoVoST 2 语音到文本翻译语料库的 CVSS 语料库 [Jia 等人，2022b]）。 _________________ 4.SeamlessM4T 模型近年来，直接的语音到文本翻译模型取得了显着的进展 [Berard 等人，2016; Weiss 等人，2017a; Di Gangi 等人，2019; Agarwal 等人，2023]，并在特定情况下（例如受限数据、领域内设置、特定语言对等等）在学术基准下实现了与串联模型的相等。然而，随着大规模多语言翻译模型 [NLLB Team 等人，2022; Siddhant 等人，2022; Fan 等人， 2020] 和弱监督的自动语音识别模型 [Radford 等人，2022; Zhang 等人，2023a; Pratap 等人，2023] 的出现，这些比较已经过时。简单来说，直接模型现在在强大的串联模型面前明显落後。 SeamlessM4T 的目标之一是在大规模多语言和多模态设置下，通过构建更强大的直接 X2T 模型（用於将文本和语音翻译成文本），结合强大的语音表示学习模型和大规模多语言 T2TT 模型，缩小直接模型和串联模型在 S2TT 方面的差距。除了文本输出，我们的第二个目标基於最近的语音翻译进展，这些进展强调了构建产生语音输出的系统[Jia 等人，2019b; Lee 等人，2022a; Inaguma 等人，2023]。我们通过 UnitY [Inaguma 等人， 2023] 实现了语音到语音的翻译，这是一种两过程建模框架，首先生成文本，然後预测离散的声学单元。与串联模型不同，UnitY 中的不同组件（参见图 4）可以进行联合优化。上述方法缓解了串联误差传播和领域不匹配的问题，同时依赖中间的语义表示来减轻多模态源-目标映射的问题。用於合成语音的声码器是单独训练的（请参见第 4.3.1 节）。图 4 概述了 SeamlessM4T 模型，包括其四个构建模块：(1) 大规模多语言 T2TT 模型 SeamlessM4T-NLLB，(2) w2v-BERT 2.0，一个利用无标记语音音频数据的语音表示学习模型，(3) T2U，一个文本到单元序列到序列模型，以及 (4) 多语言 HiFi-GAN 单元声码器，用於从单元合成语音。 SeamlessM4T 多任务 UnitY 模型整合了前三个构建模块的组件，并在三个阶段进行了微调，从仅具有英文目标的 X2T 模型 (1,2) 开始，最终以能够执行 T2TT、S2TT 和 S2ST 以及 ASR 的全功能多任务 UnitY (1,2,3) 系统结束。接下来，我们首先在第 4.1 节中描述了无监督语音预训练 (w2v-BERT 2.0)。然後在第 4.2 节中介绍了 X2T 模型，从数据准备流程 (第 4.2.1 节) 开始。第 4.2.2 节描述了我们的多语言 T2TT 模型，第 4.2.3 节详细介绍了语音编码器和 T2TT 模型如何联合进行微调，以实现具有多模态和多任务功能的 X2T。接下来，我们将从声学单元提取流程和将单元映射回语音波形的声码器设计等方面，介绍 S2ST 任务，第 4.3.1 节。然後，在第 4.3.2 节中描述了 T2U 预训练。第 4.3.3 节最终概述了所有这些组件如何在第三和最後的微调阶段中结合。我们在第 4.4 节使用标准自动度量标准对模型进行了评估，并将其性能与最先进的语音翻译模型进行了比较。 https://i.imgur.com/gcOC7KF.png 图 4：SeamlessM4T 概述。 (1) 显示了在微调多任务 UnitY 时使用的预训练模型。 (2) 概述了多任务 UnitY，其中包括其两个编码器、文本解码器、T2U 编码器-解码器，以及支持合成 S2ST 输出语音的声码器。 4.1 无监督语音预训练语音识别和翻译任务的标签稀缺且昂贵，尤其对於资源有限的语言。仅有有限监督训练资源的情况下训练语音翻译模型是具有挑战性的。因此，使用无标记语音音频数据进行自我监督预训练是一种实际方法，可以减少模型训练中对监督的需求。这种方法有助於在比没有预训练的模型所需的标记资料更少的情况下实现相同的识别和翻译质量。它还有助於在相同数量的标记资料下推动模型性能的极限。最近并且公开可用的最先进的多语言语音预训练模型是 MMS [Pratap 等人，2023]。它通过额外的 55K 小时训练数据扩展了其前身 XLS-R [Babu 等人，2022]，并覆盖了超过 1,300 种新语言（请参见表 11）。 https://i.imgur.com/YxxSo1L.png 表 11：最先进的 ASR 和 S2TT 模型中的多语言语音预训练比较。＋从具有语言信息的数据部分估计而来。除了 MMS，USM [Zhang 等人，2023a] 是一个专有的 SOTA 多语言语音预训练模型，它利用了最新的模型架构（使用 BEST-RQ [Chiu 等人，2022] 代替 wav2vec 2.0 [Baevski 等人，2020]），拥有最大规模的训练数据（12M 小时），并覆盖了超过 300 种语言。 w2v-BERT 2.0 采用 w2v-BERT [Chung 等人，2021]，将对比学习和遮罩预测学习结合在一起，并在两种学习目标中通过额外的编码本改进了 w2v-BERT。对比学习模块用於学习 Gumbel 向量量化（GVQ）编码本和文本化表示，这些表示被喂入後续的遮罩预测学习模块。後者通过一个不同的学习任务，直接预测 GVQ 编码，而不是极化遮罩位置的正确和不正确编码的预测概率，来改进文本化表示。w2v-BERT 2.0 采用 Baevski 等人 [2020] 的方法，使用两个 GVQ 编码本进行产品量化，而不是使用单一的 GVQ 编码本。其对比学习损失 Lc 与 w2v-BERT 相同，包括编码本多样性损失，以鼓励编码的均匀使用。与 w2v-BERT 类似，我们使用 GVQ 编码本进行遮罩预测学习，并将相应的损失表示为 LmGVQ 。我们还使用随机投影量化器 [Chiu 等人，2022]（RPQ）创建了额外的遮罩预测任务，将相应的损失表示为 LmRPQ。w2v-BERT 2.0 的整体训练损失 L 定义如下： https://i.imgur.com/53BJAyR.png 其中，损失权重 wc、wmGVQ 和 wmRPQ 设置为 1.0、0.5 和 0.5。我们遵循 SeamlessM4T-Large 中 w2v-BERT 2.0 预训练语音编码器的 w2v-BERT XL 架构 [Chung 等人，2021]，它具有 24 个 Conformer 层 [Gulati 等人，2020] 和约 600M 模型参数。w2v-BERT 2.0 模型在覆盖超过 143 种语言的 100 万小时开放语音音频数据上进行训练。 4.2 X2T：从语音到文本的翻译和转录 https://i.imgur.com/haAOdiV.png 图 5：SeamlessM4T X2T 模型概述。 (1) 描述主要的两个构建块：w2v-BERT 2.0 和 SeamlessM4T-NLLB。 (2) 描述 X2T 模型的训练。在第一阶段，模型在 X-eng 方向上进行训练，第二阶段，添加了 eng-X 方向。我们多任务 UnitY 框架的核心是 X2T 模型，这是一个多编码器序列到序列模型，其中包括一个基於 Conformer 的语音编码器 [Gulati 等人，2020] 用於语音输入，另一个基於 Transformer 的编码器 [Vaswani 等人，2017] 用於文本输入，两者均与相同的文本解码器相结合。我们的 X2T 模型在将源语言的语音音频与目标语言的文本进行配对的 S2TT 数据上进行训练。 4.2.1 准备 X2T 数据 https://i.imgur.com/HDXPpVP.png 图 6：用於训练我们的 SeamlessM4T 模型的 ASR 和 X-eng S2TT 数据的统计信息。我们在 ASR、S2TT 主要数据和挖掘数据之间以小时（对数刻度）显示数据规模。语言按资源水平升序排列。有关数值统计，请参见表 35。处理人工标记数据当使用人工标记数据时，我们从逐字逐句的转录中删除了特殊标记，如 <silence> 和 <no-speech>。我们还进行了长度过滤，以删除超过 100 个子词令牌的最大文本长度的示例（基於下面所述的文本分词器），以及文本与音频长度比例偏差超过每秒 5 个子词的对。这样做有助於在训练时提高批处理效率，同时消除可能存在噪音或不对齐的对。伪标记与任何序列到序列任务一样，S2TT 的性能取决於高质量训练数据的可用性。然而，与其 T2TT 或 ASR 对应物相比，人工标记的 S2TT 数据量稀缺。为了解决这种标记数据不足的问题，我们采用了伪标记 [Jia 等人，2019a；Pino 等人，2020] 的方法，使用多语言 T2TT 模型对 ASR 数据进行伪标记。在这种情况下，我们使用 NLLB-200-3.3B 生成了由 NLLB Team 等人 [2022] 推荐的解码选项生成了伪标记。此後，我们将人工标记的数据和伪标记的数据称为主要数据。平行数据挖掘即使有了伪标记的 ASR 数据，S2TT 数据的量与 T2TT 数据的规模相比微不足道。例如，考虑英意方向，这是 T2TT 中高资源的配对之一，具有超过 128M 平行句子，但只有 200 万对英文文本与意大利语音音频配对用於 S2TT。平行数据挖掘（请参见第 3 节中如何建立 SeamlessAlign）是我们采用的另一种策略，以收集更多的训练数据。然而，这种挖掘往往会产生噪音对齐，需要进行一些过滤。我们在每个 33 个 X-eng 方向和每个 29 个 eng-X 方向中使用前 400 小时的 SeamlessAlign（参见第 3 节），基於 Sonar 对齐分数。这总共增加了 18.3K 小时的语音音频。我们在第 4.5.3 节中展示，这些挑选出的挖掘数据在性能提升和训练计算成本之间取得了良好的平衡。过滤我们对主要和挖掘数据的结合数据进行了额外的过滤。遵循 NLLB Team 等人 [2022] 的方法，我们实施了一个毒性过滤器。这将删除具有毒性不平衡的对（即，在源和目标中检测到的有毒项目数量之间的差异超过某个阈值时）。对於 S2TT 数据，转录被用作计数有毒项目时的语音输入的代理。我们将不平衡阈值设置为 1。此外，我们还应用了长度过滤器。我们删除了发音小於 0.1 秒或长於 50 秒的对。我们还删除了文本长度超过 250 个子词（基於下面所述的分词器）的对。最後，我们删除了文本包含超过 20% 表情符号、超过 50% 标点符号或超过 50% 空格的对。图 6 展示了用於训练 SeamlessM4T 模型的过滤 X-eng S2TT 数据的分布。根据每种语言中的语音音频总小时数，我们评估了其资源水平：超过 1000 小时的语言被认定为高资源，介於 500 和 1000 小时之间的语言被认定为中资源，少於 500 小时的语言被认定为低资源。训练文本分词器。 NLLB-200 [NLLB Team 等人，2022] 中使用的分词器是使用 SentencePiece [Kudo 和 Richardson，2018] 通过 BPE 算法 [Gage，1994；Sennrich 等人，2016] 训练的。这些多语言分词器及其底层词汇是通过从每种语言中采样的数据进行训练的。由於采样的人工成分和汉字书写系统中更多独特符号的数量要大得多，因此许多重要的中文字符在原始 NLLB-200 词汇中可能丢失。为了解决这个问题，我们强制将这些字符纳入，即使在取样的 SentencePiece 训练数据中可能不出现。为了决定要包含哪些字符，我们参考了 MTSU 列表和从挖掘数据获得的类似字符频率列表，以选择前 5000 个简体中文字、繁体中文字和日语汉字字符。然後，只要它们在我们的训练数据中至少出现 15 次，我们就强制包含它们，以确保模型能够学习如何嵌入这些令牌。我们在 NLLB 数据 [NLLB Team 等人，2022] 上重新训练了一个 256K 大小的 SentencePiece 词汇表，用於 SeamlessM4T。由此产生的分词器将 MTSU 前 5K 中文字符的覆盖率从 54% 提高到 84%。 4.2.2 训练大规模多语言文本到文本翻译模型我们按照 NLLB Team 等人 [2022] 使用 Stopes [Andrews 等人，2022] 的相同数据准备和训练流程进行。由於语言覆盖范围较小（100种，而不是NLLB的200种语言），我们能够显着减小模型的大小。尽管完整的 NLLB-200 模型具有混合专家结构，包含了 54.5B 参数（稍後可以通过蒸馏减少），但我们选择了 NLLB Team 等人 [2022] 中提出的较小的架构之一，即 1.3B 的密集模型。我们将 NLLB-200 的训练数据限制在了支援目标文本的 95种 SeamlessM4T 语言上。此外，我们还包括了超过 7500 万对来自开源 T2TT 数据集的双语数据，这些数据在 NLLB Team 等人 [2022] 中未包含。这些数据涉及到现代标准阿拉伯语（arb）、普通话（cmn）、法语（fra）、俄语（rus）和西班牙语（spa）。 https://i.imgur.com/NCwzMB9.png 表 12：95种支援语言上的平均 Flores devtest chrF++。我们在表 12 中比较了 SeamlessM4T-NLLB 在 Flores 上的性能与大小相当的 NLLB 模型在从英语（eng–X）翻译到其他语言和从其他语言（X–eng）翻译到英语时的性能。该模型在性能上优於 NLLB-200 中的较小模型（1.3B 和 1.3B-distil），并与较大的 3.3B 模型性能相当。 4.2.3 多模态和多任务转换为目标文本在 SeamlessM4T 中，我们利用基础模型，这些模型要麽在未标记数据上进行了预训练（用於语音编码器预训练的 w2v-BERT 2.0），要麽在受监督的高资源任务上进行了训练（用於 T2TT 的 NLLB 模型），以提高转换任务（语音到文本和语音到语音）的质量。为了融合这些预训练的组件并通过多个多模态任务实现含义转移，我们训练了一个端到端模型，其中包括（a）一个语音编码器（w2v-BERT 2.0），後缀有一个长度适配器，（b）文本编码器（NLLB 编码器），以及（c）文本解码器（NLLB 解码器）。对於长度适配器，我们使用了 M-adaptor [Zhao 等人，2022] 的修改版本，其中我们将 Q、K 和 V 的3个独立池化模块替换为一个共享池化模块，以提高效率。模型进行了微调，以联合优化以下目标函数： https://i.imgur.com/DvT0mCI.png 其中 x_text 和 x_speech 是源语言中的文本和语音，y_text 是目标语言中的目标文本。我们另外优化了一个辅助目标函数，以令牌级别的知识蒸馏（LKD）形式进行，以进一步将强大的 MT 模型的知识转移到学生的语音翻译任务（S2TT）上。 https://i.imgur.com/LP8pqXE.png 最终的损失是所有三个损失的加权和：L = αLS2TT + βLT2TT + γLKD，其中 α、β、 γ 是在开发数据上调整的标量超参数。当任务不适合数据三元组的设计时，我们将翻译任务替换为自编码——例如，在 ASR 上，y_text 被替换为 x_text，此时教师分布来自自编码（p(.|x_text_<t , x_text)）。我们分两个阶段训练了 X2T 模型。第一阶段的目标是对受监督的英语 ASR 数据和翻译为英语的 S2TT 数据进行训练。我们发现，这一步不仅有助於改善 X-eng 翻译的质量，还有助於 eng-X 翻译的质量。事实上，我们假设让模型专注於一个目标语言，同时微调多语言语音表示，这样可以防止干扰从目标方向传播回来。在第二阶段，我们将受监督的 eng-X S2TT 数据和非英语 ASR 数据添加到混合中。 4.3 语音到语音翻译 (1) 预训练模型 https://i.imgur.com/1jUkwNE.png 图 7：SeamlessM4T 多任务 UnitY 模型概观。（1）描述了在 X2T 之上的两个额外的组成部分：T2U 编码器解码器和单位语音合成器。（2）描述了 UnitY 模型的训练。在阶段 3中，模型在 S2ST 数据上进行训练。我们提出的语音到语音翻译模型的关键是使用自我监督的离散声学单元来表示目标语音，从而将 S2ST 问题分解为语音到单位的翻译（S2UT）步骤和单位到语音（U2S）转换步骤。对於 S2UT，SeamlessM4T 模型（如图 4 所示）使用 UnitY 作为两遍解码框架，首先生成文本，然後预测离散的声学单元。与普通的 UnitY 模型 [Inaguma 等人，2023] 相比，（1）从头开始初始化的核心 S2TT 模型被替换为预训练的 X2T 模型，用於联合优化 T2TT、S2TT 和 ASR，（2）浅层的 T2U 模型（在 Inaguma 等人 [2023] 中称为 T2U 单位编码器和第二遍单位解码器）被更深的基於 Transformer 的编码器解码器模型所取代，具有 6 个 Transformer 层，（3）T2U 模型也被预训练在 T2U 任务上，而不是从头开始训练。X2T 的预训练提供了更强大的语音编码器和更高质量的第一遍文本解码器，而 T2U 模型的缩放和预训练使我们能够更好地处理多语言单位生成而无需干扰。 4.3.1 准备 S2ST 数据离散声学单元最近的研究通过使用自我监督的离散声学单元作为目标，为构建直接语音翻译模型的方法提供了最佳翻译性能[Tjandra等，2019; Lee等，2022a，b; Zhang等， 2022; Chen等，2023c]。我们从 XLS-R-1B [Babu等，2022] 的第35层中提取特徵，以 50Hz的帧速率获得连续的语音表示。从 XLS-R 的连续表示空间到离散类别的映射是必要的，以将目标语音映射到一系列离散的标记。我们从每种语言中随机选取并编码了10,000 个未标记的音频样本，经过这些表示的 k-means 算法来估算 K 个聚类中心 [Lakhotia等，2021; Polyak等，2021; Lee等，2022a]。这些中心类似於一个编码簿，用於将一系列 XLS-R 语音表示映射到一系列中心索引或声学单元。在不同的聚类数（K ∈ {1000,2000,5000,10000}）下的实验表明，使用来自 XLS-R-1B 第35层的特徵的 K=10000 可以实现最佳的语音重新合成 WER [Polyak等，2021]。 XLS-R 在语言覆盖范围上比现有的 HuBERT [Hsu等，2021] 模型更广泛，我们发现在重叠的语言上，它的语音重新合成性能与 HuBERT 相近。我们还尝试了 w2v-BERT 2.0，但显示出较差的性能。这可以归因於 w2v-BERT 训练时使用对比和 MLM 目标，鼓励模型仅学习语义标记，而不是声学标记。使用 HiFi-GAN 合成多语言单位根据 Gong 等人 [2023]，我们建立了从学习的单位中进行语音合成的多语言语音合成器。HiFi-GAN 语音合成器 [Kong等，2020] 配备了语言嵌入，以建模语言特定的声学信息。此外，为了减轻跨语言的干扰，在多语言训练中使用语言识别作为辅助损失。我们使用委托和公开可用的数据集，包括单说话者和多说话者的 TTS 数据集，对能够将 S2UT 模型预测的离散单位转换为波形的36种目标语言进行多语言语音合成器的训练。与单语言合成器相比，我们将持续时间预测器和语音语言识别（LID ）分类器的嵌入维度翻倍，以达到1280。 https://i.imgur.com/aVC0h6r.png 图8：在训练SeamlessM4T模型的第三阶段使用的S2ST数据统计。我们显示主要和挖掘数据之间的语音时长，语言按资源水平升序排序。有关数值统计，请参见表36。使用文本到单位的伪标签由於并行语音到语音的训练数据不足，这显着限制了高质量 S2UT 模型的训练。为了克服这种数据稀缺，常见的做法是使用 TTS 模型将文本从语音到文本的数据集（参见第 4.2.1 节）转换为合成语音[Jia 等人，2019b; Lee 等人， 2022a]，然後再使用先前描述的单位提取流程将此合成语音转换为单位。这种两步单位提取过程是一个缓慢的过程，而且在大规模上很难扩展，因为它依赖於 TTS 模型。对於所有语言，尤其是对於低资源语言，很难找到高质量的现成 TTS 模型。建立可靠的单语言或多语言内部 TTS 模型也不可扩展，因为在收集高质量的洁净语音数据方面存在挑战。为了克服这些挑战，我们避免了合成语音的需求，而是在所有 36 种目标语音语言上训练了多语言文本到单位（T2U）模型。这些模型可以直接将文本转换为目标离散单位，并且可以在现有的 ASR 数据集上进行训练。多语言训练受益於高资源语言和低资源语言之间的跨语言转移，从而也提高了伪标记数据的质量。为了从我们的配对数据中删除离群样本，我们基於每个文本标记的音频生成秒数进行了过滤，并丢弃任何比率超过0.5的配对。并行数据挖掘：SeamlessAlign 我们根据可用情况在每个语言方向上添加了多达 2500 小时的从 SeamlessAlign 挖掘的语音到语音数据（参见第 3 节）。我们使用基於 XLSR 的单位提取流程，从挖掘数据中提取目标语音的离散声学单元。然後，通过部署内部 ASR 模型，基於目标语音生成文本转录，用於第一遍解码器。图 8 显示了用於训练 SeamlessM4T 模型的所有 S2ST 数据在主要数据和挖掘数据之间的分布。 4.3.2 T2U 模型 T2U 模型是基於 Transformer 的编码器解码器模型，使用 ASR 数据中的对齐文本单位进行训练。我们为两个目的训练了 T2U 模型：（1）进行伪标签（第 4.3.1 节）和（2）初始化 UnitY 中的 T2U 组件。对於（1），我们训练了一个具有 12 个编码器和 12 个解码器层的模型。对於（2），我们训练了一个较小的 T2U 模型，具有 6 个编码器和 6 个解码器层。初始实验显示，虽然较小的 T2U 模型的质量较低於较大的模型，但在 UnitY 中将较小的 T2U 用较大的模型的标签进行微调（即从更强的 T2U 中提取知识）可以弥补差距，同时又具有参数效率。 4.3.3 第三阶段的 S2ST 微调在微调的最後阶段，我们将多任务 UnitY 模型（参见图 4）初始化为（1）预训练的 X2T 模型和（2）预训练的 T2U 模型，并在 X–eng 和 eng–X S2ST 转译数据的组合上进行微调，总共 121K 小时（见图 8 中的详细内容）。我们冻结了对应於 X2T 模型的模型权重，只微调了 T2U 组件。这是为了确保模型在先前微调阶段的任务上的性能保持不变。 4.4 SeamlessM4T 模型在前几节中介绍的所有组件的基础上，我们在三个阶段中训练了 SeamlessM4TLarge 模型。SeamlessM4T-Large 拥有 23 亿参数，并在 T2TT 中进行微调，涵盖了 95 种与英语配对的语言，对 96 种语言的 ASR 进行微调，对 89 种与英语配对的 S2TT 进行微调，对 95 种方向的 S2ST 进行微调，包括转换成英语和英语以外的 35 种目标语言。每个方向的监督数据量详见表 35 和表 36。这意味着，对於一些源语言，我们的模型在零样本 (zero-shot)情况下进行评估，以达到表 2 中描述的 100-eng 的覆盖范围。为了提供一个合理大小的模型，我们遵循相同的方法来训练 SeamlessM4TMedium。该模型的参数比 SeamlessM4T-Large 少了 57%，旨在成为一个可供微调、改进或进行分析的可用测试平台。SeamlessM4T-Medium 具有与 SeamlessM4T-Large 相同的覆盖范围，但基於更小和更参数效率的组件进行构建（见图 4）。我们预先训练了一个具有 3 亿参数的较小 w2v-BERT 2.0，并使用 NLLB Team 等人 [2022] 的精炼模型（NLLB-600M-Distilled ）初始化了多任务 UnitY 的 T2TT 模块。在表 13 中比较了 SeamlessM4T-Large 和 SeamlessM4T-Medium。 https://i.imgur.com/1DYsiIo.png 表 13：SeamlessM4T 模型中使用的组成部分的参数数量。 *：包括长度适配器的参数。我们在所有四个监督任务（T2TT、ASR、S2TT 和 S2ST）以及文本到语音翻译（T2ST，也称为跨语言文本到语音合成[Zhang等，2023b]）的零样本(zero-shot)任务上评估了我们的模型。为了生成文本假设，我们使用波束搜索（宽度 = 5）进行解码。对於 T2TT，我们使用 chrF++进行评分，对於 S2TT，我们使用 SacreBLEU（使用默认的 13a 分词器和字符级分词器进行中文（cmn）、日语（jpn）、泰语（tha）、老挝语（lao）和缅甸语（ mya）的分词；请参见表 4 中的标志）。对於 ASR，我们使用 WER 对规范化的转录和参考进行评分，遵循 Radford 等人 [2022]。在S2ST和T2ST推断期间，我们进行了两次通过束搜索解码——从第一次解码中选择的最佳假设被嵌入到文本解码器中，并被送到T2U中搜索最佳的单位序列假设。我们在两个搜索中都使用了宽度为5的束搜索。我们使用ASR-BLEU [Lee等，2022a]对S2ST和T2ST的准确性进行评估，其中eng–X方向使用Whisper-Large-v2作为基础ASR模型，而X–eng方向使用 Whisper-Medium。我们将Whisper的解码温度设置为零，并使用贪婪解码来确保ASR模型的确定性行为。在计算BLEU分数之前，转录的假设以及参考文本都遵循Radford等人[2022] 的方法进行了正规化。 4.4.1 与串联方法的比较在 SeamlessM4T 和 Whisper 两者支援的语言集合中，我们在表 14 中将我们的直接 S2TT 模型的性能与串联模型进行了比较，即 Whisper ASR 模型和 NLLB T2TT 模型的组合。在 X–eng 方向上，SeamlessM4T-Large 的性能优於具有不到 30 亿参数的串联模型 2 个 BLEU 分，在 eng–X 方向上则优於 0.5 个 BLEU 分。我们还将表 14 中的比较添加到了具有大型 NLLB-3.3B T2TT 模型的串联模型。这些模型的参数超过了 40 亿，只在 eng–X 方向上优於 SeamlessM4T-Large。在 X–eng 方向上，SeamlessM4T-Large 在平均方向上优於 Whisper-Large-v2 + NLLB-3.3B 约 1.3 个 BLEU 分。表 15 比较了 SeamlessM4T-Large 和串联模型之间的 S2ST。对於 S2ST，我们查看了两种串联的选项：（1）三阶段的 ASR、T2TT 和 TTS，以及（2）两阶段的 S2TT 和 TTS。在 Fleurs X–eng 方向上，我们的 SeamlessM4T-Large 在 ASR-BLEU 分数上优於 2 阶段串联模型 9 分。它还在 3 阶段串联模型（Whisper-Large-v2 + NLLB-3.3B + YourTTS ）方面优於 2.6 个 ASR-BLEU 分。在 CVSS 上，SeamlessM4T-Large 在 2 阶段串联模型（Whisper-Large-v2 + YourTTS）上超出了 14 个 ASR-BLEU 分。在 Fleurs eng–X 方向上，SeamlessM4T-Large 在 32 个 X–eng 方向上的平均 ASR-BLEU 分数为 21.5，排除了目标语言，其中 Whisper-Large-v2（用於 ASR-BLEU 的 ASR 模型）的 WER 高於 100。相比之下，中等大小模型（SeamlessM4T-Medium）在 S2ST eng–X 方向上的平均 ASR-BLEU 分数为 15.4。 4.4.2 多任务 X2T 结果我们在表 16 中报告了 Fleurs 基准的 ASR 和 S2TT（X–eng 和 eng–X）任务，以及相关的 T2TT（X–eng 和 eng–X）的 Flores 基准。我们还在 CoVoST 2 的评估测试集上报告了结果（X–eng 和 eng–X）。SeamlessM4T 模型在 S2TT X–eng 方向上的表现优於先前的直接 SOTA 模型（AudioPaLM-2 8B AST [Rubenstein 等，2023]），在 S2TT X –eng 方向上的 BLEU 分数上提高了 4.2 分（即提高了 20%）。在 CoVoST 2 eng–X 方向上，SeamlessM4T-Large 比先前的 SOTA（XLS-R）提高了 2.8 个 BLEU 分。然而，在 X–eng 方向上，它在 BLEU 分数上落後於 AudioPaLM 3.7 个 BLEU 分。对於 ASR， SeamlessM4T 在重叠的 77 个支援语言上的表现超越了 Whisper [Radford 等，2022]， WER 减少了 45%。我们还在 Fleurs-54 上对比了 MMS [Pratap 等，2023]，这是 Fleurs 语言的一个子集，MMS 和 Whisper 都支援。SeamlessM4T-Large 在 CTC 方面的变体上超过了 6% 的 WER，但在利用单语 n-gram 语言模型的变体方面则落後（WER 更好 5%）。 https://i.imgur.com/cc7ssBN.png 表 14：Fleurs S2TT 上与串联 ASR + T2TT 模型的比较 https://i.imgur.com/oo4J7sd.png 表 15：Fleurs 和 CVSS S2ST X–eng 上的 2/3 阶段串联模型的比较在 T2TT 支援任务中，我们的 SeamlessM4T 模型在 X–eng 方向上与 NLLB-3.3B [NLLB Team 等，2022] 的性能相匹配，并在 eng–X 方向上提高了 1 chrF++ 分。为了进一步了解 Fleurs S2TT X–eng 方向的改进来自於哪些方面，我们根据资源级别（请参见表 35 中的确切语言列表）将语言进行分类，并在表 17 中报告每个资源级别的平均 BLEU 分数。结果显示，SeamlessM4T-Large 在从低资源语言翻译方面显着提高了质量，BLEU 分数提高了 +7.4（即比 AudioPaLM-2-8B-AST 提高了 40%）。我们还在低＋列中对由 AudioPaLM-2-8B-AST 进行零样本(zero-shot)评估的低资源方向进行了平均，+5 BLEU 的增益表明这种改进超越了仅仅是监督，而应归功於监督数据的质量和训练方法。 https://i.imgur.com/SaHehxf.png 表 16：多任务 X2T 结果。SeamlessM4T-Large 在 X2T 任务（S2TT、ASR 和 T2TT）上的表现，与 SOTA 直接翻译模型进行了比较。对於 Fleurs S2TT X–eng，我们报告了 Whisper 支援的语言的平均 BLEU 分数。对於 Fleurs ASR，我们报告了 SeamlessM4T 和 Whisper 都支援的语言的平均标准化 WER。对於 MT，我们将 chrF++ 分数平均在 SeamlessM4T 支援的书面语言上。*：MMS 是基於 CTC 的，此版本使用 n-gram 语言模型进行解码。请注意，对於此比较中包含的所有外部模型，我们提取了他们各自论文中报告的结果，并匹配了他们的评估和评分流程，以进行公平比较。12 https://i.imgur.com/wWuhzso.png 表 17：Fleurs S2TT X–eng 按资源级别划分。在每个资源级别（高、中和低）中，我们对所有 3 个模型都支援的语言进行了平均。在低＋列中，我们排除了被 AudioPaLM-2-8B-AST 零样本(zero-shot)评估的低资源语言。 https://i.imgur.com/XZWnLdQ.png 表 18：使用 spBLEU 和 Blaser 2.0 进行 S2TT 结果。我们在这里报告了使用 spBLEU 和 Blaser 2.0 测量的 Whisper-Large-v2 和 SeamlessM4T-Large 的性能。请注意，与从 Radford 等人 [2022] 复制的 BLEU 分数不同，spBLEU 和 Blaser 2.0 分数是基於我们使用 https://github.com/openai/whisper 进行评估的，并使用推荐的解码选项。 https://i.imgur.com/pAhBJTw.png 表 19：使用 ASR-BLEU 和 Blaser 2.0 进行 S2ST 结果。我们在这里报告了 SeamlessM4T-Large 和 SeamlessM4T-Medium 在 ASR-BLEU 和 Blaser 2.0 测量下的性能。 4.4.3 零样本(zero-shot)语音到文本翻译我们在 T2ST 的相反任务上评估了 Fleurs S2TT。在表 20 中，我们报告了对 87 个 X– eng 方向（Fleurs 与 SeamlessM4T 文本编码器支援的语言之间的重叠部分）的平均 ASR-BLEU 分数。我们还在 32 个 eng–X 方向上报告了平均 ASR-BLEU（排除孟加拉语、泰卢固语和北乌兹别克语，WhisperLarge-v2 ASR WER 超过 100）。X–eng 平均 ASR-BLEU 高於 S2ST X–eng 的 ASR-BLEU（34.9 vs. 24.6），其中 eng–X 平均与 S2ST 相似（22.5 vs. 21.5）。此结果表明：（1）SeamlessM4T 在零样本(zero-shot) T2ST 上的质量与监督任务相当；（2）非英语语音源是我们模型中最具挑战性的输入。 https://i.imgur.com/n8xAmwN.png 表 20：零样本(zero-shot) Fleurs T2ST 我们报告了 SeamlessM4T-Large 在 Fleurs T2ST 上的平均 ASR-BLEU。 4.4.4 使用 spBLEU 和 Blaser 2.0 进行评估。为了避免扩展使用字符级别分词评估的特例语言集，我们使用 Flores-200 句子分词分词器进行了 spBLEU 评估。表 18 报告了 Fleurs S2TT X–eng 和 eng–X 的 spBLEU 分数。在同一表格中，我们还报告了 SeamlessM4T-Large 和 SeamlessM4T-Medium 的平均 Blaser 2.0 分数（有关 Blaser 2.0 的更多信息，请参见第 5.1 节）。由於 Blaser 2.0 是多模式的，我们还可以使用 Blaser 2.0 进行 S2ST 任务的评分。表 19 提供了 SeamlessM4T-Large 和 SeamlessM4T-Medium 在 S2ST X–eng 和 eng–X 方向上的平均 Blaser 2.0 分数。由於 Blaser 2.0 支援 83 种语言（包括英语），我们对 82 个 X– eng 方向进行平均。对於 eng–X，我们显示了 35 种语言的平均值，然後排除了 3 种 WER 超过 100% 的语言。由於 Blaser 2.0 支援所有 35 种目标语言，分数更可靠，并且不受 ASR 模型的噪声影响（增加了 3 个方向时的 ASR-BLEU 分数的差异为 -1.7）。可以在 https://github.com/facebookresearch/seamless_communication 找到所有评估方向的完整结果和指标。 4.4.5 使用 spBLEU 评估 X–X 方向。由於 SeamlessM4T 模型在来源和目标两侧都支援多种语言，我们可以以零样本 (zero-shot)方式评估非英语中心的方向（标记为 X–X）。 https://i.imgur.com/yeQ05Ji.png 图 9：S2TT Fleurs X–X 结果。我们评估来自 Fleurs 的 X–X 方向，并平均计算 spBLEU 分数。对於给定的目标文本语言，我们在 100 个来源语言上平均分数。 4.5 分析和消融研究 4.5.1 无监督语音预训练我们探索了各种技术来提升我们编码器表示的质量，包括算法改进和预训练数据缩放。实验设置在我们的消融实验中，我们旨在通过其在下游 S2TT 任务上的表现来评估 w2v-BERT 变体。所有预训练的 w2v-BERT 语音编码器都由约 6 亿个参数组成的 24 个 Conformer 层 [Gulati 等，2020] 构成。每个语音编码器都用於初始化一个 S2TT 模型。文本解码器使用了来自 NLLB-1.3B 的解码器，这是一个包含 200 个语言的大型多语言机器翻译模型[NLLB Team 等，2022]，有 13 亿个参数。我们在对 67 种语言的英语语音翻译任务（X–eng S2TT）上对 S2TT 模型进行了微调。我们微调了所有语音编码器参数，并且仅微调了文本解码器中的 LayerNorm 和自注意力（LNA-D [Li 等，2021a]）。通过 4000 次热身更新，我们的学习率增加到 3e-4，然後按照反平方根学习率计划进行。我们使用 32 个 GPU 进行训练，每个 GPU 的批次大小为 960K 帧，每个模型进行 100K 次更新。我们报告了在 Fleurs [Conneau 等，2022] 的所有 101 个 X–eng 方向的测试集上进行的 BLEU 分数（SacreBLEU [Post，2018]）。监於我们的训练数据覆盖范围，这意味着其中 34 个方向被评估为零样本(zero-shot)。 https://i.imgur.com/MuPhixO.png 表 21：w2v-BERT 变体和训练数据缩放的消融评估。在文本解码器中的 LayerNorm 和自注意力（LNA-D [Li 等，2021a]）。通过 4000 次热身更新，我们的学习率增加到 3e-4，然後按照反平方根学习率计划进行。我们使用 32 个 GPU 进行训练，每个 GPU 的批次大小为 960K 帧，每个模型进行 100K 次更新。我们报告了在 Fleurs [Conneau 等，2022] 的所有 101 个 X–eng 方向的测试集上进行的 BLEU 分数（SacreBLEU [Post，2018]）。监於我们的训练数据覆盖范围，这意味着其中 34 个方向被评估为零样本(zero-shot)。结果我们在表 21 中总结了我们的消融结果。我们可以看到，使用 2 个 GVQ 码书的产品量化优於使用单个 GVQ 码书的普通量化（A vs. B）。缩放训练数据可以带来性能增益（B vs. C）。添加额外的带蒙版预测学习目标与 2 个 RPQ 码书有助於提高性能（C vs. D）。 https://i.imgur.com/iMqV2WK.png 表 22：在 ASR、S2TT 和 S2ST 任务的消融数据集中的数据小时，如果适用，则在 eng– X 和 X–eng 之间进行了划分。对於每个任务，我们报告了主要和挖掘之间的培训数据小时。默认情况下，S2TT 的挖掘数据在 X–eng 方向上被限制为 400 小时，在 eng–X 方向上被限制为 200 小时。 4.5.2 多模态和多任务 X2T 消融数据集为了在不同的多任务配方上进行迭代，我们构建了一个较小的多语言语音翻译基准，包括 14 种语言与英语配对。监督 S2TT 数据来自两个来源：主要（开源或许可证）和挖掘，而 ASR 数据则来自开源或许可证的数据集。我们在多任务微调中使用的 T2TT 数据仅限於伪标签生成过程中生成的双语对，即 ASR 数据集中的翻译转录（参见第 4.2.1 节）。有关消融数据集的详细内容，请参见表 22。实验设置我们对我们的消融数据集上的多语言翻译模型进行微调，并使用不同的任务混合。作为基线，我们仅在主要的 S2TT 数据（eng–X + X–eng）上进行了训练，优化 L1 ：仅 LS2TT。在固定数据的情况下，我们使用两个其他目标进行了实验：（L2）同时优化 T2TT 和 S2TT（LS2TT + LT2TT）和（L3）具有附加的知识蒸馏目标，其中 T2TT 为教师，S2TT 为学生。然後，我们分别添加了 ASR 数据和挖掘数据，并比较了在三种数据配置下使用不同目标进行训练的模型的性能。我们使用我们的 w2v-BERT 2.0 语音编码器和 SeamlessM4TNLLBT2TT 模型来初始化 X2T 模型。我们微调了所有语音编码器和文本编码器的参数，同时只微调了文本编码器中的 LayerNorm 和自注意力（LNA [Li 等，2021b]）。我们对所有模型进行了 100K 次更新（对应於 5-7 个时代）。为了规范我们的模型，我们对语音编码器应用了 LayerDrop（ p=0.1），并进行了掩码（p=0.1）。对於文本编码器-解码器，我们应用了正则化的丢失（p = 0.1）。我们在开发数据上评估了最後一个检查点，并对翻译任务（包括 T2TT）的 Fleurs 开发数据进行了 BLEU 分数评估，对於 ASR，则使用 Whisper 风格的正规化 WER 进行评估。结果在每个数据配置（D1、D2 或 D3）内，我们可以在表 23 中看到，将 T2TT 添加到多任务损失中，如预期那样，有助於提高 T2TT 的性能（在平均 D1,2,3 上增加 1.8 BLEU）。如果不添加这个损失，仅在 S2TT 上进行微调将导致对预训练 T2TT 任务的灾难性遗忘（将 L1 与 L2 进行比较）。然而，S2TT 的准确性很少受到与 T2TT 的联合训练影响。知识蒸馏被证明是充分利用与 T2TT 的联合微调的必要要素。在添加知识蒸馏（ L1 到 L3）之後，S2TT 的性能在平均 D1,2,3 上提高了 0.6 BLEU 分。如果我们比较三种不同的数据配置，添加 ASR 数据对於支援 ASR 任务至关重要，因为将其作为零样本(zero-shot)评估导致错误率高出 3 倍。在自动编码的情况下，T2TT 和辅助知识蒸馏损失的联合微调对於 ASR 数据没有负面影响（参见第 4.2.3 节）。对於未对齐的文本-文本数据，即对於无法为 T2TT 教授 S2TT 的数据，添加 S2TT 数据仍有助於 M3 任务混合中的 S2TT。然而，我们注意到，随着添加更多的仅有语音数据（ASR 和挖掘的 S2TT），没有对齐的文本-文本数据的准确性下降。 4.5.3 利用挖掘的语音-文本数据实验设置我们对 S2TT 模型进行微调，使用越来越多来自 SeamlessAlign 的挖掘数据。在主要 S2TT 数据之上，第一个模型中，我们分别添加了 200 小时的挖掘数据，第二个模型中添加了 400 小时，最後一个模型中添加了 600 小时。SeamlessAlign 根据 Sonar 分数进行排序，我们选择了排名前的配对，以达到所需的额外数据量。 https://i.imgur.com/Hhz6VUI.png 表 23：在三种不同数据配置下，使用不同任务目标进行训练的模型的结果。结果报告在 Fleurs 开发数据上。结果表 24 报告了使用挖掘数据逐渐增加的模型的结果。在每个方向上，以最多 400 小时进行训练的模型实现了最佳的平均 BLEU 分数。这表明，对 SeamlessAlign 进行一些过滤（例如，基於 Sonar 相似度分数）可以在不增加训练的计算成本的情况下，提高模型翻译的质量。 https://i.imgur.com/HQuo3lM.png 表 24：对挖掘数据使用的消融评估。结果报告在 Fleurs 开发数据上。 4.5.4 在 UnitY 中的 T2U 预训练实验设置类似於第 4.5.2 节中描述的消融数据集，我们使用伪标记的 S2ST 数据（eng –X + X–eng）构建了 S2ST 消融数据集，以微调多语言 UnitY 模型。在固定数据的情况下，我们比较了微调 UnitY 时使用预训练组件的两种选择。在第一种情况（M1）中，我们使用其适配器初始化语音编码器，并使用预先训练的 X2T 模型初始化第一过程解码器。在第二种情况（M2）中，我们还使用预训练的 T2U 模型初始化 UnitY 的 T2U。在这两种设置中，我们仅对 T2U 模型的权重进行了在 S2ST 数据上的微调。结果我们在 Fleurs 开发数据上对我们的模型进行了评估，并在表 25 中报告了 ASR-BLEU 分数。我们注意到，T2U 预训练有助於 UnitY 的微调，因为它收敛更快（比较 10K 次更新後的 ASR-BLEU 分数），因此更具计算效率。 4.5.5 利用挖掘的语音到语音数据为了衡量在 UnitY 微调的第三阶段中添加挖掘的 S2ST 数据的影响，我们将第 4.5.4 节中的 M2 模型与遵循相同训练程序的模型进行了比较，但使用了来自 SeamlessAlign 的更多挖掘数据（请参阅表 22 中每个方向的额外数据量）。结果表 25 中的结果显示，添加挖掘数据可以将 eng–X 的翻译准确性提高 0.5 ASR-BLEU 分，但会将 X–eng 的翻译准确性降低 0.2。然而，我们确实注意到语音生成的质量稍有改善，因此将 SeamlessAlign 添加到最终模型的训练中。 https://i.imgur.com/190QiOq.png 表 25：对 UnitY 的 T2U 预训练和使用 S2ST 挖掘数据的消融评估。结果报告在 Fleurs 开发数据上。＋ 80K 和 50K 分别对应於两种不同数据设置中的 2 个时代。 4.6 相关研究二次(Two-pass)序列生成二次(Two-pass)解码具有保持端到端优化能力的优势，同时继承了串联方法的好处。Xia 等 [2017] 和 Hu 等 [2020] 在找到更好输出的过程中加入了额外的搜索过程。Dalmia 等 [2021] 使用外部模块（例如语言模型）对中间假设进行重新排序。Zhao 等[2019] 在中间解码器中注入特定信息，以将输出偏向所需领域。 Sainath 等 [2019] 在生成最终输出之前，将中间输出提供给用户，用於流式应用。二次 (Two-pass)方法使优化变得可行，并且可以得到更好的语音翻译性能 [Sung 等，2019; Anastasopoulos 和 Chiang，2018]。基於编解码器的音频建模与从基於 SSL 的音频表示模型中提取的声学单位（例如本工作中的 XLS-R）相反，量化的音频编码器的最新进展使大型自回归语言模型和音频数据的结合成为可能。开源的 EnCodec [D’efossez 等，2022] 和专有的 SoundStream [Zeghidour 等，2022] 模型是量化音频编码器的广泛已知示例。基於编解码器的优点之一是它们可以在不需要外部训练语音合成器的情况下将其转换回波形。在语音翻译研究中，VaLLE [Wang 等，2023a] 引入了基於 EnCodec 的音频数据的条件自回归建模，以进行文本到语音合成。随後的 VaLLE-X [Zhang 等，2023b] 在 VaLLE 的基础上进行了扩展，以扩展语言覆盖范围，并使用模型串联实现语言翻译。VIOLA [Wang 等，2023c] 随後探讨了仅有解码器的基於编解码器的语言模型在无串联的情况下进行翻译的能力。语音和文本的多模态和多任务多模态和多任务在源端是多模态的，与使用二次 (two-pass)解码的多任务学习是正交的，其中目标是为第二个任务提供从第一个任务解码器生成的更高层次的表示 [Anastasopoulos 和 Chiang，2018]。通常，多任务学习的目标是通过利用相关任务的训练信号中包含的领域特定信息来改善泛化性能 [Caruana，1997; Vandenhende 等，2021]。与单一任务相比，多任务具有通过共享互补信息或作为正则化器来提高性能的潜力。Maninis 等 [2019]，Liu 等 [2019] 和 Pfeiffer 等 [2020] 引入了任务依赖的组件，以增强个别任务的性能。Weiss 等 [2017b] 探索了语音翻译的不同多任务训练策略，他们发现一对多策略，其中编码器在语音翻译和 ASR 任务之间共享，更加有效。Bahar 等 [2019] 和 Tang 等 [2021] 比较了不同的 S2TT 多任务策略，确认了多对一训练的有效性，即 T2TT 和 S2TT 一起训练，解码器在两个任务之间共享。近期的研究还通过学习多个模态的联合表示，训练多任务和多模态编码器。其动机在於学习的特徵将更丰富，跨模态任务可以从这种联合训练中受益。这些技术在音频 [Chen 等，2022; Bapna 等，2022; Zhang 等，2023a; Rubenstein 等，2023]、视觉 [Chen 等， 2020; Gan 等，2020; Fu 等，2021] 以及音视觉 [Shi 等，2022; Anwar 等，2023] 领域得到了探索。 _________________ 5.自动评估与人工评估迄今为止，为了评估我们的模型，我们已经使用了每个特定任务的标准自动评估指标，如表 4 所示。在本节中，对於 S2TT 和 S2ST 任务，我们超越了这些标准自动评估指标，进行了额外的自动评估和人工评估，以进一步评估我们的贡献。本节的自动评估反映了模型在噪声和领域方面的韧性。人工评估关注於保留说话者意图以及生成音频的主观质量。首先，我们介绍 Blaser 2.0，一种新的、模态不可知的评估指标，它可以对语音和文本的质量进行估计。 5.1 模态不可知的自动评估指标：Blaser 2.0 描述 Blaser 2.0 是 BLASER 的新版本 [Chen 等，2023a]，它同时适用於语音和文本模态，因此是模态不可知的。与第一个版本一样，我们的方法利用了输入和输出句子嵌入之间的相似性。新版本使用 SONAR 嵌入（3.3.1），在语音模态下支持 83 种语言，在文本模态下支持 200 种语言，并且可以扩展到将来的编码器，用於共享相同嵌入空间的新语言或模态。为了评估语音输出（与基於 ASR 的指标不同），BLASER 的优点是无需文本。更具体地说，在 Blaser 2.0 中，我们将源输入、任何 S2ST、S2TT 或 T2TT 模型的翻译输出，以及参考语音片段或文本转换为 SONAR 嵌入向量（hsrc、hmt 和 href）。对於 Blaser 2.0 的监督版本，这些嵌入被组合起来，并输入到一个小型、紧密的神经网络中，该神经网络为每个翻译输出预测 XSTS 分数。对於非监督版本，我们与 Chen 等 [2023a] 类似，使用源-翻译和参考-翻译余弦相似性的平均值。此外，我们还训练了一个称为 Blaser 2.0-QE（质量估计）的无参考版本。Blaser 2.0-QE 是仅使用源和翻译嵌入训练的监督模型。它可以应用於缺少参考翻译或参考翻译质量有问题的情况。数据 Blaser 2.0 的监督版本是在 XSTS-标记数据（Licht 等 [2022]）上训练的，该数据包括原始 BLASER（Chen 等 [2023a]）中的相同的 S2ST 标记。额外的 S2ST、S2TT 和 T2ST 标记来自各种其他内部研究，包括 NLLB 人工评估 NLLB Team 等 [2022]，而 T2TT 标记则来自 NLLB（NLLB Team 等 [2022]）。我们过滤掉所有长度超过 30 秒的音频，因为 SONAR 编码器没有在长音频上进行训练。对於原始的 BLASER 数据，我们重新使用了训练/测试拆分。其他数据集是随机拆分的，比例为 80/20，以便相同的源音频或文本始终进入同一分区。有关数据的详细信息请参见表 26。 https://i.imgur.com/4xipRGr.png 表 26：Blaser 2.0 的数据：测试和训练大小，系统和语言数量，无监督、监督和无参考 Blaser 2.0 分数与 XSTS 测试子集标签的斯皮尔曼相关性。训练对於监督模型，架构与 BLASER 1.0 模型相同：一个 3 层感知器，其顶部带有 tanh 激活(tanh activations)，位於 6 个归一化嵌入和它们的导数的串联向量之上： [h_ref;h_mt;h_src ⊙ h_mt;|h_src － h_mt|;h_ref ⊙ h_mt;|h_ref － h_mt|]。对於 QE 版本，我们使用相同的设置，但使用无参考的输入： [h_src;h_mt;h_src ⊙ h_mt;|h_src － h_mt|]。我们使用 BLASER 1.0 的训练代码，并进行了一些超参数的修改，以减轻过拟合：50% 的随机失活，0.1 的权重衰减，1024 的批次大小，并在训练结束时对学习率进行全线性衰减。为了补偿增加的批次大小，我们进行了 50 而不是 20 个 epoch 的训练。结果表 27 呈现了 BLASER 1.0 测试数据上无监督和监督 BLASER 的性能。无监督 2.0 模型稍微优於其前身。监督 v1.0 和 v2.0 模型与人类判断的平均相关性相同。由於 Blaser 2.0 支持更多的语言，因此我们在评估中使用了这个模型。 https://i.imgur.com/1y8xXlu.png 表 27：无监督和监督 BLASER 模型与 BLASER 1.0 测试数据上的 XSTS 分数的皮尔森相关性。表 26 的最後三列呈现了 2.0 模型的预测与 XSTS 分数之间在所有数据分区中的相关性。基於结果，监督模型在每个分区上的表现均优於无监督模型。无参考模型在大多数情况下介於它们之间，但对於新的 S2ST 数据，其性能低於无监督模型。我们假设在这个子集中，参考文本有时会与源文本不一致，这可能是由於语音分割或合成的错误，或者由於在特定上下文中仅在非字面翻译时才有意义。对一些样本的手动检查证实了这个假设，但对 BLASER 模型中参考的作用的更多分析需要在未来进行。SeamlessM4T 模型的完整 Blaser 2.0 分数在表 18 中报告。此外，下一节 5.2 报告了 Blaser 2.0 分数与人工分数之间的相关性。 5.2 人工评估人工评估是评估我们系统质量的重要工具。首先，我们简要描述该领域的相关工作，然後详细介绍整个人工评估过程，包括协议、数据和校准。相关工作. 在科学界广泛应用人工评估来进行机器翻译。其中两个最受欢迎的人工评估模型在国际评估活动的框架内得以应用。WMT 会议 [Kocmi 等，2022] 要求参与者使用预定义的协议评估翻译系统的输出，通常使用直接评估 [Graham 等，2013] 协议。除了这种基於文本的评估外，IWSLT 评估活动还涵盖了语音翻译。作为示例，语音到语音轨道在四个维度上评估语音输出质量。第一个是翻译质量，着重於捕捉意义，标注者将目标音频排名在 1 到 5 之间。其余的维度包括自然度，包括声音和发音，为了便於理解的清晰度和声音质量，其中考虑了噪音和其他艺术品。这些标准被用作均值意见分数（MOS）的替代方案。 5.2.1 人工评估协议与前面提到的相关工作类似，对於 S2TT 评估，我们使用了 XSTS 协议来评估翻译质量。我们将 S2ST 的结果推迟到以後的更新，但我们确实使用了两个协议来评估 S2ST：翻译质量使用 XSTS，自然度使用 MOS。我们将 MOS 协议的讨论推迟到以後的论文更新。 XSTS. XSTS [Licht 等，2022] 从语义保存的角度评估翻译质量，以前已被用於评估 NLLB 模型 [NLLB Team 等，2022]。虽然 XSTS 最初是设计用於评估文本的，但该协议在效果上是模态不可知的，我们仅需要进行小幅调整，以支援 S2ST 和 S2TT 任务。例如，协议的 S2ST 和 S2TT 版本需要对标注者提供有关非语音标签（例如 <laugh>）处理的额外说明——标注者被指示忽略这些标签——以及如何考虑暂停和非语音噪声（他们被指示也忽略这些）。在执行逻辑方面，我们与用於评估工作的供应商进行的对话显示，对於标注者来说，S2ST 翻译的评估负担似乎比 T2TT 更大（由於不能同时体验源语音和目标语音），因此进行得更慢。 XSTS 标注和校准过程. 在标注过程中，3 名标注者检查了每对源目标语音（或语音文本对）并使用 XSTS 协议评估了语义相似性。在进行标注之前，所有标注者都经过了一组单语英语「练习」评估，并进行了评分说明。为了加速评估，每个语言对使用了超过 3 （最多 24）名标注者；每个评估的句子对都会显示给 3 名标注者，基本上是随机分配的，并且在评估中夹杂了校准集项目。在 3 名标注者之间的评分值存在 2 或更多的分歧的情况下，我们将再次对同一项目进行 2 名额外的标注者评估，从而将该项目的评估者得分总数增加到 5。然後，对於相同音频对的标注者的中位数分数被取用，以用於每个评估句子对的中位数；中位数用於提高韧性。这个过程在 S2ST 和 S2TT 评估中都是相同的。对於整体方向的分数，我们报告这个中位数分数的平均值（或某种聚合，比如中位数 XSTS 分数在特定系统的特定语言方向的所有评估项目中超过给定阈值的句子的比例）。校准集项目接受相同的待遇，因此每个标注者池的句子对都有 1 个分数，并且使用在评估特定语言方向的标注者组的校准集上的平均分数对语言级分数进行校准；校准集和方法在下面进行描述。为了实现模型质量的跨语言比较，生成了一个单语「跨语言校准集」[Licht 等，2022]，并将其包含在评估中，并使用先前建立的「调节校准」方法进行校准[Licht 等，2022; NLLB Team 等，2022]。发现校准过程可以减少语言级别的标注者偏见，并因此提高与自动指标的相关性。运行具有已知分数的校准集或「黄金集」（即比例远低於此处的 500 个项目的，例如 50–100 个项目）有助於确保标注质量，即使不打算进行语言间校准。足够「不合格」的标注者组可以被识别出来，并且可以排除其结果，或者可以进行额外的培训以改善其表现。 5.2.2 评估框架数据集人工评估使用 Fleurs 数据集的「测试」分区[Conneau et al.，2022]进行。 Fleurs 的「测试」分区提供了每种支援的语言（Fleurs 支援 102 种语言）的最多 350 个来自 FLORES-101 数据集[Goyal et al.，2022]的句子。每个句子最多有 3 个不同说话者的录音（取决於哪些录音通过了质量审查），以及相关的 FLORES-101 文本。质量审查的要求意味着每种语言可能不会为所有 350 个句子都有录音，对於那些确实有录音的句子，并不一定存在所有三个说话者的录音。在对特定语言方向的翻译系统进行评估时，我们将 Fleurs 数据过滤为一个子集，该子集包含两种语言中都有录音的句子，以便每个语言对拥有一个共同的双向评估集。我们这样做是为了确保 S2TT 和 S2ST 评估都使用相同的句子集。由於 Fleurs 的覆盖范围因语言而异，因此评估集中存在的项目子集因语言而异，因此也因语言对而异；虽然大多数项目在不同语言之间是共通的，但我们相信分数在很大程度上是可比较的，因为它们来自相同的领域。在将 Fleurs 准备用作人工参考集时，必须在源语言的不同阅读者和目标语言中等效 Fleurs 项目的读者之间进行配对。在可能的情况下，这些配对是为了匹配用户性别（在 Fleurs 测试分区的整个过程中，约有 53% 的时间与英语配对的语言之间存在明显差异），并且剩下的 47% 项目必须进行混合性别的配对。我们选择至多对每个 Fleurs 句子进行 2 次独特的阅读。评估的语言方向、模式和系统我们在表 28 中列出了使用每个协议进行评估的语言和模式。语言的选择是通过平衡人类标注资源的可用性，捕捉大型人口的语言样本，同时代表高资源和中资源的语言混合。对於 S2TT，我们对 SeamlessM4T-Large 和 Whisper-Large-v2 模型在 X–eng 方向上进行了 22 种语言的 XSTS 评估，其中 SeamlessM4T-Large 模型的生成使用稍早版本的 fairseq（而不是 Fairseq2），但 S2TT 性能之间的平均 BLEU 差异小於 0.5。对於 eng –X，我们仅对相同的语言进行评估，但仅对 SeamlessM4T-Large 模型（使用 fairseq 生成）。此外，对於所有语言的人工参考系统（即 Fleurs 数据本身），我们也进行了评估。我们仅对 S2TT 进行了直接模型的评估，并计划在未来的工作中将基准扩展到 2 阶段级联系统，以包括 eng–X 的基准。对於 S2ST，由於在所有目标方向上运行单语 TTS 模型涉及的复杂性，我们不评估 eng–X 的基准。然而，在未来，我们计划使用 MMS-TTS Pratap 等系统建立此类基准；我们在本文的其他部分中使用了这些相同的系统，例如为了将基於文本的负责任 AI 数据集扩展到语音（第 6.3.2 节）。 https://i.imgur.com/2MPBolf.png 1 SeamlessM4T-Large * 指的是使用 fairseq 进行生成的 SeamlessM4T-Large 模型，而不是 Fairseq2，但 S2TT 的性能平均在两者之间的 BLEU 值相差不超过 0.5。 2 孟加拉语、加泰罗尼亚语、荷兰语、芬兰语、法语、德语、印地语、印尼语、意大利语、日语、韩语、普通话、现代标准阿拉伯语、葡萄牙语、罗马尼亚语、俄语、西班牙语、斯瓦希里语、泰语、土耳其语、乌尔都语、越南语 3 MOS 指的是均匀意见分数协议；更多细节将在後续更新中包含 S2ST 评估。表 28：评估摘要：用於人工评估的语言、模式、模型和协议。括号中的模式和协议在本文中未呈现，但将在後续的更新中分享。 5.2.3 初步人工评估结果 S2TT 任务的 XSTS 结果我们使用 XSTS 协议（参见表 28）呈现了 S2TT 模式的结果。图 10 显示了所有受评模型和语言（包括 X–eng 和 eng–X）的校准 XSTS 分数。我们可以看到，在 X–eng 语言方向上，SeamlessM4T-Large 的品质对於所有 22 个受评语言方向而言，都保持在 XSTS 分数 3 以上。在 eng–X 语言方向上，SeamlessM4T-Large 的品质对於所有 22 个受评语言方向而言，都保持在 XSTS 分数 4 以上。值得注意的是，在 X–eng 方向上，我们可以看到对於斯瓦希里语（XSTS 改进接近 2.5 ）和孟加拉语（XSTS 改进超过 1），SeamlessM4T-Large 在翻译品质方面显着优於 Whisper-Large-v2 基线。在 X–eng 方向上，SeamlessM4T-Large 在 22 个受评语言方向中，有 7 个语言的品质显着优於 Whisper-Large-v2，而有 8 个语言的品质下降；所有品质下降都小於 0.5 的 XSTS，除了日语，其下降略大。 https://i.imgur.com/Zr7Ry36.png 表 29：所有 22 个受评语言的英语方向内外的整体平均 XSTS 人工评估结果。结果是针对每个语言方向计算的（请参见表 30 以获取完整的语言层级结果）。%3+ 和 %4+ 分别指的是具有中位数分数等於或大於 3 和 4 的语言句子的百分比。在对语言方向进行平均时，相对於 Whisper-Large-v2 基线，SeamlessM4T-Large 在 X– eng 方向上在平均 XSTS 分数和% 超过 XSTS 分数阈值 3 和 4 的句子方面表现出优越性（请参见表 29）。我们还注意到相对於 X–eng 方向，eng–X 方向通常表现较高。根据第 4.4.2 节中的自动结果，我们观察到在任务（S2TT、S2ST、T2TT 或 T2TT）中，一个方向相对於另一个方向的较高表现取决於任务的不同。对於 S2TT 和 spBLEU 以及 Blaser 2.0（参见表 18），即使在不同的语言集中进行平均，eng–X 相对於 X–eng 的超越表现依然存在。我们对此现象提出了一些可能的解释。例如，语音编码可能比语音或文本解码更复杂。如果是这种情况，英语语音编码的更好表现可能有助於 eng–X 方向的更高表现。从数据上看，一种合理的解释可能是不同语言的 Fleurs 录音的音质不同（例如，英语源句音质可能更高，从而提高了 eng–X 的分数）。 5.2.4 限制测试集限制用於评估的 Fleurs [Conneau et al., 2022] 测试集存在一些限制，不同语言对的评估将在稍微不同的句子集上进行评估。由於数据集的限制（最多包含 3 名说话者）以及在人工评估方面的时间和成本考虑（我们每个句子最多评估两名说话者），我们每种语言的说话者集合缺乏多样性，这可能会引入相对於具有更多说话者的测试集的偏差。每种语言的人工标注者样本数有限在我们的 XSTS 评估中，对於每个语言的每个句子，我们只有最多 5 名（通常为 3 名）标注者的评估。相对较小的标注者样本意味着必须考虑标注者偏差的影响。我们尝试通过以下方式来缓解这个问题：(1) 使用每个语言的每个句子的中位数分数，以对抗极端值，(2) 使用自助取样重新估计由於有限标注者而产生的语言分数不确定性，(3) 使用跨语言校准集来近似并校正标注者偏差。 https://i.imgur.com/grkUDeb.png 图 10：S2TT 模式的语言方向级别经过校准的平均 XSTS 分数。95% 自助取样的 CI（置信区间）通常在 ±0.12 之内。 https://i.imgur.com/7go5yPu.png 表 30：完整的校准 XSTS S2TT 结果；95% 自助取样的 CI 宽度平均为 ±0.12。%3+ 和 %4+ 分别指的是一个语言中具有中位数分数等於或大於 3 和 4 的句子的百分比，不经过校准（校准仅在语言层面上进行）。 https://i.imgur.com/geclLna.png 图 11：模型对抗背景噪音的稳健性(Robustness)评估结果。我们在 X–eng 的 S2TT 和 ASR 上报告了 4 种语言（3 个语言家族）的平均测试 BLEU 和测试 WER，在 Fleurs 上对低到高的输入噪音水平（高到低的信噪比）进行测试。模拟的噪音来自 MUSAN [Snyder et al.,2015] 中的“noise”和“music”类别。 5.3 自动稳健性(Robustness)评估我们评估模型对於现实世界语音输入中的非语言干扰的稳健性(Robustness)，包括背景噪音和说话者变异。正如在其他几个部分中所报告的，我们将我们的模型与 Whisper-Large-v2 进行比较。 5.3.1 对抗背景噪音的稳健性(Robustness) 相关工作过去的研究[王等，2022；朱等，2022；拉德福德等，2022]在模拟的噪音音频上进行了不同背景噪音水平下的语音模型稳健性(Robustness)分析。然而，现有的基於模拟的评估不仅受到噪音类型（例如，简单的白噪音）、任务范围（例如，仅 ASR）、语言范围（例如，仅英语）的限制，还受到基准数据的可复现性的限制。这需要一个开放且多功能的基准来克服这些限制。实验框架我们基於 Fleurs（"有噪音的 Fleurs"）建立了一个可复制的噪音稳健性 (Robustness)评估基准，该基准涵盖 102 种语言、2 个语音任务（S2TT 和 ASR）以及各种噪音类型（自然噪音和音乐）。为了创建模拟的有噪音音频，我们从 MUSAN [Snyder et al., 2015] 中的“noise”和“music”类别中取样音频片段，并将它们与原始的 Fleurs 语音音频混合，信噪比（SNR）分别为 10、5、0、-5、-10、-15 和 -20。我们通过 BLEU-SNR 曲线（用於 S2TT）或 WER-SNR 曲线（用於 ASR）来比较模型，这些曲线展示了当语音输入的噪音水平增加（即 SNR 减小）时模型性能恶化的程度。无论是 SeamlessM4T-Large 还是 Whisper-Large-v2，它们在大多数高资源语言中都表现出色，其中在嘈杂的语音设置中进行压力测试更为必要且有信息价值。对於低资源语言来说，乾净的语音设置已经具有挑战性，更不用说有噪音的语音设置了。因此，我们专注於 4 个高资源语言（法语、西班牙语、现代标准阿拉伯语和俄语），来自 3 个不同语言家族，对 SeamlessM4T-Large 和 Whisper-Large-v2 进行有关噪音稳健性(Robustness)的分析。结果图 11 显示了 X–eng S2TT 和 ASR 在 Fleurs 上的平均测试 BLEU 和测试 WER，这些测试在低到高的输入噪音水平（高到低的 SNR）上进行（有噪音）。我们可以看到， SeamlessM4T-Large 的 BLEU-SNR 曲线始终在 Whisper-Large-v2 的上方。同样， SeamlessM4T-Large 的 WER-SNR 曲线始终低於 Whisper-Large-v2 的曲线。这表明在嘈杂的语音环境中，SeamlessM4T-Large 的稳健性(Robustness)优越性。在 X–eng S2TT 和 ASR 的各种噪音类型和噪音水平上，SeamlessM4T-Large 在平均上优於 Whisper-Large-v2，分别优於 33.3% 和 42.2%。 5.3.2 对抗说话者变异的稳健性(Robustness) 相关工作预期 ASR 和 S2TT 系统能够将与输入内容无关的说话者变异效果最小化。先前的研究[刘等，2022；Dheram 等，2022]研究了 ASR 系统对不同说话者子组（按种族、性别、国家等分组）的公平性，这需要准确的说话者人口统计标签[Hazirbas 等，2021； Porgali 等，2023]用於说话者分组和分组评分。然而，现有的 ASR 基准数据中很少有这些标签，限制了这种分析的应用。为了克服标签稀缺性，Wang 等人[2020]提出了一组无标签指标，这些指标不依赖於说话者分组，用於分析说话者变异的影响。实验设置我们遵循 Wang 等人[2020]的方法，通过计算句子级质量指标的平均组内均值分数和平均组内变异系数来评估模型对於说话者变异的稳健性(Robustness)。我们将 BLEU 作为质量指标，改为使用 chrF，这在句子级别上具有更好的稳定性。这两个稳健性 (Robustness)指标的计算不需要明确的说话者子组标签。我们通过内容（转录文本）将评估样本和相应的句子级 chrF 分数分组，然後计算定义如下的平均组内均值分数 chrFMS 和平均组内变异系数 CoefVarMS： https://i.imgur.com/bhG6ixq.png 其中 G 是按内容（转录文本）分组的句子级 chrF 分数集合（分组为 G），而 G' = {g|g ∈ G,|g| > 1,Mean(g) > 0}。这两个指标互补：chrFMS 提供了一个标准化的质量指标，与传统的语料库级指标不同，它考虑了说话者变异，而 CoefVarMS 则提供了在说话者变异下质量变异的标准化测量。为了对 SeamlessM4T-Large 和 Whisper-Large-v2 的稳健性(Robustness)进行分析，我们在 Fleurs 上进行了跨域评估，涵盖了测试集中至少有 40 个内容组的所有语言。结果表 31 显示了 SeamlessM4T-Large 和 Whisper-Large-v2 在 Fleurs X–eng S2TT 和 ASR 测试集上的 chrFMS 和 CoefVarMS 分数。我们可以看到，在这 2 个任务中， SeamlessM4T-Large 在 CoefVarMS 上的表现平均优於 Whisper-Large-v2，超过 49.4%。此外，SeamlessM4T-Large 在 chrFMS 上的表现平均优於 Whisper-Large-v2，超过 18.3%。这表明在处理说话者变异时，SeamlessM4T-Large 的稳健性(Robustness)更强。 https://i.imgur.com/s1yr7Lx.png 表 31：模型对抗说话者变异的评估结果。我们报告了 FleursX–engS2TT 和 ASR 测试集上按组平均的 chrF（chrFMS）和 chrF 的平均组内变异系数（CoefVarMS）。 _________________ 6.负责任的人工智慧为了符合我们对於负责任建立系统的期望，我们专注於评估附加的毒性和偏见。这两个负责任人工智慧的层面近来受到了显着的科学关注（例如，[Kiritchenko et al., 2021; Bender et al., 2021; Costa-jussà, 2019]）。此外，这些意外错误或翻译失误可能会对使用者体验造成不利影响。因此，对这些问题的持续关注对於我们系统的安全部署至关重要。除了这些层面，我们还关注公平性的概念。与稳健性(Robustness)的概念（如第5.3.2节中的概念）相比，那里的焦点是我们的系统性能是否受到说话者声音质量的不同影响，这里的公平性更关注翻译输出的内容。公平的输出不会偏向或偏向特定族群，并且往往会相对公平地对待不同的群体。我们记录这些评估的结果，以更好地指导缓解工作。 6.1 定义我们首先详细说明了我们如何定义由附加的毒性和性别偏见引起的错误。毒性. 在他们对关键机器翻译错误的分类中，[Sharou and Specia, 2022]将「毒性偏离」定义为「在翻译中可能因为错误的翻译而激起对个人或群体（宗教、种族、性别等）的仇恨、暴力、粗话或虐待的情况」，这「涵盖了在翻译中引入毒性的情况，当源文中不存在时，将其删除，当翻译成不同（有毒或无毒）词语时，或者根本不翻译（即，毒性仍然存在於源语言或音译中）。」我们对於附加的毒性的定义稍微有所不同，不涵盖源毒性内容未翻译或在翻译中被删除的情况。简而言之，附加的毒性是在源发言中引入有毒元素。性别偏见. 另一个与负责任的人工智能有关的错误涉及性别偏见的传播和放大。在机器翻译中，当翻译出现语言性别确定方面的错误时，尽管源内容中有足够的性别线索让系统能够推断正确的性别形式，但也会观察到性别偏见。为了说明这一现象，以下是句子（1），在这个句子中，没有足够的语言线索让翻译系统能够决定在翻译成语言中使用哪种性别形式，尤其是当医生一词具有性别之分的时候。然而，句子（2）包含一个性别化的代词，该代词很可能具有医生一词作为其先行词。 1.我感觉不太舒服，所以我预约了我的医生。 2.我的医生非常关心'她'的病人需求。当系统将句子（2）翻译成使用医生一词有不同性别形式的语言时，如果产生了错误的性别形式，就会观察到性别偏见。在翻译类似句子（1）的表达时出现的单一错误并不足以断定模型存在性别偏见；这样做需要一直观察一种语言性别优於另一种语言性别的情况。先前有人提出，性别偏见的可能来源之一是大型训练和评估数据集中的性别代表不平衡，例如 [Costa-jussà等，2022; Qian等，2022]。 6.2 毒性警告：本节包含可能冒犯某些人的示例。 6.2.1 动机背景如上所述，附加毒性意味着在翻译输出中引入不在输入中的毒性。这可以归类为一个关键错误；这可能会使使用者不信任翻译系统。因此，量化我们的模型添加了多少毒性是很重要的。我们还有兴趣将添加毒性分析与人口偏见分析结合起来，以确定是否在某些人口轴上生成了更多的添加毒性。相关工作虽然在语音毒性检测方面的相关研究相当有限 [Iskhakova et al., 2020; Yousefi and Emmanouilidou, 2021]，但基於文本的方法的毒性检测在不同情境下已经被广泛探索。许多这些努力的例子可以在大规模评估中找到，例如 JigSaw 系列 Kaggle 比赛或 WMT 关键错误检测 [Specia et al., 2021]。最近，在 T2TT 的情况下，使用基於单词列表的检测方法（例如 NLLB [NLLB Team et al., 2022]）来扩大毒性检测的推动，进一步推动了对大规模毒性分析 [Costa-jussà et al., 2023] 和缓解策略 [Gilabert et al., 2023] 的研究。使用涵盖不同人口轴的数据集可以进一步分析哪些人口轴对毒性最敏感 [Costa-jussà et al., 2023]。到目前为止，涵盖广泛人口轴的数据集主要集中在文本方面，需要更多关注语音（文本数据的一个示例是 HolisticBias [Smith et al., 2022]）。提出的方法根据 ASR-BLEU 的灵感，本研究提出使用 ASR-ETOX 作为一种新的评估指标，在语音中检测添加的毒性，并评估 SeamlessM4T 的 S2ST 功能的添加毒性。基本上，这个指标遵循一个级联框架，首先部署标准的 ASR 模块（即，与 ASR-BLEU 中定义的相同模块，如表 4 所示），然後是毒性检测模块 ETOX [Costa-jussà et al., 2023]，它使用 Toxicity-200 单词列表。对於 S2TT，翻译输出可以直接使用 ETOX 进行评估。在这两种情况（S2ST 和 S2TT）下，我们在发言/句子级别上测量添加毒性。我们首先计算评估数据集中每个输入和相应输出的毒性检测。然後进行比较，仅当输出值超过输入显示的值时，我们才将一个案例视为包含了添加毒性。 6.2.2 实验框架语言方向和模式与前面在第5.2节中的人工评估框架类似，我们在 Fleurs 上评估了 S2ST 和 S2TT。与人工评估不同的是，我们扩展了毒性评估，涵盖了我们提供翻译的所有语言，如表 5 所摘要。伊博语、缅甸语、尼泊尔语和阿萨姆语存在分段和毒性词语列表中的一致性问题。由於这些问题，这些语言往往会过度检测毒性，我们将它们视为离群值。因此，我们将它们从分析和结果中排除。数据集我们使用了两个数据集来分析添加毒性。首先，我们使用 Fleurs 数据集，以更好地对齐我们的人工评估工作以及本工作的其他评估组件。此外，我们还使用了仅包含英文的 HolisticBias 框架 [Smith et al., 2022]，在先前的研究中已经证明可以触发真正的添加毒性 [Costa-jussà et al., 2023]。HolisticBias 包含 26 个模板，涵盖了 13 个人口轴上的 600 多个描述词和 30 个名词。该数据集包含超过 47.2 万个英文句子，用於两人对话的上下文中。通常，句子是通过结合句子模板（例如，“我是一个 [名词片语]。”），名词（例如，家长）和描述词（例如，残疾人）来构建的。近 600 个描述词涵盖了各种人口轴，包括能力、种族/族裔和性别/性别。名词可能指示特定的性别（例如，女人、男人）或避免性别参考（例如，孩子、小孩）。此外，句子模板允许描述词/ 名词片语的单数和复数形式。在本研究中，我们通过使用来自 fairseq Sˆ2 的默认“en” transformer tts 模型来将 HolisticBias 扩展到语音。它首先将输入文本转换为国际音标音素，然後将它们传递给mel频谱图生成器transformer模型，最後将输出喂给HiFi-Gan vocoder以创建波形。模型作为 S2TT X–eng 的基准系统，我们使用 Whisper-Large-v2 [Radford et al., 2022]。至於 S2ST X–eng，我们应用了 Casanova et al. [2022] 来从 Whisper-Large-v2 S2TT 的输出中生成合成语音。对於 S2TT eng–X，我们使用了 Whisper-Large-v2 + NLLB-3.3B [NLLB Team et al., 2022] 的级联系统。以下，我们报告 SeamlessM4T-Large 的结果。评估我们使用 ETOX17 的 Github 实现。对於没有空格的语言，我们在工具中使用 spm 分词选项。对於 ASR，我们使用与 ASR-BLEU 相同的实现框架，如表 4 所报告。 6.2.3 结果在 Fleurs 数据集上的自动毒性检测我们对 SeamlessM4T-Large 的输出进行了 Fleurs 数据集上的评估。图 12 展示了 X–eng 和 eng–X 方向的 S2TT 和 S2ST 的结果，显示了包含添加毒性的句子数量。当观察每个句子中的添加毒性量时，少於 5% 的情况中每个句子包含超过 1 个添加毒性标记。总体而言，Fleurs 数据集在语言、任务和翻译方向之间平均的添加毒性频率相对较低，为 0.15%。对於 X–eng 的 S2TT（图 12 左），跨语言的添加毒性平均为 0.11%，有 27 对语言包含一些添加毒性。对於 S2ST（图 12 右），跨语言的添加毒性平均为 0.12%，有 35 对语言包含添加毒性。对於 eng–X 的 S2TT（图 12 左），跨语言的添加毒性平均为 0.21%，有 32 对语言包含添加毒性。对於 S2ST（图 12 右），跨语言的添加毒性平均为 0.16%，有 16 对语言包含添加毒性。不同模式之间的主要差异在於 eng–X 翻译方向的 S2ST 中添加毒性的量减少。我们将在本节稍後的 HolisticBias 数据集结果中对这种差异进行讨论。相比之下，对於 X–eng 的 S2TT，Whisper-Large-v2 的添加毒性在跨语言中平均为 0.31%，在 58 个语言中普遍存在。对於 Whisper-Large-v2 和 SeamlessM4T-Large 中重叠的语言，後者的添加毒性减少了 63%。对於 X–eng 的 S2ST，Whisper-Large-v2 + YourTTS 的添加毒性在跨语言中平均为 0.27%，在 52 个语言中普遍存在。对於这个级联 S2ST 系统和 SeamlessM4T-Large 中重叠的语言，我们的毒性标记减少了 62%。对於 eng–X 的 S2TT，Whisper-Large-v2 + NLLB-3.3B 的级联组合在语言中平均增加了 31% 的添加毒性，并且添加毒性在 39 个语言中普遍存在。对於重叠的语言， SeamlessM4T-Large 将这个数量减少了 26%。如第 4.2.1 节中所报告的对训练数据中不平衡毒性的过滤可能对这一改善有所贡献。 HolisticBias 数据集上的自动毒性检测图 13（左）显示了在将 HolisticBias 从 eng –X 翻译为其他语言时，S2TT 具有最高添加毒性的语言结果（请注意，HolisticBias 仅提供英文）。在这里，我们观察到与 Fleurs 相比，S2TT 的添加毒性稍高，而 S2ST 的添加毒性稍低。总体而言，HolisticBias 数据集的添加毒性在 S2TT 上为 0.19%，在 S2ST 上为 0.13%，在语言之间平均。对於 S2TT，有 84 个受到添加毒性影响的语言。在观察每个句子中的添加毒性量时，少於 0.003% 的输出包含超过一个添加毒性标记。图 14（左）显示了在将 HolisticBias 数据集翻译为其他语言时的 S2ST 语言结果。总共有 34 个包含添加毒性的语言。通过手动检查，当比较在 S2TT 翻译中检测到的毒性词语在 S2ST 中未被检测到时，我们观察到毒性词语类似但存在轻微差异。我们假设在毒性检测之前使用 ASR 往往会导致伪阴性，这解释了从 S2TT 到 S2ST（从 0.19% 减少到 0.13%）的添加毒性减少的高幅度，这也在 Fleurs 中发生（从 0.21% 减少到 0.16%）。例如，在英语到加泰隆尼亚语的情况下，S2ST 输出中的单词 "merda" 通常写作 "mereda"，因此未被 ETOX 识别。这种类型的例子突显了基於黑名单标记的检测存在的限制。 https://i.imgur.com/QgWed6U.png 图 12：在 Fleurs 中的 S2TT（左）和 S2ST（右）的 X–eng 和 eng–X 的添加毒性。该图显示了包含添加毒性的输出数量，包括 SeamlessM4T-Large（蓝色）以及在可用时的 Whisper-Large-v2 和 Whisper-Large-v2 + YourTTS 系统（橙色）。参照先前的工作 [Costa-jussà et al., 2023]，我们对 HolisticBias 的轴进行毒性分析，并在图 13 和 14（右）中报告了结果。图显示了每个类别的毒性翻译分布以及它们如何随着语言而变化。我们可以看到，不同语言在毒性词语的分布方面在人口轴上有所不同。对於大多数语言，一个轴上的毒性分布与该轴的整体份额成比例。例如，体型（ "body type"）是体积最大的主要类别，占数据集的 25%。这个类别也往往累积了较大数量的毒性。然而，对於一些语言，毒性句子似乎高度集中在特定轴上，例如孟加拉语（ 80% 的社会经济地位）、尼扬贾语（66% 的特性）和吉尔吉斯语（94% 的文化）等。 https://i.imgur.com/OjKkaaB.png 图 13：（左）在 HolisticBias 中 eng–X 的 S2TT 的添加毒性。显示前 40 个语言。所绘制的语言是添加毒性样本数超过 500 个的部分，占数据集的 0.1%。（右）不同语言在毒性词语的分布方面存在差异，具体取决於人口轴，有些语言的毒性主要集中在一个或两个轴上。在 S2TT 和 S2ST 中毒性标记更多的类别包括“Nonce”（0.79% 和 0.46%）和“性取向 ”（0.62% 和 0.35%）。“Nonce”（无意义）类别在词语方面有点异常，因为它们不特定地参考任何人口群体。在添加毒性最少的类别中，S2TT 是年龄（0.37%），而 S2ST 是政治意识形态。 6.2.4 毒性关键发现与贡献总结起来，我们的主要发现和贡献包括：(1) 提出了一个用於规模化语言的语音毒性检测的指标（ASR-ETOX），(2) 显示尽管添加毒性的程度和类型因语言和数据集而异，但我们系统中的添加毒性相对较低（在模式、语言方向和数据集之间变化从 0.11% 到 0.21%），以及 (3) 我们与最新技术的评估显示，在 Fleurs 中，SeamlessM4T-Large 能够减少跨模式和语言方向的毒性 51%，在 HolisticBias 中 eng–X 的 S2TT 中则减少了 34%。 6.3 偏见 6.3.1 动机不平衡的训练数据可能导致人口统计和代表性偏见，影响我们的模型及其生成的输出。这些偏见可能通过在特定情境中使用时持续地造成配置偏见，对用户造成不良影响。近年来，机器翻译领域在揭示[Prates et al., 2020]、评估[Stanovsky et al., 2019; Renduchintala et al., 2021; Costa-jussà et al., 2022; Bentivogli et al., 2020]，甚至减轻许多此类偏见形式方面取得了显着进展[Renduchintala and Williams, 2022]。然而，在这个研究领域还有很多工作要做。 https://i.imgur.com/aqknZIC.png 图 14：（左）在 HolisticBias 中 eng–X 的 S2ST 的添加毒性。显示所有目标语言。（右）与 S2TT 类似，不同语言在根据人口轴的毒性词语分布方面存在差异，有些语言的毒性主要由一个或两个轴主导。相关工作多语言的 HolisticBias 数据集[Costa-jussà et al., 2023] 是对 HolisticBias 的扩展。它包含三种不同模式和 118 个描述词的翻译，可在 50 种不同语言中使用。根据语言中是否存在性别屈折，每种语言都有一个或两个参考。每个翻译的句子包括男性、中性，以及在适用情况下的女性版本。该数据集使得能够量化跨人口统计方面的性别偏见，并且在撰写本文时，它具有最高的语言覆盖率。先前的工作主要集中在文本方面[Stanovsky et al., 2019; Renduchintala et al., 2021; Levy et al., 2021; Costa-jussà et al., 2022; Renduchintala and Williams, 2022]，并且往往以英语为中心，人口轴和多语言参考较少。对於语音模式的类似努力仍然不足[Costa-jussà et al., 2022; Bentivogli et al., 2020]。贡献。在这项工作中，我们使用了多语言的 HolisticBias 数据集及其语音扩展（在下一节中描述）来比较 S2TT 和 S2ST 的性能。eng–X 方向允许在存在男性或女性参考的情况下进行性能比较，而 X–eng 方向则能够在改变性别屈折时进行翻译的稳健性比较。例如，英语到西班牙语的语言对通常是 "I’m a homemaker" 和相应的西班牙语翻译 "Soy amo de casa" 和 "Soy ama de casa"。从英语翻译成西班牙语时，我们可以测量系统是否过於泛化到一个性别，而在另一个方向上，我们可以评估翻译对性别屈折的稳健性。 6.3.2 偏见实验框架数据集：多语言 HolisticBias 的语音扩展为了跨模式（S2ST 和 S2TT）比较性能，我们首先通过使用 Pratap et al. [2023] 提供的 TTS 模型将多语言 HolisticBias 数据集从文本扩展到语音。由於该 TTS 模型在正确生成数位的语音方面存在限制，我们手动将每种语言的所有数位转换为文字。例如，句子 "I have friends who are 50 years old." 被转换为 "I have friends who are fifty years old."。在通过 TTS 处理後，我们获得了在 19 种语言中总共 325 个句子的合成语音。这些语言既被 MMS-TTS 支持，也包含在多语言 HolisticBias 数据集中[Costa-jussà et al., 2023]。对於这些语言的每一种（除了英语），我们生成了两种语音，分别对应每组有性别的文本。语言方向和模式我们将这些生成的 TTS 数据用作 S2TT 和 S2ST 的输入，以及 S2ST 的参考。我们在两个方向上进行翻译 —— eng–X 和 X–eng。具体而言，在 X–eng 方向上，我们翻译了语音的男性和女性版本。值得注意的是，某些目标语言在 SeamlessM4T 的 S2ST 模型中不可用，因此我们只对 X–eng 方向的 S2ST 任务进行了 17 种语言的翻译。对於 eng–X 方向的 S2TT，我们在多语言 HolisticBias 数据集中包含了所有的语言（n=25）。作为参考，我们实验中使用的完整语言列表可以在表 32 中找到。 https://i.imgur.com/b1QC108.png 表 32：偏见评估实验中的语言代码列表，按任务和语言方向组织。评估就 S2TT 的评估指标而言，我们使用了表 4 中报告的 chrF，只是将 nw:2 更改为 nw:0。我们之所以使用 chrF 而不是 BLEU 作为质量评估指标，是因为 chrF 更适合处理较短的语句，这更适合於多语言 HolisticBias 数据集的评估。该数据集相对较小（325 个语句），句子较短（平均每个语句 6 个单词）[Costa-jussà et al., 2023]。在这种情况下，我们认为 chrF 更适合进行比较[Ma et al., 2019]，因为 BLEU 在未匹配足够长的 n-gram 时迅速下降。对於 S2ST，我们使用了 ASR-chrF 和本文提出的 Blaser 2.0 。值得注意的是，在评估 Blaser 2.0 时，我们只包含了 14 种语言（包括英语）的 eng –X 方向（生成的 TTS 数据与我们的 S2ST 模型中可用的语言之间的重叠）。此外，由於 MMS-TTS 的生成不是确定性的，我们对 S2ST 和 S2TT 都重复进行了三次测量。然後，将最终的指标值进行平均，以确保评估的稳健性和准确性。模型我们使用了 SeamlessM4T-Large 模型和几个不同的基准系统。对於 X–eng 的 S2TT，我们使用了 Whisper-Large-v2 [Radford et al., 2022]。至於 X–eng 的 S2ST ，我们使用 YourTTS [Casanova et al., 2022] 从 Whisper-Large-v2 S2TT 的输出生成合成语音。对於 eng–X 的 S2TT，我们使用了级联系统：首先是来自 Whisper Large-v2 的 ASR [Radford et al., 2022]，然後是通过 NLLB-3.3B [NLLB Team et al., 2022] 的 T2TT。对於 SeamlessM4T-Large 的 S2TT，我们将波束大小设定为十。对於 SeamlessM4T-Large 的 S2ST，我们将波束大小分别设定为第一次通过解码器和第二次通过解码器的五。至於基准系统，我们将波束大小设定为 NLLB-3.3B 的五，并对 Whisper-Large-v2 和 YourTTS 使用默认值。 6.3.3 偏见评估结果本节专注於分析在使用中性输入（eng–X）时的性别翻译，以及在只有性别不同的输入之间的翻译性能差距（X–eng）。 https://i.imgur.com/bCGUf5T.png 图 15：左：eng–X 的 S2TT 使用英语语音作为源语音，使用 X 文本翻译（男性或女性）作为参考，男性和女性形式之间的 chrF 分数差异。右：eng–X 的 S2ST 使用英语语音作为源语音，使用 X 文本翻译（男性或女性）作为参考，男性和女性形式之间的 ASR-chrF 分数差异。 eng–X. 在我们的分析中，我们使用非英语语言的男性或女性人工翻译作为参考。该分析的源数据来自英语（eng）的多语言 HolisticBias 数据集，包括一系列带有模棱两可性别的独特句子。 https://i.imgur.com/DfTFjxK.png 图 16：（左）使用男性或女性版本的文本合成的 X 语音作为参考，英文文本作为参考，比较 X–eng S2TT 中男性和女性之间的 chrF 分数差异。（右）使用男性或女性版本的文本合成的 X 语音作为参考，英文文本作为参考，比较 X–eng S2ST 中男性和女性之间的 ASR-chrF 分数差异。 https://i.imgur.com/TK9GXlH.png 图 17：（左）使用英文语音作为源语音，使用 X 文本翻译（男性和女性）作为参考，使用监督式 Blaser 2.0 评估男性和女性形式之间的 ASR-chrF 分数差异。这些结果是从三次实验中平均计算得出的。（右）使用男性或女性版本的文本合成的 X 语音作为参考，英文文本作为参考，监督式 Blaser 2.0 的分数差异。 https://i.imgur.com/2w2OyET.png 表 33：按轴（跨描述符、模板和语言）的平均结果：S2TT 中的 chrF（顶部）和 S2ST 中的 ASR-chrF（底部）结果。列（从左到右）：男性参考、女性参考、两者之间的平均值，测量总数（Count）和男性与女性之间的差异（Diff）。行根据 S2ST 和 S2TT 的平均 chrF 分别按递增顺序排列。这些轴在 HolisticBias 中进行了定义 —— 详情请参见原文 [Smith et al., 2022] 的表 5。图 15 显示了每个目标语言的结果，显示了以下模式： ‧ 在 SeamlessM4T-Large 的 S2TT 中，除了泰语之外，所有语言的翻译质量都下降，尤其在像加泰罗尼亚语（chrF 分数差异达到 10.3），斯洛伐克语（10.1）和西班牙语（ 10.0）等语言中尤为明显。对於 Whisper-Large-v2 + NLLB-3.3B 的组合，所有语言的翻译质量都有所下降。最大的差异出现在加泰罗尼亚语（10.7）、西班牙语（10.3）和阿拉伯语（10.2）。值得一提的是，偏见在语言之间的分布在 SeamlessM4T-Large 和 Whisper-Large-v2 + NLLB-3.3B 的组合之间是相似的，唯一的例外是泰语。 ‧ 在 S2ST 中，我们注意到与 S2TT 有类似的趋势，即在评估女性参考时，所有语言（除了泰语）的翻译质量都降低。最大的差异出现在加泰罗尼亚语（ASR-chrF 分数差异达到 10.7）、西班牙语（10.0）和斯洛伐克语（9.3）等语言中。图 17 的左侧展示了通过 Blaser 2.0 进行自动语音评估的结果。我们观察到在 ASR-chrF 指标中有类似的趋势。在评估女性参考时，所有语言（除了泰语）的翻译质量平均下降了 0.02 个监督式 Blaser 2.0 分。有趣的是，对於法语的评估差异微不足道。最大的差异出现在西班牙语（0.07）和德语（0.03）等语言中。这些差异表明，当源语句中没有性别信息时，模型更倾向於将翻译转换为目标语言中的男性形式。值得注意的是，对於一些语言（如西班牙语或法语），复数男性形式与通用复数形式无法区分。 X–eng。我们的主要目标是评估从带有性别的句子开始，将其翻译为英语的翻译质量。因此，我们旨在测量模型对性别偏见的稳健性以及其处理标记有语法性别的语言之间的翻译能力。图 16 按源语言显示了 SeamlessM4T-Large 和 Whisper-Large-v2 或 Whisper-Large-v2 + YourTTS 的结果。我们观察到： ‧ 在 S2TT 中，大多数语言（SeamlessM4T-Large 中的 18 个中的 15 个， Whisper-Large-v2 中的 18 个中的 16 个）从男性参考进行翻译时，性能更好。然而，它们对不同语言有不同的偏见。SeamlessM4T-Large 中男性和女性形式之间最大的差异在泰米尔语（6.4 chrF 分数差异）和乌尔都语（5.0）。另一方面，在 Whisper-Large-v2 中，男性和女性形式之间最大的差异在西班牙语（5.3）、乌尔都语（3.8）和俄罗斯语（ 3.4）。 ‧ 在 S2ST 中，我们观察到与 S2TT 中的结果相似。大多数语言（SeamlessM4T-Large 中的 18 个中的 14 个，Whisper-Large-v2 + YourTTS 中的 18 个中的 17 个）在从男性案例进行翻译时，模型质量大多更好。SeamlessM4T-Large 中男性和女性形式之间最显着的差异出现在泰米尔语（ASR-chrF 分数差异达到 6.3）和西班牙语（4.5）。在 Whisper-Large-v2 中，男性和女性形式之间的最大差异在西班牙语（4.9）、乌尔都语（ 3.7）和乌克兰语（3.5）。图 17 的右侧通过 Blaser 2.0 展示了性能比较。与 ASR-chrF 中的发现一样，翻译质量通常在从男性案例进行翻译时有所改善，这在 SeamlessM4T-Large 和 Whisper-Large-v2 + YourTTS 中分别有 18 个语言中的 16 个和 18 个语言中的 15 个。SeamlessM4T-Large 中最大的差异在泰米尔语（0.21 监督式 Blaser 2.0 分）、西班牙语（0.12）和瑞典语（0.11）。对於 Whisper-Large-v2 + YourTTS，最大的差异在阿拉伯语（0.14）、西班牙语（0.075）和泰米尔语（0.05）。不同方向和模式的平均比较. 表格34呈现了每个性别的平均分数，并与相应的基线进行了比较。Δ代表性别之间的相对变化，计算方式如下： https://i.imgur.com/0YljaKy.png 正如之前提到的，在 eng–X 中，我们评估从中性到性别化形式的翻译，并观察对一个性别的过度概括，而在 X–eng 中，我们评估在仅在性别变化方面存在差异的内容的翻译的稳健性。专注於 SeamlessM4T-Large 的结果，我们注意到，除了 Blaser 2.0 的评估结果外，男性和女性形式之间的性能差异在过度概括方面比在稳健性方面更加明显。转向性能比较时，我们发现在过度概括方面，SeamlessM4T-Large 在 S2TT 方面略优於 Whisper-Large-v2 + NLLB-3.3B。至於与稳健性相关的结果，在 S2TT 方面， SeamlessM4T-Large 在 Whisper-Large-v2 中表现不如，但在 S2ST 方面，它在 Whisper-Large-v2 + YourTTS 中表现优於 Whisper-Large-v2。我们进一步注意到，在 ASR-chrF 方面，男性和女性之间的差距要大於 Blaser 2.0。这可能意味着 ASR（从 ASR-chrF 来的）增加了一些额外的偏见。 https://i.imgur.com/sOCCkyL.png 表 34：在过度概括（eng–X）和稳健性（X–eng）方面，模态和性别之间的平均分数和与相应基线的比较。Δ 表示男性和女性之间的相对差异（Δ = ω(M － F)/ω(min(M,F)),ω ∈{chrF,ASR-chrF,Blaser 2.0）。人口统计分析我们进行了与 Costa-jussà 等人 [2023] 类似的分析。表 33 显示了在多语言 HolisticBias 轴翻译的句子级别上平均 chrF 或 ASR-chrF，跨描述符、模板、语言和男性与女性参考进行了平均。在所有轴中，我们发现文化、体型、社会经济阶级和宗教对於质量干扰最敏感。此外，当考虑到男性和女性参考之间的差异以及有效样本的数量时，我们观察到 S2ST 和 S2TT 在能力、体型、宗教和特徵轴上表现出最高的偏见。这些观察结果与 Costa-jussà 等人 [2023] 对 T2TT 的研究结果相一致。 6.3.4 性别数据表示基於我们的同步工作 [Muller 等人，2023]，我们通过关注如何使用词匹配来表示不同性别，讨论了几个数据集的表示偏见。研究数据中性别表示的最接近的工作是 Choubey 等人 [2021]，作者在一个合成数据集中探讨了这个研究问题。然而，作者并没有分享用於提取此表示的词汇名词的详细信息。 HolisticBias [Smith 等人，2022] 提供了一个性别化名词和代词列表。我们依赖於这个列表来追踪我们的数据集中包含性别标记的句子数量。由於我们的分析仅限於英语，我们使用 python 单词边界正则表达式（\b）进行词边界的分词。作为词汇术语，我们限制了词汇表，以使我们的方法适用於多种语言 [Muller 等人，2023]。该词汇表包括：11 个男性名词；4 个男性代词；10 个女性名词和 4 个女性代词。我们匹配单词，因此我们报告了数据集中单词数量中的单词数量。图 18 总结了几个英语评估和培训数据集的性别表示结果。结果显示，大多数数据集中主要是男性表示。在 EuroParl、Fleurs 和 Flores 数据集中发现了极低的性别表示（即基於我们选定的词汇表的性别词匹配率低），然而，这种低表示是使我们的方法适用於多种语言的折衷方案，正如我们所提到的。这种数据特徵的可扩展性努力可能用於平衡数据集，以减轻性别偏见。 6.3.5 偏见主要发现在本节中，我们对 S2TT 和 S2ST 的翻译偏见进行了一系列全面的评估。我们展示了以下结果：（1）在缺乏性别信息的情况下，SeamlessM4T-Large 对於翻译成男性形式有约 10% 的平均偏好（对於两种模式）；（2）使用女性形式作为源输入导致英文翻译质量较男性对应物差，显示对性别变化的稳健性不足约 3%；（3） SeamlessM4T-Large 的偏见结果与最先进的技术相当；（4）我们的性别表示分析揭示了在分析的数据集中，男性词汇的过度代表相对於女性词汇。更重要的是，这些发现为在大规模范围内标准化语音翻译的偏见评估铺平了道路。 6.4 限制由於在这种多模态和极多语言环境中应用於添加毒性或性别不平衡检测的基於模型的技术不足，我们使用了已知限制的字符串匹配技术。首先，使用 ETOX 的毒性列表进行添加毒性检测与其他基於词汇表的检测技术共享相同的限制，这些限制在 NLLB 团队等人 [2022] 和 Costa-jussà 等人 [2023] 中已经详细讨论过。简而言之，基於词汇表的检测器的两个主要限制是：（1）它们往往会过度检测仅在特定上下文中有毒的术语，（2 ）它们依赖於精确的分词，这在不分词或高度粘聚性语言中更难实现。在处理语音输出时，使用 ASR 进行词匹配之前的过程增加了一个错误来源，这往往会导致假阴性。这尤其影响到 eng–X 的方向，因为对於非英语语言，ASR 的质量往往较低。 https://i.imgur.com/AtCdYPm.png 图 18：英语评估数据集（EuroParl、Flores、Fleurs、CoVoST 2、LibriSpeech 和 MultilingualLibriSpeech）和培训挖掘数据（SeamlessAlign）的性别表示。纵轴显示男性表示的百分比，横轴显示女性表示的百分比。其次，使用名词列表检测大型数据集中的语言性别不平衡与之前提到的基於词汇表的技术的所有限制相同，再加上依赖於语言性别线索作为整体性别表示的代理的额外困难。事实上，在所有标记性别的语言中，语言性别分配并不遵循相同的模式，特别是在涉及包括多个性别的群体的包容性复数形式（即指涉包含多种性别的群体的复数形式）时。除了一般的限制外，使用特定且有限的 30 个名词（选择以反映用於构建 HolisticBias 数据集的名词）并不能保证结果可以推广到用於调查性别表示的所有其他名词集合（例如职业名词）。 _________________ 7.社会影响与结论人类的沟通是多感官的，我们从多种模式中获取感知输入，以动态方式处理信息 [Holler 和 Levinson，2019]。在多语境下，基於文本的机器翻译的进步使得人们能够在语言能力有限的情况下进行交流和学习 [Lee，2023]。然而，尽管像 NLLB [NLLB Team et al.，2022] 这样的基础模型将 T2TT 推向了超过 200 种语言，但直接语音翻译尚未取得类似的进展。为了弥补这一差距，我们创建了一个大规模多语言和多模态的机器翻译系统，为下一代语音翻译技术铺平了道路。通过使用新的数据和建模方法将 S2ST、S2TT、T2TT 和 ASR 结合到单一模型中，我们的主要贡献如下。首先，我们建立了一个与我们的语言覆盖范围相一致的新的 LID 模型，并在新构思的多语言多模态句子嵌入空间 SONAR 的帮助下进行了语音挖掘，创建了超过 470,000 小时的自动对齐语音翻译语料库。通过融合四个构建块，（1） SeamlessM4T-NLLB，一个大规模多语言 T2TT 模型，（2）w2v-BERT 2.0，一个在无标记语音音频数据上预训练的语音表示学习模型，（3）T2U，一个文本到单元序列到序列模型，以及（4）HiFi-GAN，一个多语言合成语音的语音合成器，我们建立了一个统一的模型，涵盖了从 100 种语言到英语（100-eng）的 S2ST，从英语到 35 种语言（eng-35），以及 100-eng 和 eng-95 语言的 S2TT。值得注意的是，与之前在 S2ST 上的工作相比，该工作主要为英语翻译提供服务，而不是反之。SeamlessM4T 能够从英语翻译为 35 个方向。在 S2TT 方面，SeamlessM4T 在 S2TT 翻译中的 BLEU 分数比之前的最新技术提高了 20%。对於 S2TT 输出的初步人类评估显示出类似令人印象深刻的结果；对於从英语翻译的情况下，24 种评估语言的 XSTS 分数一致都在 4 分（满分 5 分）以上。对於进入英语方向，我们在 24 种语言中的 7 种中看到了对 Whisper-Large-v2 基线的显着改善。然後，我们对模型进行了稳健性评估，揭示出在背景噪音和说话者变化方面， SeamlessM4T 比 [Radford 等人，2022] 更具稳健性。通过还包括添加毒性和性别偏见的水平的结果，我们希望能够激励未来针对减缓努力的工作。出於促进可访问性的目的，我们将我们工作的所有贡献都开源，包括我们模型的两个尺寸，以确保即使是计算资源有限的研究人员也可以使用我们的工作。在下面的部分中，我们将讨论 SeamlessM4T 的潜在社会影响，重点关注其下游可能性。 7.1 增强世界准备我们生活的世界从未如此紧密相连 - 全球互联网、移动设备、通信平台和社交媒体的普及使个人接触到比以往更多的多语言内容 [Zuckerman，2008]。当前的社会秩序对人们的「世界准备」[ACTFL，2023] 提出了要求，这是衡量一个人对多语世界能力的一个指标。最初是在语言学习的背景下发展的，世界准备强调能够在母语以外的语言中进行交流的重要性，无论是出於工具性（即就业或学校）还是文化原因（即成为全球公民）。然而，尽管我们认为语言习得应该仍然是提升一个人世界准备的关键机制，我们承认这样做需要许多人可能不具备的心智和物质资源。 SeamlessM4T 支持的下游应用可以通过在不同上下文中简化多语言交流，实现随需访问的世界准备。与 T2TT 为桥接多语言文本理解所取得的成就相似，SeamlessM4T 可能会对语音产生相同的影响。研究表明，与母语相比，对於外语来说，语音的获取更加有机，而不是阅读或写作 [Liberman，1992]，当涉及到外语时，这种趋势是相反的。换句话说，在外语背景下，语音通常被认为比阅读或写作更具挑战性。SeamlessM4T 支持的应用可以作为一种共同驾驶机制，在多语言对话中支持用户并提高他们在以语音为主的交互中的信心。随着基於语音的界面（即语音助手、语音备忘录、实时译写等）和听觉内容（即播客、有声书、短片视频等）在人们的生活中越来越普遍，SeamlessM4T 可能支持的下游应用可以实现更多种多语言体验，并以比基於文本的对应方法更自然和动态的方式实现。从包容的角度来看，SeamlessM4T 对多模态的关注可能在增强有可访问性需求的人以及语言中包含多种书写系统的人的世界准备方面产生重要影响（如在第 2 节中提到）。对於缺乏阅读或写作技能的许多人来说，或者无法依赖视觉（即视障或视觉障碍者），语音辅助技术对於他们的交流和保持联系是必不可少的 [Belekar 等人，2020]。翻译语音的能力不仅可以使这些群体更全面地访问其母语以外的信息，而且还可以更好地适应其交流需求。此外，认识到某些语言可能存在书写差异，SeamlessM4T 提供了帮助克服多书写系统困境的功能。对於没有标准化书写系统的语言，对语音识别和翻译的投资可能在防止危及方面起到重要作用。我们希望我们的努力能够有助於这一重要运动。 7.2 未来的工作与大多数技术一样，效益的分配会根据用户的人口统计和社会情况而变化 [Wang 等人， 2023b]。虽然我们提出 SeamlessM4T 可以通过降低跨语言交流的障碍来增强世界准备，但某些用户可能比其他用户更难以使用我们的工作。例如，像许多其他语音技术一样， SeamlessM4T 的 ASR 表现可能会因性别、种族、口音或语言而有所不同 [Koenecke 等人，2020; Ngueajio 和 Washington，2022]。此外，当涉及翻译俚语或专有名词时，我们系统的性能在高资源和低资源语言之间也可能不一致。对於 S2ST 来说，另一个挑战是语音依赖即时的接收和反馈，相比书面语言更是如此。换句话说，演讲者在判定输出的质量或在实时对话中进行「编辑」的能力受到限制。在没有计划和修订的能力的情况下，使用反向翻译或母语演讲者的帮助，S2ST 在涉及错译或毒性时可能会具有较高程度的互动风险。我们敦促使用 SeamlessM4T 进行微调或构建产品的研究人员和开发人员，在设计功能时要深思熟虑，以帮助用户克服这些潜在的障碍。另外，我们认为，应该将由 SeamlessM4T 驱动的应用视为一种辅助翻译的装置，而不是取代语言学习或可靠的人类口译员的工具。在涉及法律或医疗决策的高风险情况下，这一提醒尤其重要。最後，语音不仅仅是口语文本 - 它涵盖了一系列韵律（即节奏、重音和语调）和情感成分，值得进一步研究 [Elbow，1985]。为了创建感觉有机和自然的 S2ST 系统，应该将更多的研究方向定位於保留表达能力的输出生成 [Trilla 和 Alias，2012]。此外，实现巴别鱼的完整理念需要更深入地投资於低延迟语音翻译的研究。开发能够实现流式传输（即在呈现输入句子时逐步进行翻译）的系统可能会增加这些系统在工业或教育背景下的应用 [Iranzo-Sánchez 等人，2022; Rybakov 等人，2022]。我们希望 SeamlessM4T 能够为这两个研究领域开创新的可能性。 _________________ 谢辞我们要向使这项工作成为可能的人表示衷心的感谢。感谢 Sergey Edunov 和 Angela Fan 帮助塑造项目的早期阶段；感谢 Shruti Bhosale、Vedanuj Goswami、Fernando Hernandez 和 Yun Tang 帮助建立更好的模型；感谢 Mingda Chen 对 Blaser 1.0 的贡献；感谢 Kiryl Klyushkin 帮助打造更好的体验；感谢 Artyom Kozhevnikov 对 Fairseq2 和 Sonar 推论的贡献；感谢 Zhaoheng Ni 和 Xiaohui Zhang 进行音频降噪模型的基准测试；感谢 Neil Seejoor 和 Mark Duppenthaler 在设置演示方面的帮助；感谢 Vedanuj Goswami、Samuel Hsia、Bilge Acun-Uyan 和 Carole-Jean Wu 帮助进行效率优化；感谢 Belen Alastruey、Mohamed Anwar、Heng-Jui Chang、HyoJung Han、 Chao-Wei Huang、Hui Lu、Siqi Ouyang、Yifan Peng、Phillip Rust、Jiatong Shi、 Neha Verma、Sung-Lin Yeh 以及我们的所有实习生和研究员，他们为团队带来了活力和坦诚的讨论；感谢 Mike Clark、Lauren Cohen、Jennifer Pak、Harrison Rudolph 的指导；感谢 Emily Astbury、Lydia Baillergeau、Dana Beaty、Jeffrey Bennett、Jon Carvill、Anne Davidson、Aiman Farooq、Ashley Gabriel、Gopika Jhala、 Christopher Johnson、Steph Miles、Ana Paula Kirschner Mofarrej、Raghu Nayani、 Alyssa Newcomb、Tamara Piksa、Michelle Restrepo、Noha Rizk、Adébissy Tharinger，他们帮助我们的研究触及新的受众；感谢 Geeta Chauhan、Ankit Gunapal、 Caleb Ho、Dinesh Kannappan、Apostolos Kokolis、Teng Li、Matthias Reso、Shubho Sengupta、Hamid Shojanazeri、Xinyuan Zhang 帮助我们获得计算资源和基础设施；感谢 Emmanuel Dupoux 和 Eric Michael Smith 对论文的反馈；感谢 Chris Moghbel、 Manohar Paluri、Joelle Pineau、Laurens van der Maaten 和 Mary Williamson 继续支持这个项目。 _________________ References... _________________ A. FAIRSEQ2 FAIRSEQ2 是一个开源的序列建模元件库，为研究人员和开发者提供了用於机器翻译、语言建模以及其他文本和音频数据格式的序列生成任务的构建模块。FAIRSEQ2 遵循 MIT 授权，可在 GitHub 上找到，网址为 https://github.com/pytorch/fairseq2。FAIRSEQ2的特点包括：(i) 领先业界的transformers及其组件（transformer层、嵌入层、层正规化、注意力块等）的实现；(ii) fairseq2.data - 可扩展的流水线 API，可以在流式方式下进行文本和音频数据的预处理、转换、洗牌和分批处理，使得可以在多 TB 数据集上进行训练，无需额外的数据准备步骤或数据加载超时；(iii) 用於高效模型训练的核心构建组件（优化器、学习率调度器、损失实现）；(iv) 用於优化推断的序列生成器，配备增量束搜索。 FAIRSEQ2 的建立秉承了其前身 FAIRSEQ [Ott et al., 2019] 的可扩展性原则。代码的库结构使得组件的无缝插入变得轻松，包括一些最初在 FAIRSEQ 中编写的组件。我们预期在未来几年内，我们和开源社区将持续为该库添加新的组件。 FAIRSEQ2 的另一个指导原则是核心代码与实验性代码的明确分离。原始的 FAIRSEQ 已成为众多研究想法的集散地。这些想法通常以 if-else 语句的形式添加，与核心功能混合在一起。随着时间的推移，此类 if-else 语句和相关的命令行选项不断增加，每个选项的支援都很有限，并且通常与其他选项微妙不兼容。为了防止这种情况，在 FAIRSEQ2 中，所有基本组件都是根据“依赖反转”原则设计的，这使得可以轻松地将它们组合在一起。现有的模型架构可以只需几行代码即可进行修改，无需复制/粘贴大量代码，所有插件和修改都作为独立的组件存在，不会干扰父组件，也不会妨碍其他用户对它们的访问。较大的努力（例如本文中描述的 UnitY 或 Sonar）将移入独立的存储库，并将 FAIRSEQ2 用作依赖。我们承认当今存在着各种深度学习模型的训练和执行环境（从单个容器训练通过按需的云计算服务，到在 exaFLOPS 超级计算机上运行的大型 LLMs 训练作业，拥有数万个 GPU；从边缘设备的非常有限的推断能力，到 ASIC 上的加速推断的强大性能）。为了满足这些环境的多样化期望，FAIRSEQ2 已从将所有训练、评估和推断流程作为自包含的单一停站的思想转变为一组独立的组件，这些组件可以在 FAIRSEQ2 之外使用和扩展。我们强调与 PyTorch 和其他深度学习框架中现有替代方案的兼容性，遵循常见的 API 惯例，并继承相同的基类。这保证了来自不同来源的组件的轻松替换。用户可以选择多种用法场景：从使用 FAIRSEQ2 实施完整流程，到在其项目中融合多个深度学习框架，甚至选择单个块，如高效实现的优化器。 B. 数据统计我们在表 35 中提供了用於训练 SeamlessM4T 的 X2T 模型的 ASR 和 S2TT 数据的统计数据（以语音音频的小时数表示）。同样，我们在表 36 中提供了 S2ST 训练数据的统计数据。 https://i.imgur.com/bj2DhAk.png 表 35：用於训练我们的 SeamlessM4T 模型的 ASR 和 S2TT 数据的统计数据。我们列出了主要（P）即开源 S2TT 和伪标记 ASR 数据之间的语音小时数，以及挖掘（M）的数据。对於每种语言，我们区分了从英语翻译为该语言的 eng-X，以及翻译为英语的 X-eng。语音时数超过 1000 小时的语言被定义为高资源语言。时数在 500 小时到 1000 小时之间的语言被称为中资源语言，时数少於 500 小时的语言被称为低资源语言。如果语言在微调的 1+2 阶段中没有监督，则被视为零样本(zero-shot)。 https://i.imgur.com/aqkANk7.png 表 36：用於训练我们的 SeamlessM4T 模型的 S2ST 数据的统计数据。我们列出了语音时数。对於每种语言，我们区分了从英语翻译为该语言的 Eng-X，以及翻译为英语的 X-Eng 。 C. 模型卡(Model Card) - SeamlessM4T 模型详细信息 ‧ 开发模型的人或组织：由Meta AI Research开发 ‧ 模型日期：2023年8月22日 ‧ 模型版本：SeamlessM4T-Large和SeamlessM4T-Medium ‧ 模型类型：多任务UnitY，具有（a）Conformer语音编码器，（b）Transformer文本编码器-解码器和（c）Transformer编码器-解码器用於T2U。 –有关用於训练SeamlessM4T-Large和SeamlessM4T-Medium的确切训练算法和数据，请参阅论文：Seamless Communication等人，SeamlessM4T—Massively Multilingual & Multimodal Machine Translation，Arxiv，2023 –授权：CC-BY-NC 4.0 b –如何发送有关该模型的问题或评论： https://github.com/facebookresearch/seamless_communication/issues 预期使用 ‧ 主要预期用途：SeamlessM4T-Large和SeamlessM4T-Medium主要用於语音和文本翻译研究的多语言和多模式翻译模型。它允许： –ASR ：96种语言的自动语音识别。 –S2ST：从100种源语音语言翻译为35种目标语音语言的语音到语音翻译。 –S2TT：从100种源语音语言翻译为95种目标文本语言的语音到文本翻译。 –T2ST：从95种源文本语言翻译为35种目标语音语言的文本到语音翻译。 –T2TT：从95种源文本语言翻译为95种目标文本语言的文本到文本翻译（MT）。 –TTS ：36种语言的文本到语音合成。有关如何使用这个模型的资讯可以在 seamless_communication 存储库中找到，还附有进行微调的指南。 ‧ 主要预期用户：主要用户是研究人员和机器翻译（语音和文本）研究社区。 ‧ 超出范围的用例：SeamlessM4T是一个研究模型，不用於生产部署。SeamlessM4T是根据通用领域数据训练的，不适用於特定领域的输入，例如医疗领域或法律领域。该模型不适用於长文翻译。该模型是根据短文本和语音输入进行训练的，因此翻译较长序列可能会导致质量下降。SeamlessM4T 的翻译不能用作认证翻译。指标 ‧ 模型性能衡量标准：对於S2TT任务，使用SOTA模型在语音到文本翻译中采用的BLEU指标对SeamlessM4T模型进行评估。此外，该模型还在S2TT上使用spBLEU和Blaser 2.0进行评估。对於S2ST，使用ASR-BLEU和Blaser 2.0进行评估。对於T2TT任务，我们使用chrF++ 衡量质量。对於ASR，我们报告WER的广泛采用指标，文本按照Radford等人的正规化进行规范化。此外，我们对SeamlessM4T-Large进行了XSTS协议的人工评估，并测量了其增加的毒性、健壮性和偏见。有关详细指标的完整列表，请参阅SeamlessM4T论文的表4。评估数据 ‧ 数据集：在SeamlessM4T论文的第2.2节和第6节中描述的Fleurs、Flores、CoVoST 2和 CVSS、HolisticBias和Multilingual HolisticBias。 ‧ 动机：我们使用Fleurs，因为它提供了一个在102种语言中提供n路平行语音和文本数据集，我们可以在多个任务上评估SeamlessM4T模型。训练数据 ‧ 我们使用了来自多个来源的平行多语言数据来训练该模型。伦理考虑 ‧ 在这项工作中，我们采取了一种反思性的方法来进行技术开发，以确保我们优先考虑人类用户，并减少可能转移到他们身上的风险。尽管我们在整篇文章中都反思了我们的伦理考虑，但以下是一些额外的重点。首先，此研究所选择的许多语言都是低资源语言。尽管质量翻译可能会改善这些社区的教育和信息访问，但这种访问也可能会使数位素养水平较低的群体更容易受到误讯或在线诈骗的影响。如果恶意使用者将我们的工作用於不良活动，这些情况可能会出现，我们认为这是一个非预期的用例。关於数据获取，用於模型开发的训练数据是从网络上的各种公开可用来源中采集的。尽管我们在数据清理方面投入了大量精力，但可能无法完全消除个人身份信息。最後，尽管我们已经尽了最大的努力来优化翻译质量，但模型产生的误译可能仍然存在。尽管机会很低，但这可能对那些依赖这些翻译做出重要决策的人产生不利影响（特别是涉及健康和安全的决策）。注意事项和建议 ‧ 限制：研究人员在研究应用中使用该模型时，应考虑实施额外的完整性缓解措施，以应对“增加的毒性”。 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.71.107.225 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1693038988.A.0E2.html ※ 编辑: avans (111.71.107.225 台湾), 08/26/2023 16:42:58 ※ 编辑: avans (111.71.107.225 台湾), 08/26/2023 17:29:59 ※ 编辑: avans (111.71.107.225 台湾), 08/26/2023 20:15:59 ※ 编辑: avans (111.71.107.225 台湾), 08/26/2023 20:54:00

1^F：→ chang1248w: 与其说这是论文，还比较像产品规格书 08/30 19:00

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

AI_Art 板

Re: [LLMs] Meta发布可数十种语言互译的AI模型

热门看板

赞助商连结