科学家用AI翻译动物对话，发现人类语言并不独特

动物语言成为可能

一本关于动物语言的优秀科普书，2024年出版的《听不见的自然——博物学家的自然聆听笔记》，详细介绍了近年来科学家如何利用数字技术来理解自然，也谈到了人类在理解自然方面取得的进展。过去。动物语言中的弯路。 20世纪中叶，曾多次尝试教非人类灵长类动物使用人类语言，希望通过教它们“说人类语言”来评估它们的智力。

当这一努力失败后，人们发现这种做法过于以人类为中心。正如美国哲学家内格尔在 1974 年的一篇著名论文中问道：“成为一只蝙蝠是什么感觉？”他的结论是，试图在人类思想和身体的框架内理解动物注定会失败。他说，为了消除人类的视角，研究人员必须将自己置于动物的“（环境）”中，但人类永远无法体验蝙蝠体内的世界。

前面提到的“”是生物学家创造的一个术语，用来描述生物体的生命经历或世界观。如果我们关注某种生物，比如蜜蜂，我们当然不会期望蜜蜂会说人类语言，但我们会对蜜蜂迷人的“语言”非常感兴趣——一种基于翅膀振动的声音和三维空间位置。通过语言，蜜蜂可以利用它们的身体来传达非常微妙的差异，例如阳光的变化。因此，在理解动物语言时，我们要做的第一件事就是考虑动物如何有能力以自己的方式、用自己的身体、在自己的世界观内进行复杂的交流。

在没有任何先验知识的情况下学习模式正是大型语言模型所擅长的。大型模型通过处理大量现有语言内容来学习哪些单词应该放在一起以及按什么顺序排列。例如，“他喜欢加牛奶和两块方糖的咖啡”，大型模型了解到“咖啡”、“牛奶”和“糖”这些词经常一起使用。换句话说，大模型并不是通过学习语法规则来学习新语言的。它也不是通过先掌握英语然后处理大量翻译来学习西班牙语。

例如，考虑到人类语言和动物“语言”之间潜在的相似性，几乎所有人类语言和动物发声都是由停顿和音节长度和音高的变化组成，这奠定了基于大模型可行性破译动物语言的哲学。用英国《金融时报》Tech Tonic 播客上《听不见的自然》一书的作者的话来说，“你和我不能像蝙蝠一样回声定位，不能像大象一样吹喇叭，也不能像蜜蜂一样嗡嗡作响。但我们的电脑可以”

计算机可以处理人耳听不见的声音。人类能听到的声音范围是20-20,000赫兹，而海豚可以探测到高达160,000赫兹的频率；而人工智能更擅长识别细微的差异。下面的视频是抹香鲸之间的对话。我们的大脑无法辨别哪头鲸鱼在说话，但（理论上）可以训练一个模型来识别不同抹香鲸的声音。

视频来源：精子之声| 。电视

考虑到群居动物交流时，往往不止一种动物发出声音。因此，按来源分离重叠的声音是利用人工智能解释动物语言的第一步。接下来你需要做的是收集大量数据。这是目前的主要问题之一。

因为即使经过数十年的手动记录和拍摄，科学家也只捕获了所需数据的一小部分。近年来，随着设备的小型化和通信技术的进步，研究人员可以通过让动物佩戴摄像头、记录设备或通过无人机连续记录数据来获得足够的数据。 AI模型的训练过程还是熟悉的公式：比如把你拥有的80%的数据输入到机器中，训练好的模型可以预测剩下的20%，也就是动物会发什么音节下一个。这就像一个语言模型根据训练数据预测句子中的下一个单词。

复杂的鲸类语言

在介绍基于AI分析动物语言的具体案例之前，读者可以思考一下为什么科学界对鲸鱼感兴趣。从历史文化的角度来看，鲸鱼的歌曲在民间传说中反复出现，人们一直怀疑鲸鱼有自己的语言。

从生理特征来看，抹香鲸拥有所有动物中最大的大脑，并且以家庭为单位生活。根据“社会复杂性”假说，具有复杂社会生活的动物需要进化出复杂的语言系统来应对社会需求。

事实上，人们观察到抹香鲸通过类似于莫尔斯电码的“咔嗒”声进行交流。例如，多米尼加海岸附近的一群抹香鲸使用1+1+3的声音来识别自己。前两次是均匀间隔的“咔哒声”，随后是快速连续的三声“咔哒声”。随着越来越多的证据表明鲸目动物的交流不是随机的、偶然的或简单的，而是遵循复杂的逻辑，这为首先研究鲸鱼语言提供了必要的论据。

鲸类翻译计划 (CETI) 是一个由 TED 资助的研究项目，专注于抹香鲸之间的交流，利用人工智能将鲸鱼发出的每个声音与特定的背景联系起来。

CETI项目示意图丨来源：CETI / Alex

考虑到鲸鱼的叫声可以在很远的距离（最远 6,000 公里外）听到，了解哪头鲸鱼在什么情况下说什么对于理解“鲸鱼语言”的潜在含义至关重要。这很重要。研究人员还需要考虑鲸类声纳的位置。

所有齿鲸都有类似声纳的发射器官，利用声音创建肉眼无法看到的 3D 世界视图，类似于智能驾驶中的激光测距雷达。因此，当鲸鱼向特定方向发出声音时，研究人员需要研究与特定声音相关的当地环境信息。

2024年5月7日，麻省理工学院（MIT）和CETI的研究人员在网络上联合发表了一篇论文，可以看作是该项目的初步成果。该研究使用机器学习来分析和可视化抹香鲸的录音，证实抹香鲸发出的声音是连贯的，并且像人类发音一样，是由不同特征的组合形成的。研究人员收集了来自东加勒比抹香鲸的 8,719 个尾声的数据，以构建抹香鲸的“语音字母表”。

与人类语言一样，抹香鲸发出的声音组合并不是均匀出现的，某些组合比其他组合出现的频率更高；不同类型的尾声依次组合起来，形成一个更大的不同发声家族，让人想起人类语音产生的二级组合结构（可以与拼音中的声母和韵母相比较）。研究还发现，抹香鲸可以发出不同的尾部图案，其他鲸鱼也可以识别出不同鲸鱼发声的细微变化，这表明它们具有区分音色的能力。

研究发现抹香鲸字母表明意图。丨来源：参考文献[1]

CETI 是一个预计持续五年的项目，如果完全成功，结果将不会是将鲸鱼的语音翻译成人类语言。人工智能可能会学会说“鲸鱼语言”，但不会对人类说话。人类只能根据人工智能的结果来综合分析鲸鱼表达的内容。已经有基于声音检测的程序来识别生病或受伤的逆戟鲸。如果人工智能能够学习鲸鱼搁浅前发出的声音，它就可以提供早期预警并制定预防措施。

船只撞击对许多鲸鱼物种构成严重威胁。想象一下，如果我们能“听到”一条鲸鱼或一群鲸鱼在碰撞后发出叫声。由此产生的位置记录肯定有助于未来的鲸鱼保护措施。（尽管这些统计数据会让我热爱动物的心心碎。）

一个类似的项目是地球物种项目（ESP），该项目正在尝试使用人工智能工具来解码、标记甚至响应各种动物的叫声，包括白鲸、夜莺、乌鸦和座头鲸。研究成果之一是“动物声音基线”BEANS（the of ），这是一个来自 12 个物种的声音数据集，涵盖鸟类、陆地和海洋哺乳动物、无尾动物和昆虫，可用于检测相关性能分类算法。

BEANS概述丨来源：参考文献[2]

地球物种项目也在尝试合成动物的声音。就像人声可以是深度伪造的一样，鸟鸣声也可以。

让AI理解动物的情绪

无论是猪、牛还是鸡，这些畜牧业中最重要的动物由于工业化的禁闭而受到越来越不人道的对待。工业化养殖不仅伤害饲养的动物，也损害我们自己的生存环境。

随着对动物权利的关注，人们希望了解猪和牛等动物的情感。这不仅是为了遵守法规（在某些国家），而且还可能产生实际的经济效益。近年来，华为、网易等各大厂商纷纷推出智慧养猪项目，备受关注。

想要养好猪，首先要了解猪。近年来，有很多基于人工智能的研究，通过猪、牛、鸡等动物的面部图像、视频和哭声来识别它们的情绪。研究人员通过多个摄像头不断记录动物的行为，然后由兽医等专业人士根据场景手动注释：例如，猪吃东西时很高兴，被拖走时很紧张。

研究人员用它作为训练人工智能模型的标签，然后训练卷积（针对图像）或循环（针对声音）神经网络模型来对动物行为进行分类；最后，他们使用专家标记的标签作为评估模型的黄金标准。准确性。这也是此类研究的一贯套路。

猪情绪识别视频数据采集装置丨来源：参考文献[5]

猪处于快乐、中性、恐惧和愤怒状态的图片示例。来源：参考文献[5]

一项基于 45 秒猪短视频的情绪分类研究取得了 89.4% 的准确率。在另一项针对猪和牛的研究中（使用来自六个农场的 3,780 张图像），研究人员通过识别动物耳朵运动和眼白区域的变化，建立了这两种动物情绪的实时分类模型。该模型将猪情绪分为6种，牛情绪分为3种，准确率达到85%。

根据耳朵对猪和牛的情绪进行分类的例子丨来源：参考文献[7]

同样，收集并训练牲畜的声音以了解它们的情绪。研究人员基于 411 头猪、7414 次叫声以及其一生中相应的背景数据，开发了一种区分积极情绪和消极情绪的分类模型，准确率高达 91.4%。一项预印本研究使用了 80 只鸡的样本，仔细记录和分析它们在不同情况下的叫声。

为了确保系统解释的准确性，研究人员与八名动物心理学家和兽医组成的团队合作，建立了一个基于深度学习的模型，可以识别多种情绪，包括饥饿、恐惧、愤怒、满足、兴奋和疼痛。

人工智能应用于动物研究不仅是为了改善动物福利，更实际的是帮助检测动物疾病。剑桥大学研究人员开发的人工智能系统可以检测绵羊的疼痛程度，这有助于对常见但严重的动物疾病进行早期诊断和治疗。该技术也可以应用于其他类型的动物。相关技术完善后，可以在动物饮水的水箱中放置摄像头，系统将能够识别出疼痛的动物，从而及时救治，减少损失。

更贴近生活的研究来自于对宠物情绪的认知。例如，文献[10]展示了宠物狗情绪的分类模型。研究人员对狗的面部图像进行建模，以识别不同品种宠物狗的情绪。

目前市面上有很多以“翻译宠物语言”为卖点的APP产品。但根据目前的研究水平，AI只能对情绪进行粗略的分类，并不能像想象中那样支持与动物进行多轮复杂的对话。这些APP也都是娱乐性的。事实上，由于动物和人类生活在完全不同的生活环境中，与动物无障碍交流可能永远是一个可望而不可及的梦想。

不同表情的宠物狗示例丨来源：参考文献[10]

除了图像和声音之外，了解动物还可以基于脑电图数据。 2022 年的一项研究使用事件相关电位 (ERP) 并使用非侵入性方法发现狗可以对人类声音做出快速反应，并将人类的情绪发声与其面部表情相匹配。虽然这项研究与破译动物语言无关，但拥有动物的脑电图数据将有助于人类更准确、更直接地理解动物的想法。

培养下一代公民科学家

从巴甫洛夫的狗到珍·古道尔的黑猩猩，人们对动物语言和行为的研究不断改变我们理解自己的方式。我们在动物中找到人性的共同部分，然后回顾自己，发现人性中独特而崇高的部分。

我们从研究动物语言中获得的新知识越多，我们就越能意识到与我们共享地球的生物的复杂性。例如，在前述对抹香鲸的研究中，抹香鲸能够通过节奏、语速和装饰性声音的组合产生复杂的语言。它们是人类语言之外第一个具有组合和排列特征的语言系统。自从哥白尼原理将人类逐出宇宙中心后，我们再次发现自己其实并没有那么特别，这可以教会我们在面对未知时保持谦虚。

然而人类可能永远无法破译动物的语言。紫飞鱼安之鱼的Joy对动物情绪的简单分类是基于人类专家基于自己先入为主的判断。

除了其优点之外，我们不应忘记技术滥用的可能性及其给生物伦理学带来的新问题。识别鲸鱼的语言可能会让一些无良公司跟随鲸鱼前往未知的渔场；即使算法能够生成足够令人信服的类似于真实抹香鲸的叫声（通过了抹香鲸版的“图灵测试”），贸然将合成声音引入自然界现有的通讯系统中也可能会改变鲸鱼之间的正常通讯，或引起鲸鱼的焦虑，导致对野生动物的伤害。

然而，尽管这类研究在哲学上存在争议，但其应用具有实际的经济意义，值得持续关注。随着智能家居的普及，你宠物的一举一动都会被记录下来。为宠物开发的智能硬件不仅会追踪宠物的饮食、饮水、运动状况，还可能记录宠物的心跳、血氧等数据。拥有这些数据意味着我们可以对以前受到技术限制的动物进行研究。

同时，这也意味着更多普通人可以有机会成为“公民科学家”，通过贡献数据、进行干预实验、参与数据分析等方式参与一线科研活动。例如，具有超强学习天赋的狗在很多轶事中都出现过，但如果只有一两个特例，就不能算是严谨的科学研究。

2023年的一项研究表明，通过普通人参与数据收集，41种动物被鉴定为能够按照主人的指令拾取特定玩具；根据收集到的数据，研究人员进行了统计分析，发现这些“有天赋的动物”狗之间有很多共同特征，甚至可以被认为是一个全新的品种。

类似的研究可以由爱好者在众筹网站上公开讨论，完善实验设计，筹集所需资金，然后招募志愿者完成实际数据分析，最后合作撰写研究报告。例如，作者设想可以给狗带上GoPro这样的相机，记录遛狗过程中狗与其他动物的互动：当遇到明显比自己大的狗或者比自己小的狗时，他们会呼叫（或同性别或不同性别的遭遇）有什么差异？

人们可以基于类似的动物交互构建AI预测模型，并从宠物的角度构建“翻译应用程序”。不从人类的角度来看，将狗叫声转化为如何与人互动是一个“令人愉快”的应用。

这种体验将成为参与者的一次个人科普活动，让他们了解科学方法，提高批判性思维。类似的科研活动，比如记录鸟类的声音和图像，门槛较低，趣味性很强。它们适合大多数人使用，特别适合亲子互动。

参考

[1]

[2]

[3]

[4] 菲利普·林伯里（），《失控的农业》，人民日报出版社，2019。

[5]

[6]#确认1

[7]DOI：10.1101/2021.04.09。

[8]

[9]~pr10//fg17.pdf

[10]

[11]

[12]

策划及制作

来源 |回归原创（ID：）