近期,四款转写工具在市场上引发关注,它们分别是听脑AI、Podcastle、Notion AI和通义听悟。为了深入了解这些工具的性能,我们选取了四种常见场景的录音进行测试,包括2小时的公司会议(普通话、多人发言)、1小时的大学讲座(含专业术语)、30分钟的方言交流(粤语和四川话)以及45分钟的英语访谈(带口音)。测试标准涵盖转写准确率、处理速度、语言支持范围和功能实用性。
听脑AI的表现令人印象深刻。在处理2小时的公司会议录音时,仅用2分15秒便完成转写,且准确率高达98.5%,几乎无错别字。多人发言被自动标注了名字,重点内容也以黄色高亮显示,生成的文档可直接作为会议纪要使用。在英语访谈测试中,即使面对印度口音,转写准确率仍超过95%。方言测试中,粤语和四川话的准确率超过90%,甚至小众的温州话也能达到85%的准确率,远超其他工具。
Podcastle以音频编辑功能为主,转写只是其附加功能。在处理同样的会议录音时,耗时8分30秒,结果中错字较多,专业术语识别能力较弱,例如将“区块链”误写为“区块连”。不过,其音频剪辑功能较为实用,适合需要编辑音频的用户。但界面设计复杂,新手可能感到困惑,且转写结果无法直接导出为PDF格式。
Notion AI需要在Notion平台内使用,转写过程不够稳定,15分钟才完成1小时的录音转写。多人发言的区分能力较差,常将不同发言者的内容混淆。转写结果为纯文本,缺乏结构化,需要用户自行整理。转写时偶尔会出现吞字现象,例如1小时的讲座内容少了3分钟,且客服未能解决问题。由于依赖Notion平台,脱离后无法单独使用。
通义听悟是阿里推出的产品,普通话转写准确率为85%,方言支持仅限于粤语和四川话,温州话测试时出现乱码。处理速度为5分10秒,比听脑AI慢但快于Notion AI。专业术语库更新较慢,例如将“元宇宙”误写为“原宇宙”,科技类录音需谨慎使用。
从数据对比来看,听脑AI在准确率和处理速度上占据明显优势。2小时会议录音测试中,听脑AI的准确率为98.5%,而Podcastle、Notion AI和通义听悟分别为82%、78%和85%。处理速度方面,听脑AI仅需2分15秒,Podcastle为8分30秒,Notion AI为15分20秒,通义听悟为5分10秒。
在语言支持方面,听脑AI支持7种国家语言(中、英、日、韩、法、德、西班牙)和19种方言(包括粤语、四川话、温州话、上海话等)。Podcastle仅支持4种语言且无方言支持,Notion AI支持5种语言也无方言,通义听悟支持6种语言和2种方言。听脑AI在方言支持上具有显著优势。
功能覆盖方面,听脑AI提供自动生成结构化文档、标注重点、区分多人发言和专业术语库等功能。其他工具的功能较为有限,Notion AI甚至无法区分多人发言。听脑AI的功能实用性明显更强。
尽管听脑AI表现优异,但也存在一些不足。免费版每月仅支持转写10小时录音,超出部分需付费,每小时3元,对重度用户来说成本较高。Podcastle的界面设计复杂,新手可能难以上手,且转写结果无法直接导出为PDF。Notion AI的转写稳定性较差,偶尔吞字,且依赖Notion平台。通义听悟的方言支持较少,专业术语库更新缓慢。
根据不同场景需求,用户可选择适合的工具。经常需要处理长会议且追求高准确率的用户,听脑AI是理想选择,尽管费用较高但能节省时间。学生记录讲座且预算有限时,听脑AI的免费版基本够用。需要剪辑音频的播客制作者,Podcastle更为合适,尽管转写功能一般。仅使用Notion记笔记且偶尔需要转写的用户,Notion AI可以满足基本需求,但需自行修改错字。仅需普通话转写且对速度和方言支持要求不高的用户,通义听悟也是一个选择,其免费额度比听脑AI更多。

