6 hours ago 求用于交互式转写长时访谈记录的语音转文字STT/ASR方案🌐 链接: https://linux.do/t/topic/2219809🔍 关键词: #api🏷️ 分组: LinuxDo论坛🕒 时间: 2026-05-21 16:19:04 LINUX DO 求用于交互式转写长时访谈记录的语音转文字STT/ASR方案 STT/ASR在站内已经看到很多推荐了,不过很多是API或者实时服务。 我的需求是: 转录时长在1-3小时不等的中文(夹杂英文单词)访谈录音。 不要求实时转录。 区分说话人(通常是2个)。 - 需要一个交互UI,能够实现: 关联切分的录音到单句。点击可以播放对应单句的语音,便于修改文字。(出于研究目的,不能完全交给机器转录) 能够添加术语、热词表。 简单的规整,如删除语病、语气词等。 去年曾经用过科大讯飞的方案,倒是符合要求,但当时发现讯飞的转录效果不如Gemini 2.5 Pro的多模…