openai 耳语模型是一个神经网络,可以用 57 种语言执行识别和翻译任务。它是在从网络收集的大量多样化的音频和文本数据集上进行训练的。它使用基于变压器编码器-解码器架构的简单端到端方法,并且可以生成具有增强可读性和短语级时间戳的成绩单。
企业现在可以使用以下两种方式构建基于 openai whisper 模型的应用程序:
azure openai 服务中的 openai 耳语模型:
openai已经自己提供了whisper api。使用这个新的azure openai服务,开发人员可以在特性和功能(包括转录和翻译功能)中使用相同的openai whisper api。可以在 azure openai 服务门户中找到 whisper 模型的用于听录和转换的 rest api。
azure ai 语音中的 openai 耳语模型:
azure ai 语音的用户现在可以将新的 openai 的耳语模型与现有的 azure ai 语音批量听录 api 结合使用。azure ai 语音中的 whisper 用户受益于现有功能,包括异步处理、说话人分割、自定义和更大的文件大小。在下面找到详细信息。
- 大文件大小:azure ai 语音通过启用最大 1gb 的文件来增强耳语听录,并通过允许在单个请求中批处理多达 1000 个文件来处理大量文件的能力。
- 时间戳: 使用 azure ai 语音,识别结果包括字级时间戳,从而能够识别音频中每个字词的发音位置。
- 扬声器分割:这是 azure ai 语音的另一个有益功能,可识别音频文件中的各个说话人并标记其语音段。此功能允许客户区分说话者,准确转录他们的话,并创建更有条理和结构化的音频文件转录。
- 自定义/微调(即将推出):azure 语音中的自定义语音功能允许客户对自己的数据微调 whisper,以提高识别准确性和一致性。
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/yun256316.html