nlp - azure 语音到文本服务 - 对文件中的音频进行连续识别是什么

我们正在比较两个 speech to text 服务以呈现每个服务的优缺点 - 我们通过一个服务上传文件并通过获取请求检查状态 - 在状态返回完成后下载脚本。这使我们能够“一劳永逸”,释放本地资源,并且我们可以在合适的时候重新分配资源。

我们已经建立了一个天蓝色的连续识别过程,但不确定引擎盖下发生了什么。似乎我们必须在 asr 处理时保持一个恒定的连接打开,然后当它收到一些完成信号(输入耗尽)时,连接关闭。不确定文件是以数据块还是连续数据流的形式上传,还是整体上传。这能火然后忘记吗?

如果有人可以对这个过程有所了解,甚至可以指出可以提供更深入信息的文档,我将非常感激。

回答1

当 speech to text 转换正在进行并且资源需要根据输入类型可用时。正如问题中提到的,如果数据被上传,那么它可以分配到固定大小的块中。也有机会获得持续的输入。

上传:上传文件,然后根据输入的文件大小,我们可以将文件分成块,这是一种替代操作。

连续流:这种类型的数据,我们不能让资源休息并保持活跃。

建议使用 https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-to-text 中提到的 REST API 服务,以便更好地分配资源。

https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/rest-speech-to-text

相似文章

azure - Azure 帐户与租户(可能与管理组)

我很难看到Azure帐户、管理组和租户之间的差异。它们似乎有一个共同点,即都可以包含多个订阅。我明白了订阅的概念——一个计费单元,所有费用都从同一张信用卡中扣除,每个订阅都会产生不同的账单。订阅似乎是...

最新文章