我们正在比较两个 speech to text 服务以呈现每个服务的优缺点 - 我们通过一个服务上传文件并通过获取请求检查状态 - 在状态返回完成后下载脚本。这使我们能够“一劳永逸”,释放本地资源,并且我们可以在合适的时候重新分配资源。
我们已经建立了一个天蓝色的连续识别过程,但不确定引擎盖下发生了什么。似乎我们必须在 asr 处理时保持一个恒定的连接打开,然后当它收到一些完成信号(输入耗尽)时,连接关闭。不确定文件是以数据块还是连续数据流的形式上传,还是整体上传。这能火然后忘记吗?
如果有人可以对这个过程有所了解,甚至可以指出可以提供更深入信息的文档,我将非常感激。
回答1
当 speech to text 转换正在进行并且资源需要根据输入类型可用时。正如问题中提到的,如果数据被上传,那么它可以分配到固定大小的块中。也有机会获得持续的输入。
上传:上传文件,然后根据输入的文件大小,我们可以将文件分成块,这是一种替代操作。
连续流:这种类型的数据,我们不能让资源休息并保持活跃。
建议使用 https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-to-text 中提到的 REST API 服务,以便更好地分配资源。
https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/rest-speech-to-text