尽管转录准确度非常优秀,但推理速度非常缓慢。即使利用
flash attention 、半精度和
分块 等优化推理技术,1 小时长度的音频在 16GB T4 GPU 上也需要超过 6 分钟的转录时间。