据外媒,Facebook已经开发出一种建立不需要转录数据的语音识别工具的方法。全新的系统可以使技术摆脱对文本到语音输入的依赖。
这项耗时的任务涉及人类聆听和转录数小时的音频,这是一个单调的过程,必须对每种语言进行重复。而Facebook的系统则纯粹从语音音频和未配对的文本中学,使其更好地了解人类交流的声音。
据悉,Facebook的模型基本上依赖于由 "生成器 "和 "辨别器 "组成的生成网络(GAN)之间的反馈回路。
前者“吐出”上传的语音模式的代表,看起来完全是胡言乱语,直到它们被放到相应的鉴别器网络中,后者充当了某种翻译。同时,Facebook还输入由人类编写的额外文本,以帮助生成器收集与现实世界的差异。