无需大规模预训练,清华提出高效NLP学习框架TLM:从零开始比肩预训练语言模型性能

作者:亿网科技  来源:亿网科技  发布时间:2022-08-30

3.jpeg

最近研究人员从清华开发了一个NLP学习框架,不同于目前流行的NLP框架,需要大量的训练+任务的精细调整范式,这个框架没有大规模的深度学习训练,相比目前流行的其他和训练框架,这个框架更高效,甚至在使用多种类型的NLP任务时,


它的准确性超过了传统的训练前框架,这就提出了关于大规模训练前模型和方法的问题:大规模训练前对任务的贡献有多大,我们真的需要大量的训练来获得最佳结果吗?研究人员称这种方法为TLM自然语言处理技TLM和PLM。


总的来说,PLM以非常高的成本学习尽可能多的与任务无关的知识,而TLM以非常低的成本学习每个任务的相关知识。


TLM和PLM具有以下特点。


1. 推进NLP研究的公正性和民主化(民主化)


预训练本身非常依赖大量的计算资源,这一局限性使得大多数NLP研究者将研究重点放在了算法的微调上。


然而,预训练模型的性能在很大程度上限制了微调性能的上限。


TLM使大多数研究人员能够在最先进的解决方案基础上,以更低的成本和更高的效率,进一步自由地探索模型架构、损失函数、算法等方面。


2. 效率


就每个任务的平均失败次数而言,TLM明显优于PLM。


当我们有少量的目标任务要解决时(例如,当研究人员想要研究少量数据集时),TLM可以非常有效;


但是,当大量的任务需要同时解决时,PLM仍然具有优势,比如行业搭建了一个NLP平台,为多方提供类似的服务。


3.灵活性


TLM是任务驱动的,因此它可以让研究人员有更多的自由来定制标记、序列长度、数据表示、超参数调整等策略,从而达到提高性能和效率的目的。


4. 普遍性


PLM学习与任务无关的一般表示,可以用于小样本和零样本学习,而TLM通过学习与任务相关的表示,在一定程度上交换了一般性和效率。


从这个意义上说,TLM在一般性上还需要进一步改进。


PLM和TLM也可以结合起来,在通用性和效率之间实现更好的权衡。


为了深入了解TLM的工作原理,研究人员将模型中每个注意力头产生的注意力得分可视化。


可以观察到,TLM的注意模式包含更多的“对角线”模式,即大多数token将其注意分数分配给相邻的token。


这一模式已被证明为模型的最终预测做出了重要贡献。


或者句号,它没有语义或句法信息。


这说明TLM中的参数利用率明显高于预先训练的语言模型,TLM可以为下游任务学习到更多的语义信息表示。


结论


TLM使得NLP研究有可能跳出训练前的微调范式,使NLP研究人员能够更自由地探索新兴的模型结构和训练框架,而不是局限于大规模的训练前模型。


未来可以在TLM的基础上进行更多有趣的研究,如如何经济地实现更大规模预训练模型的性能效果;


如何提高TLM的通用性和可移植性;


TLM可以用于小样本或零样本学习等。