相似度
StructBERT FAQ问答
StructBERT(最大支持max_seq_length<512): 训练和推理效率较高,因为只使用编码器。 适合需要快速处理理解任务的场景。 专注于语言结构理解,适合句法分析等任务。 cfg.preprocessor.max_seq_length=512
mT5(可通过max_length设置,太长显存不够): 训练和推理效率较低,因为需要同时使用编码器和解码器。 适合对生成质量要求较高的场景。 专注于生成任务。 cfg.preprocessor.max_length=512