Masked PLMs are more sensitive to training imbalances than autoregressive PLMs

Summary

Masked PLMs (such as ESM) are more sensitive to training imbalances than autoregressive models (such as ProGen; (1)). Presumably this is also true of transformers trained on natural language.

Figures

Ref (1)

Quartz 4

Explorer

Masked PLMs are more sensitive to training imbalances than autoregressive PLMs

Summary

Figures

See also

Graph View