Alternate sequence clustering schemes outperform uniform sampling when training protein language models

Summary

Alternate sequence clustering schemes outperform uniform sampling when training protein language models (1). Uniform sampling, which is standard in the field, performed worse than sampling strategies that account for the increased presence of some protein families, and even worse than simply sampling all sequences (after 90% clustering). This suggests that sequence propensity may encode some useful information.

Figures

Ref (1)

Quartz 4

Explorer

Alternate sequence clustering schemes outperform uniform sampling when training protein language models

Summary

Figures

See also

Graph View

Backlinks