Polynomial Autoencoders Outperform PCA on Transformer Embeddings

Fri, 08 May 2026 06:55:05 +0000

Forget linear assumptions: Transformer embeddings are exhibiting a distinct “cone effect,” a non-linear tail of variance that traditional linear dimensionality reduction methods like PCA simply miss. This isn’t just a theoretical quirk; it’s a practical bottleneck for model compression and analysis. Recent work, drawing on established “quadratic manifold” techniques, introduces a Polynomial Autoencoder—specifically, a linear PCA encoder paired with a quadratic decoder—that demonstrably outperforms PCA in capturing this elusive non-linear structure. This isn’t about tweaking SGD hyperparameters; it’s a computationally elegant, closed-form solution that unlocks richer representations.

Transformers on The Coders Blog

Polynomial Autoencoders Outperform PCA on Transformer Embeddings