My favorite papers | Andy Arditi

My favorite papers

Some of my favorite papers.

Interpretability

A Mathematical Framework for Transformer Circuits

2021 · Elhage, et al.

Locating and Editing Factual Associations in GPT

2022 · Kevin Meng, David Bau, Alex Andonian, Yonatan Belinkov

Discovering Latent Knowledge in Language Models Without Supervision

2022 · Collin Burns, Haotian Ye, Dan Klein, Jacob Steinhardt

AI Safety

The Superintelligent Will

2012 · Nick Bostrom

Causality

On Pearl’s Hierarchy and the Foundations of Causal Inference

2021 · Elias Bareinboim, Juan D. Correa, Duligur Ibeling, Thomas Icard

Classics

A Neural Probabilistic Language Model

2003 · Yoshua Bengio, Réjean Ducharme, Pascal Vincent, Christian Jauvin

Attention is All You Need

2017 · Vaswani, et al.