Transformer Debugger结合了自动化可解释性和稀疏自编码器技术,支持在编写代码之前进行快速探索,并能够在前向传递中进行干预,以观察其如何影响特定行为。它通过识别对行为有贡献的特定组件(神经元、注意力头、自编码器潜在表示),展示自动生成的解释来说明这些组件为何强烈激活,并追踪组件间的连接以帮助发现电路。