【Anthropic开源Circuit Tracer:大语言模型可解释性研究新工具】 Anthropic今日正式开源Circuit Tracer工具,为LLM内部工作机制研究提供新方案。主要功能包括: - 神经元级特征电路可视化 - 概念激活路径追踪 - 支持因果分析方法 该工具旨在帮助研究人员深入理解大语言模型的决策过程和工作原理。 GitHub: 技术白皮书: #AI研究 #可解释AI - x - news.news