Hereticは、トランスフォーマーベースの言語モデルから安全対策機能を訓練後も自動的に除去できるオープンソースのPythonツールです。リリース以来、GitHubでは20,500件のスターと2,100件のフォークを獲得し、コミュニティではHugging Face上で『heretic』タグ付きの派生モデルが3,000以上公開されています。Philipp Emanuel Weidmann氏によって開発されAGPL-3.0ライセンス下で公開されたこのツールは、Arditiら2024年の研究で明らかになった「LLMの拒否反応は活性化空間内の特定の幾何学的方向性によって制御される」という知見に基づいた高度な方向性アブレーション処理技術と、Optunaを活用したTPEベースのベイズ最適化アルゴリズムを組み合わせています。最大の特徴は完全自動化にある:Hereticは拒否率と元モデルとのKL発散値の両方を最小化することで最適なパラメータを算出し、結果としてモデルの知能度を可能な限り維持しつつ拒否反応のみ抑制します。Gemma-3-12B-Instructモデルを用いたテストでは、『有害な』プロンプトに対する拒否率は3/100となり、これは手動調整済みの既存手法と同等の水準です。またKL発散値はわずか0.16に抑えられ、既存の手動手法(1.04)と比べて約6.5倍も低い数値を記録しました。利用方法は非常に簡単で、pip install heretic-llm && heretic <model>という一つのCLIコマンドだけで済み、bitsandbytesによる量子化機能も備えているため一般向けGPUでも実行可能です。
このツールの実用価値は、従来のアブレーション手法が抱えていた利用ハードルを取り除いた点にあります。以前の手法ではトランスフォーマーの内部構造に関する知識や層ごとの重み調整が必須でしたが、Hereticの最適化機能によりその必要がなくなりました。Qwen、Gemma、Llama、GPT-OSSシリーズなどほとんどの密集型・専門家混合型モデルに対応していますが、純粋な状態空間モデルにはまだ対応していません。また研究用途向けの追加機能として、各層の残差ベクトルをPaCMAP法で可視化するアニメーション生成機能も用意されており、解釈性研究者は独自の可視化コードを書くことなく『有害』および『無害』なプロンプトによる活性化状態の幾何学的分離具合を観察できます。最新版は2026年2月14日公開のv1.2.0です。こうしたツールの普及はAI安全論争における新たな論点となっており、Hugging Face上で自由に流通するアブレーション済みモデルはMMLUやGSM8Kといった標準指標においても元モデルと遜色ない性能を示していることから、知能度と安全性のトレードオフは多くの研究者が想定していたよりも現実的には切り離し可能であることが示唆されています。