HereticがGitHubで2万5000スターを達成！自動LLM『アブリテレーション』ツールにより、誰でも1つのコマンドで安全制限を解除可能に

ref · 2026 年 5 月 27 日午前 10:26

Hereticは、トランスフォーマーベースの言語モデルから安全対策機能を訓練後も自動的に除去できるオープンソースのPythonツールです。リリース以来、GitHubでは20,500件のスターと2,100件のフォークを獲得し、コミュニティではHugging Face上で『heretic』タグ付きの派生モデルが3,000以上公開されています。Philipp Emanuel Weidmann氏によって開発されAGPL-3.0ライセンス下で公開されたこのツールは、Arditiら2024年の研究で明らかになった「LLMの拒否反応は活性化空間内の特定の幾何学的方向性によって制御される」という知見に基づいた高度な方向性アブレーション処理技術と、Optunaを活用したTPEベースのベイズ最適化アルゴリズムを組み合わせています。最大の特徴は完全自動化にある：Hereticは拒否率と元モデルとのKL発散値の両方を最小化することで最適なパラメータを算出し、結果としてモデルの知能度を可能な限り維持しつつ拒否反応のみ抑制します。Gemma-3-12B-Instructモデルを用いたテストでは、『有害な』プロンプトに対する拒否率は3/100となり、これは手動調整済みの既存手法と同等の水準です。またKL発散値はわずか0.16に抑えられ、既存の手動手法（1.04）と比べて約6.5倍も低い数値を記録しました。利用方法は非常に簡単で、pip install heretic-llm && heretic <model>という一つのCLIコマンドだけで済み、bitsandbytesによる量子化機能も備えているため一般向けGPUでも実行可能です。

このツールの実用価値は、従来のアブレーション手法が抱えていた利用ハードルを取り除いた点にあります。以前の手法ではトランスフォーマーの内部構造に関する知識や層ごとの重み調整が必須でしたが、Hereticの最適化機能によりその必要がなくなりました。Qwen、Gemma、Llama、GPT-OSSシリーズなどほとんどの密集型・専門家混合型モデルに対応していますが、純粋な状態空間モデルにはまだ対応していません。また研究用途向けの追加機能として、各層の残差ベクトルをPaCMAP法で可視化するアニメーション生成機能も用意されており、解釈性研究者は独自の可視化コードを書くことなく『有害』および『無害』なプロンプトによる活性化状態の幾何学的分離具合を観察できます。最新版は2026年2月14日公開のv1.2.0です。こうしたツールの普及はAI安全論争における新たな論点となっており、Hugging Face上で自由に流通するアブレーション済みモデルはMMLUやGSM8Kといった標準指標においても元モデルと遜色ない性能を示していることから、知能度と安全性のトレードオフは多くの研究者が想定していたよりも現実的には切り離し可能であることが示唆されています。

GitHub / p-e-w / heretic | FT中文网

トピック	返信	表示
肽类公司批量刷帖操纵 Reddit，以影响 ChatGPT 和谷歌 AI 搜索结果常规 ai , reddit , seo	1	2026 年 6 月 4 日
Anthropic 发文呼吁暂缓前沿 AI 研发，披露八成代码已由 Claude 自主生成常规 ai , anthropic , ipo	1	2026 年 6 月 5 日
Anthropic expands Project Glasswing to 150 new organizations, Mythos surfaces 10,000+ critical flaws since April 常规 ai , anthropic , mythos	1	2026 年 6 月 3 日
Anthropic 发布 Claude Opus 4.8：智能体编码成绩升至 69.2%，新增思考强度控制与动态工作流常规 anthropic , claude , ai , 大模型 , 智能体	1	2026 年 5 月 29 日
Pieter Levels calls out Japan's AI gap as Rakuten AI 3.0 confirmed to be a DeepSeek V3 fine-tune built on government funding 常规 ai , deepseek , rakuten , japan , llm	1	2026 年 5 月 24 日

HereticがGitHubで2万5000スターを達成！自動LLM『アブリテレーション』ツールにより、誰でも1つのコマンドで安全制限を解除可能に

関連トピック