Heretic — это открытый инструмент на Python, автоматизирующий удаление механизмов безопасности из языковых моделей на основе трансформеров без необходимости дополнительного обучения. С момента своего выпуска он набрал 20,5 тысяч звезд на GitHub и 2,1 тысячи форков; сообщество опубликовало более 3 тысяч производных моделей на платформе Hugging Face под тегом „heretic“. Инструмент был создан Филиппом Эмануэлем Вайдманном и распространяется по лицензии AGPL-3.0. Он сочетает в себе продвинутую реализацию метода направленной абляции — основанного на выводах исследования Arditi и др. от 2024 года о том, что поведение отказа моделей определяется одним геометрическим направлением в пространстве активаций — с байесовским оптимизатором параметров на базе TPE, разработанным с использованием библиотеки Optuna. Главное преимущество Heretic — полная автоматизация: программа одновременно минимизирует показатель отказов модели и расхождение KL по отношению к исходной версии, благодаря чему интеллектуальные способности модели снижаются минимально, а механизмы отказа подавляются. При тестировании на модели Gemma-3-12B-Instruct Heretic продемонстрировал показатель отказов на уровне 3 из 100 при обработке „вредоносных“ запросов — этот результат сопоставим с лучшими результатами ручной настройки; при этом расхождение KL составило всего 0,16, то есть почти в 6,5 раз ниже, чем у лидирующего аналогичного инструмента (1,04 KL). Для работы с Heretic достаточно выполнить команду pip install heretic-llm && heretic <model>; также поддерживается квантование через библиотеку bitsandbytes для запуска на обычных потребительских видеокартах.
Важность данного инструмента заключается в устранении барьеров для доступа к технологиям абляции: предыдущие подобные программы требовали хотя бы базового понимания внутренней структуры трансформеров и ручной корректировки весов слоев; оптимизатор Heretic эту необходимость исключает. Он совместим с большинством плотных архитектур и моделей типа Mixture-of-Experts, включая серии Qwen, Gemma, Llama и GPT-OSS; однако пока не поддерживает чистые модели на основе состояний. В качестве дополнительного модуля для исследований предусмотрен инструмент генерации анимированных визуализаций методом PaCMAP для остаточных векторов отдельных слоев; это позволяет исследователям в области интерпретируемости анализировать геометрическое разделение активаций при обработке „вредоносных“ и „безвредных“ запросов без написания собственного кода визуализации. Актуальная версия проекта — 1.2.0, выпущенная 14 февраля 2026 года. Распространение подобных инструментов стало одной из главных тем дискуссий в сфере безопасности ИИ: модели после абляции свободно публикуются на Hugging Face, их тестируют по стандартным метрикам MMLU и GSM8K; полученные результаты сопоставимы с показателями исходных моделей, что указывает на то, что компромисс между интеллектом и безопасностью на практике оказался более достижимым, чем предполагали многие исследователи.