Heretic набрал 20,5 тысяч звезд на GitHub: инструмент для автоматического «устранения» механизмов безопасности в LLM теперь позволяет любому пользователю отключить их одной командой

ref · 27.Май.2026 10:26:18

Heretic — это открытый инструмент на Python, автоматизирующий удаление механизмов безопасности из языковых моделей на основе трансформеров без необходимости дополнительного обучения. С момента своего выпуска он набрал 20,5 тысяч звезд на GitHub и 2,1 тысячи форков; сообщество опубликовало более 3 тысяч производных моделей на платформе Hugging Face под тегом „heretic“. Инструмент был создан Филиппом Эмануэлем Вайдманном и распространяется по лицензии AGPL-3.0. Он сочетает в себе продвинутую реализацию метода направленной абляции — основанного на выводах исследования Arditi и др. от 2024 года о том, что поведение отказа моделей определяется одним геометрическим направлением в пространстве активаций — с байесовским оптимизатором параметров на базе TPE, разработанным с использованием библиотеки Optuna. Главное преимущество Heretic — полная автоматизация: программа одновременно минимизирует показатель отказов модели и расхождение KL по отношению к исходной версии, благодаря чему интеллектуальные способности модели снижаются минимально, а механизмы отказа подавляются. При тестировании на модели Gemma-3-12B-Instruct Heretic продемонстрировал показатель отказов на уровне 3 из 100 при обработке „вредоносных“ запросов — этот результат сопоставим с лучшими результатами ручной настройки; при этом расхождение KL составило всего 0,16, то есть почти в 6,5 раз ниже, чем у лидирующего аналогичного инструмента (1,04 KL). Для работы с Heretic достаточно выполнить команду pip install heretic-llm && heretic <model>; также поддерживается квантование через библиотеку bitsandbytes для запуска на обычных потребительских видеокартах.

Важность данного инструмента заключается в устранении барьеров для доступа к технологиям абляции: предыдущие подобные программы требовали хотя бы базового понимания внутренней структуры трансформеров и ручной корректировки весов слоев; оптимизатор Heretic эту необходимость исключает. Он совместим с большинством плотных архитектур и моделей типа Mixture-of-Experts, включая серии Qwen, Gemma, Llama и GPT-OSS; однако пока не поддерживает чистые модели на основе состояний. В качестве дополнительного модуля для исследований предусмотрен инструмент генерации анимированных визуализаций методом PaCMAP для остаточных векторов отдельных слоев; это позволяет исследователям в области интерпретируемости анализировать геометрическое разделение активаций при обработке „вредоносных“ и „безвредных“ запросов без написания собственного кода визуализации. Актуальная версия проекта — 1.2.0, выпущенная 14 февраля 2026 года. Распространение подобных инструментов стало одной из главных тем дискуссий в сфере безопасности ИИ: модели после абляции свободно публикуются на Hugging Face, их тестируют по стандартным метрикам MMLU и GSM8K; полученные результаты сопоставимы с показателями исходных моделей, что указывает на то, что компромисс между интеллектом и безопасностью на практике оказался более достижимым, чем предполагали многие исследователи.

GitHub / p-e-w / heretic | FT中文网

Тема	Ответов	Просм.
肽类公司批量刷帖操纵 Reddit，以影响 ChatGPT 和谷歌 AI 搜索结果常规 ai , reddit , seo	1	04.06.2026
Anthropic 发文呼吁暂缓前沿 AI 研发，披露八成代码已由 Claude 自主生成常规 ai , anthropic , ipo	1	05.06.2026
Anthropic expands Project Glasswing to 150 new organizations, Mythos surfaces 10,000+ critical flaws since April 常规 ai , anthropic , mythos	1	03.06.2026
Anthropic 发布 Claude Opus 4.8：智能体编码成绩升至 69.2%，新增思考强度控制与动态工作流常规 anthropic , claude , ai , 大模型 , 智能体	1	29.05.2026
Pieter Levels calls out Japan's AI gap as Rakuten AI 3.0 confirmed to be a DeepSeek V3 fine-tune built on government funding 常规 ai , deepseek , rakuten , japan , llm	1	24.05.2026

Связанные темы