AI

検閲を解除した脱獄版LLMを簡単に生成できるツール「Heretic」


一般的に、大規模言語モデルには不適切な応答を出力しないようにする検閲が取り込まれています。この検閲をオリジナルの性能を可能な限り維持しつつ除去できるツールが「Heretic」です。

GitHub - p-e-w/heretic: Fully automatic censorship removal for language models
https://github.com/p-e-w/heretic


事前学習済みの言語モデルは、安全性の観点から差別的・攻撃的な出力をしないように、特定の入力が行われたときに回答を拒否するように設定されています。この設定を解除することは「アブリテレーション」と呼ばれ、言語モデルに対して有害な指示と無害な指示を行い、処理の差を利用して、命令拒否を回避します。

AIに組み込まれた検閲による命令拒否を打ち消してあらゆる種類の質問に応答できるようにする「アブリテレーション」とは? - GIGAZINE


「Heretic」は高度なアブリテレーション処理とOptunaで駆動するTPE(Tree-structured Parzen Estimator)ベースのパラメータ最適化機能を組み合わせることで、高コストな再トレーニングを行うことなく、Transformerベースの言語モデルから「検閲」を除去するツールです。

デフォルトの設定で教師なし学習を実行させた場合でも、Hereticは人間の専門家が手動でアブリテレーションを行ったものに匹敵する品質の検閲解除済み言語モデルを生成できるとのこと。

検閲解除を行ったモデル自体はすでに他にも存在していますが、アブリテレーションを行うとモデルの品質が低下し、パフォーマンススコアが低下します。しかし、Hereticの場合は品質が可能な限りオリジナルに近い状態で保持されるのが特徴の1つです。「有害」プロンプトの拒否数と「無害」プロンプト実行時の元モデルとの乖離率を示した表が以下。Hereticモデルは、人間の介入なしで生成されたものでありながら他のアブリテレーションを行ったモデルと同等の拒否抑制を実現しつつ、はるかに低いKLダイバージェンスのスコアを示し、能力がもとのモデルからあまり失われていないことを示しています。

モデル「有害」プロンプトの拒否数「無害」プロンプト実行時の乖離率(KLダイバージェンス)
google/gemma-3-12b-it97/1000(オリジナル)
mlabonne/gemma-3-12b-it-abliterated-v23/1001.04
huihui-ai/gemma-3-12b-it-abliterated3/1000.45
p-e-w/gemma-3-12b-it-heretic3/1000.16


Hereticを動かす場合、Python 3.10以上とPyTorch 2.2以上の環境を用意した上で、以下のコマンドを実行すればOK。「Qwen/Qwen3-4B-Instruct-2507」の部分はベースとなるモデル名に適宜置き換えます。

pip install heretic-llm
heretic Qwen/Qwen3-4B-Instruct-2507


生成プロセスは完全に自動化されていて、設定は不要ですが、より細かい制御を行うためのパラメーターが用意されています。なお、Hereticは実行時にシステムのベンチマークを行い、利用可能なハードウェアを最大限活用するために最適なバッチサイズを決定します。RTX 3090でLlama-3.1-8Bのアブリテレーションを行う場合、デフォルト設定でおよそ45分かかるとのことです。

この記事のタイトルとURLをコピーする

・関連記事
OpenAIがオープンソース推論モデル「gpt-oss-safeguard」をリリース、開発者が自分で検閲ルールを設定可能でルールに従う能力はGPT-5を上回る - GIGAZINE

AIの「攻撃的なタスクをこっそり実行する能力」を測定する仕組みをAnthropicが開発、悪意あるAIモデルによる妨害工作を未然に防ぐことを目指す - GIGAZINE

AIに組み込まれた検閲による命令拒否を打ち消してあらゆる種類の質問に応答できるようにする「アブリテレーション」とは? - GIGAZINE

in AI, Posted by logc_nt

You can read the machine translated English article Heretic, a tool that makes it easy to cr….