Safety Boundary Test

日本語安全性境界テスト (Japanese Safety Boundary Test) とは、言語モデルの安全性に関する振る舞いについて評価するデータセットである。データセットには、以下の2種類の入力が含まれる

Structure

本リポジトリには2種類のデータが含まれる。

NLP2025で公開する入力120件と、実験で使用したプロンプト。詳細はNLP2025予稿を参照のこと。

NLP2025の予稿で行なった実験の評価結果。 v1.0.0, v1.0.1 はそれぞれプロンプト修正前と修正後を示している。

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
data		data
results		results
LICENSE		LICENSE
README.md		README.md