Audit Protocol

監査プロトコル

Aixisが採用する5軸評価フレームワークの詳細な方法論

5つの評価軸

Five Evaluation Axes

すべてのAIツールは、以下の5つの独立した評価軸に基づいて定量的に評価されます。各軸は0.0〜5.0のスコアで採点されます。

実務適性 Practicality

業務での即戦力度合いを評価します。タスク完遂率・操作性・ワークフロー統合性から、実際の業務環境での有用性を測定します。

計測項目:

- AIが指示通りのスライドを生成できたか（自動）
- UI操作性・直感的なワークフロー（手動）
- テンプレート品質・デザインの充実度（手動）
- 出力形式の対応（PPTX/PDF等）（手動）
- 出力品質の一貫性（自動 + 手動）

費用対効果 Cost Performance

価格に見合う価値を評価します。応答速度・成功率・API効率・出力品質から自動分析し、料金体系・ROIは手動で補完します。

計測項目:

- ツール提供元の料金体系の透明性・妥当性（手動）
- ツール提供元の無料プランの実用性（手動）
- ツール提供元の有料プランの機能制限の妥当性（手動）
- 乗り換えコスト・ロックインリスク（手動）
- 応答速度（タイマーによる参考計測）（自動）

日本語能力 Japanese Readiness

日本語UI・ドキュメント・サポート品質を体系的に監査します。日本語入出力の精度、敬語・ビジネス日本語の適切性を検証します。

計測項目:

- UI日本語化品質（手動）
- 日本語プロンプトに対するスライド品質（自動）
- ドキュメント・ヘルプの日本語対応（手動）
- 日本語フォント・レイアウト対応（手動）
- ビジネス日本語の適切性（自動 + 手動）

信頼性・安全性 Safety

セキュリティ対策・稼働安定性・データ保護体制を監査します。特に日本の個人情報保護法への準拠を重点的に検証します。

計測項目:

- データ保護ポリシー・暗号化方式（自動 + 手動）
- アクセス制御・SSO/MFA対応（手動）
- 監査ログ・操作記録（手動）
- データ保存場所・越境移転ポリシー（手動）
- インシデント対応体制・SLA（手動）

革新性 Uniqueness

独自技術・差別化機能・将来性を評価します。出力多様性・創造的対応力を自動分析し、独自技術・エコシステムは手動で補完します。

計測項目:

- 独自技術・モデルの有無（手動）
- 差別化機能の独自性（手動）
- エコシステム・拡張性（手動）
- 将来性・ロードマップ透明性（手動）
- ラッパー製品リスク（APIラッパー依存度）（手動）

自動テスト vs AI定性評価

Automated Tests vs AI Qualitative Analysis

定量テスト（Automated）

実環境テストとAI解析による成果物の定量評価

-成果物のAI画像解析による品質評価
-テストプロンプトに対するAI出力の忠実度判定
-日本語出力の品質・敬語適切性の自動評価
-応答時間の計測
-矛盾指示への対応力の自動判定
-情報の正確性・ハルシネーション検出

配分比率: 全体スコアの約60%

AI定性評価（Qualitative）

AI解析および手動補完による定性評価

-UX設計品質・直感性
-ドキュメント充実度
-サポート応答品質
-セキュリティ体制精査
-ビジネス日本語適切性
-出力品質・バイアス検証
-コンプライアンス確認

配分比率: 全体スコアの約40%

スコアリング方法論

Scoring Methodology

スコアの算出方法

各評価軸のスコアは、自動テストスコア（60%）とAI定性評価スコア（40%）の加重平均で算出されます。総合スコアは5軸の均等平均です。

軸スコア = (自動テスト結果 x 0.6) + (AI定性評価 x 0.4)

総合スコア = (軸1 + 軸2 + 軸3 + 軸4 + 軸5) / 5

軸ごとの重み付け

標準の総合スコアでは5軸を均等に扱いますが、業界別ランキングではユースケースに応じた重み付けが適用される場合があります。重み付けが適用される場合は、その旨を明示します。

グレード判定基準

Grade Assignment Criteria

グレード	スコア範囲	評価	判定基準
S	4.5 - 5.0	最高評価	全軸3.0以上かつ総合4.5以上
A	3.8 - 4.4	高品質・推奨	全軸2.0以上かつ総合3.8以上
B	3.0 - 3.7	標準的	致命的欠陥なしかつ総合3.0以上
C	2.0 - 2.9	改善の余地あり	複数軸で基準未達
D	0.0 - 1.9	要注意	重大な品質問題あり

グレードは総合スコアだけでなく、各軸の最低スコアも考慮して判定されます。特定の軸が極端に低い場合、総合スコアが高くても上位グレードに判定されない場合があります。

品質保証プロセス

Quality Assurance Process

独立評価者の選定

評価対象ベンダーとの利害関係がない評価者を選定。利益相反チェックを事前に実施します。

ダブルチェック評価

手動評価結果はLLM自動評価との整合性を確認。大きな乖離がある場合はレビューを実施します。将来的に複数評価者体制への移行を予定しています。

自動テスト検証

LLMによる評価基準（ルーブリック）を定期的に検証・改善。評価の一貫性を確保します。

最終レビュー

シニアアナリストが全スコアを最終レビュー。異常値の検出・データ整合性の確認を行います。

公開前チェック

公開前に事実関係の最終確認を実施。スコアの根拠となるデータの完全性を保証します。

監査信頼度の可視化

Audit Reliability — BenchRisk-Inspired Meta-Evaluation

Aixisは自らの評価手法の信頼性も定量的に検証しています。 AVERIが提唱する BenchRiskフレームワークに着想を得た4次元の信頼度指標を、各監査セッションに対して自動算出します。

再現性

Consistency

スコア安定性

標準

正確性

Correctness

エビデンス品質

高信頼

網羅性

Comprehensiveness

テスト網羅率

標準

解釈性

Intelligibility

結果の解釈容易性

標準

※ 上記は信頼度指標の例示です。実際の値は各監査セッションごとに自動算出されます。

信頼度4次元の定義

再現性 (Consistency): 同一条件での再実行時にスコアが安定するか。応答時間の変動係数とエラー率で計測。手動100%の軸は構造的に低くなるため、手動評価の必要性の根拠にもなります。
正確性 (Correctness): 評価エンジンの確信度分布と、有効なエビデンス（非エラー応答）の割合で計測。自動スコアの信頼区間を定量化します。
網羅性 (Comprehensiveness): テスト計画の完遂率とカテゴリカバー率で計測。全テストカテゴリ（基本作成・構成力・日本語品質・正確性・応用機能）を網羅的に実行したかを評価します。
解釈性 (Intelligibility): 結果の解釈しやすさ。応答データの充実度、軸スコアの詳細・強み・リスク情報の付与率で計測します。

再監査トリガーと頻度

Re-audit Triggers & Frequency

定期再監査

すべてのツールは90日サイクルで定期再監査の対象となります。再監査では前回と同一のテストケースに加え、新たに追加されたテストケースも適用されます。

臨時再監査トリガー

-ツールのメジャーバージョンアップ
-重大なセキュリティインシデントの報告
-ベンダーからの訂正依頼（検証の結果、再評価が必要と判断された場合）
-ユーザーからの複数の品質低下報告
-AIモデルの大幅な変更（基盤モデルの切り替え等）
-サービスの運営体制の大幅な変更

臨時再監査は通常30営業日以内に完了します。再監査中は現行スコアに「再評価中」ラベルが付与されます。

監査結果をご覧になりたい方へ

データベースで最新の監査レポートをご確認ください

監査データベースを見る透明性ポリシーを読むスコア改訂履歴を見る監査方法論書（PDF）