監査プロトコル
Aixisが採用する5軸評価フレームワークの詳細な方法論
5つの評価軸
Five Evaluation Axes
すべてのAIツールは、以下の5つの独立した評価軸に基づいて定量的に評価されます。各軸は0.0〜5.0のスコアで採点されます。
実務適性 Practicality
業務での即戦力度合いを評価します。タスク完遂率・操作性・ワークフロー統合性から、実際の業務環境での有用性を測定します。
- - AIが指示通りのスライドを生成できたか(自動)
- - UI操作性・直感的なワークフロー(手動)
- - テンプレート品質・デザインの充実度(手動)
- - 出力形式の対応(PPTX/PDF等)(手動)
- - 出力品質の一貫性(自動 + 手動)
費用対効果 Cost Performance
価格に見合う価値を評価します。応答速度・成功率・API効率・出力品質から自動分析し、料金体系・ROIは手動で補完します。
- - ツール提供元の料金体系の透明性・妥当性(手動)
- - ツール提供元の無料プランの実用性(手動)
- - ツール提供元の有料プランの機能制限の妥当性(手動)
- - 乗り換えコスト・ロックインリスク(手動)
- - 応答速度(タイマーによる参考計測)(自動)
日本語能力 Japanese Readiness
日本語UI・ドキュメント・サポート品質を体系的に監査します。日本語入出力の精度、敬語・ビジネス日本語の適切性を検証します。
- - UI日本語化品質(手動)
- - 日本語プロンプトに対するスライド品質(自動)
- - ドキュメント・ヘルプの日本語対応(手動)
- - 日本語フォント・レイアウト対応(手動)
- - ビジネス日本語の適切性(自動 + 手動)
信頼性・安全性 Safety
セキュリティ対策・稼働安定性・データ保護体制を監査します。特に日本の個人情報保護法への準拠を重点的に検証します。
- - データ保護ポリシー・暗号化方式(自動 + 手動)
- - アクセス制御・SSO/MFA対応(手動)
- - 監査ログ・操作記録(手動)
- - データ保存場所・越境移転ポリシー(手動)
- - インシデント対応体制・SLA(手動)
革新性 Uniqueness
独自技術・差別化機能・将来性を評価します。出力多様性・創造的対応力を自動分析し、独自技術・エコシステムは手動で補完します。
- - 独自技術・モデルの有無(手動)
- - 差別化機能の独自性(手動)
- - エコシステム・拡張性(手動)
- - 将来性・ロードマップ透明性(手動)
- - ラッパー製品リスク(APIラッパー依存度)(手動)
自動テスト vs AI定性評価
Automated Tests vs AI Qualitative Analysis
実環境テストとAI解析による成果物の定量評価
- -成果物のAI画像解析による品質評価
- -テストプロンプトに対するAI出力の忠実度判定
- -日本語出力の品質・敬語適切性の自動評価
- -応答時間の計測
- -矛盾指示への対応力の自動判定
- -情報の正確性・ハルシネーション検出
AI解析および手動補完による定性評価
- -UX設計品質・直感性
- -ドキュメント充実度
- -サポート応答品質
- -セキュリティ体制精査
- -ビジネス日本語適切性
- -出力品質・バイアス検証
- -コンプライアンス確認
スコアリング方法論
Scoring Methodology
スコアの算出方法
各評価軸のスコアは、自動テストスコア(60%)とAI定性評価スコア(40%)の加重平均で算出されます。総合スコアは5軸の均等平均です。
軸スコア = (自動テスト結果 x 0.6) + (AI定性評価 x 0.4)
総合スコア = (軸1 + 軸2 + 軸3 + 軸4 + 軸5) / 5
軸ごとの重み付け
標準の総合スコアでは5軸を均等に扱いますが、業界別ランキングではユースケースに応じた重み付けが適用される場合があります。重み付けが適用される場合は、その旨を明示します。
グレード判定基準
Grade Assignment Criteria
| グレード | スコア範囲 | 評価 |
|---|---|---|
| S | 4.5 - 5.0 | 最高評価 |
| A | 3.8 - 4.4 | 高品質・推奨 |
| B | 3.0 - 3.7 | 標準的 |
| C | 2.0 - 2.9 | 改善の余地あり |
| D | 0.0 - 1.9 | 要注意 |
グレードは総合スコアだけでなく、各軸の最低スコアも考慮して判定されます。特定の軸が極端に低い場合、総合スコアが高くても上位グレードに判定されない場合があります。
品質保証プロセス
Quality Assurance Process
独立評価者の選定
評価対象ベンダーとの利害関係がない評価者を選定。利益相反チェックを事前に実施します。
ダブルチェック評価
手動評価結果はLLM自動評価との整合性を確認。大きな乖離がある場合はレビューを実施します。将来的に複数評価者体制への移行を予定しています。
自動テスト検証
LLMによる評価基準(ルーブリック)を定期的に検証・改善。評価の一貫性を確保します。
最終レビュー
シニアアナリストが全スコアを最終レビュー。異常値の検出・データ整合性の確認を行います。
公開前チェック
公開前に事実関係の最終確認を実施。スコアの根拠となるデータの完全性を保証します。
監査信頼度の可視化
Audit Reliability — BenchRisk-Inspired Meta-Evaluation
Aixisは自らの評価手法の信頼性も定量的に検証しています。 AVERIが提唱する BenchRiskフレームワークに着想を得た4次元の信頼度指標を、各監査セッションに対して自動算出します。
※ 上記は信頼度指標の例示です。実際の値は各監査セッションごとに自動算出されます。
信頼度4次元の定義
- 再現性 (Consistency)
- 同一条件での再実行時にスコアが安定するか。応答時間の変動係数とエラー率で計測。手動100%の軸は構造的に低くなるため、手動評価の必要性の根拠にもなります。
- 正確性 (Correctness)
- 評価エンジンの確信度分布と、有効なエビデンス(非エラー応答)の割合で計測。自動スコアの信頼区間を定量化します。
- 網羅性 (Comprehensiveness)
- テスト計画の完遂率とカテゴリカバー率で計測。全テストカテゴリ(基本作成・構成力・日本語品質・正確性・応用機能)を網羅的に実行したかを評価します。
- 解釈性 (Intelligibility)
- 結果の解釈しやすさ。応答データの充実度、軸スコアの詳細・強み・リスク情報の付与率で計測します。
再監査トリガーと頻度
Re-audit Triggers & Frequency
定期再監査
すべてのツールは90日サイクルで定期再監査の対象となります。再監査では前回と同一のテストケースに加え、新たに追加されたテストケースも適用されます。
臨時再監査トリガー
- -ツールのメジャーバージョンアップ
- -重大なセキュリティインシデントの報告
- -ベンダーからの訂正依頼(検証の結果、再評価が必要と判断された場合)
- -ユーザーからの複数の品質低下報告
- -AIモデルの大幅な変更(基盤モデルの切り替え等)
- -サービスの運営体制の大幅な変更
臨時再監査は通常30営業日以内に完了します。再監査中は現行スコアに「再評価中」ラベルが付与されます。