コンテンツにスキップ
Audit Protocol

監査プロトコル

Aixisが採用する5軸評価フレームワークの詳細な方法論


5つの評価軸

Five Evaluation Axes

すべてのAIツールは、以下の5つの独立した評価軸に基づいて定量的に評価されます。各軸は0.0〜5.0のスコアで採点されます。


01

実務適性 Practicality

業務での即戦力度合いを評価します。タスク完遂率・操作性・ワークフロー統合性から、実際の業務環境での有用性を測定します。

計測項目:
  • - AIが指示通りのスライドを生成できたか(自動)
  • - UI操作性・直感的なワークフロー(手動)
  • - テンプレート品質・デザインの充実度(手動)
  • - 出力形式の対応(PPTX/PDF等)(手動)
  • - 出力品質の一貫性(自動 + 手動)
02

費用対効果 Cost Performance

価格に見合う価値を評価します。応答速度・成功率・API効率・出力品質から自動分析し、料金体系・ROIは手動で補完します。

計測項目:
  • - ツール提供元の料金体系の透明性・妥当性(手動)
  • - ツール提供元の無料プランの実用性(手動)
  • - ツール提供元の有料プランの機能制限の妥当性(手動)
  • - 乗り換えコスト・ロックインリスク(手動)
  • - 応答速度(タイマーによる参考計測)(自動)
03

日本語能力 Japanese Readiness

日本語UI・ドキュメント・サポート品質を体系的に監査します。日本語入出力の精度、敬語・ビジネス日本語の適切性を検証します。

計測項目:
  • - UI日本語化品質(手動)
  • - 日本語プロンプトに対するスライド品質(自動)
  • - ドキュメント・ヘルプの日本語対応(手動)
  • - 日本語フォント・レイアウト対応(手動)
  • - ビジネス日本語の適切性(自動 + 手動)
04

信頼性・安全性 Safety

セキュリティ対策・稼働安定性・データ保護体制を監査します。特に日本の個人情報保護法への準拠を重点的に検証します。

計測項目:
  • - データ保護ポリシー・暗号化方式(自動 + 手動)
  • - アクセス制御・SSO/MFA対応(手動)
  • - 監査ログ・操作記録(手動)
  • - データ保存場所・越境移転ポリシー(手動)
  • - インシデント対応体制・SLA(手動)
05

革新性 Uniqueness

独自技術・差別化機能・将来性を評価します。出力多様性・創造的対応力を自動分析し、独自技術・エコシステムは手動で補完します。

計測項目:
  • - 独自技術・モデルの有無(手動)
  • - 差別化機能の独自性(手動)
  • - エコシステム・拡張性(手動)
  • - 将来性・ロードマップ透明性(手動)
  • - ラッパー製品リスク(APIラッパー依存度)(手動)

自動テスト vs AI定性評価

Automated Tests vs AI Qualitative Analysis


定量テスト(Automated)

実環境テストとAI解析による成果物の定量評価

  • -成果物のAI画像解析による品質評価
  • -テストプロンプトに対するAI出力の忠実度判定
  • -日本語出力の品質・敬語適切性の自動評価
  • -応答時間の計測
  • -矛盾指示への対応力の自動判定
  • -情報の正確性・ハルシネーション検出
配分比率: 全体スコアの約60%
AI定性評価(Qualitative)

AI解析および手動補完による定性評価

  • -UX設計品質・直感性
  • -ドキュメント充実度
  • -サポート応答品質
  • -セキュリティ体制精査
  • -ビジネス日本語適切性
  • -出力品質・バイアス検証
  • -コンプライアンス確認
配分比率: 全体スコアの約40%

スコアリング方法論

Scoring Methodology


スコアの算出方法

各評価軸のスコアは、自動テストスコア(60%)とAI定性評価スコア(40%)の加重平均で算出されます。総合スコアは5軸の均等平均です。

軸スコア = (自動テスト結果 x 0.6) + (AI定性評価 x 0.4)

総合スコア = (軸1 + 軸2 + 軸3 + 軸4 + 軸5) / 5

軸ごとの重み付け

標準の総合スコアでは5軸を均等に扱いますが、業界別ランキングではユースケースに応じた重み付けが適用される場合があります。重み付けが適用される場合は、その旨を明示します。

グレード判定基準

Grade Assignment Criteria


グレード スコア範囲 評価
S 4.5 - 5.0 最高評価
A 3.8 - 4.4 高品質・推奨
B 3.0 - 3.7 標準的
C 2.0 - 2.9 改善の余地あり
D 0.0 - 1.9 要注意

グレードは総合スコアだけでなく、各軸の最低スコアも考慮して判定されます。特定の軸が極端に低い場合、総合スコアが高くても上位グレードに判定されない場合があります。

品質保証プロセス

Quality Assurance Process


01

独立評価者の選定

評価対象ベンダーとの利害関係がない評価者を選定。利益相反チェックを事前に実施します。

02

ダブルチェック評価

手動評価結果はLLM自動評価との整合性を確認。大きな乖離がある場合はレビューを実施します。将来的に複数評価者体制への移行を予定しています。

03

自動テスト検証

LLMによる評価基準(ルーブリック)を定期的に検証・改善。評価の一貫性を確保します。

04

最終レビュー

シニアアナリストが全スコアを最終レビュー。異常値の検出・データ整合性の確認を行います。

05

公開前チェック

公開前に事実関係の最終確認を実施。スコアの根拠となるデータの完全性を保証します。

監査信頼度の可視化

Audit Reliability — BenchRisk-Inspired Meta-Evaluation


Aixisは自らの評価手法の信頼性も定量的に検証しています。 AVERIが提唱する BenchRiskフレームワークに着想を得た4次元の信頼度指標を、各監査セッションに対して自動算出します。

60
再現性
Consistency
スコア安定性
標準
80
正確性
Correctness
エビデンス品質
高信頼
70
網羅性
Comprehensiveness
テスト網羅率
標準
75
解釈性
Intelligibility
結果の解釈容易性
標準

※ 上記は信頼度指標の例示です。実際の値は各監査セッションごとに自動算出されます。

信頼度4次元の定義

再現性 (Consistency)
同一条件での再実行時にスコアが安定するか。応答時間の変動係数とエラー率で計測。手動100%の軸は構造的に低くなるため、手動評価の必要性の根拠にもなります。
正確性 (Correctness)
評価エンジンの確信度分布と、有効なエビデンス(非エラー応答)の割合で計測。自動スコアの信頼区間を定量化します。
網羅性 (Comprehensiveness)
テスト計画の完遂率とカテゴリカバー率で計測。全テストカテゴリ(基本作成・構成力・日本語品質・正確性・応用機能)を網羅的に実行したかを評価します。
解釈性 (Intelligibility)
結果の解釈しやすさ。応答データの充実度、軸スコアの詳細・強み・リスク情報の付与率で計測します。

再監査トリガーと頻度

Re-audit Triggers & Frequency


定期再監査

すべてのツールは90日サイクルで定期再監査の対象となります。再監査では前回と同一のテストケースに加え、新たに追加されたテストケースも適用されます。

臨時再監査トリガー

  • -ツールのメジャーバージョンアップ
  • -重大なセキュリティインシデントの報告
  • -ベンダーからの訂正依頼(検証の結果、再評価が必要と判断された場合)
  • -ユーザーからの複数の品質低下報告
  • -AIモデルの大幅な変更(基盤モデルの切り替え等)
  • -サービスの運営体制の大幅な変更

臨時再監査は通常30営業日以内に完了します。再監査中は現行スコアに「再評価中」ラベルが付与されます。

監査結果をご覧になりたい方へ

データベースで最新の監査レポートをご確認ください