監査プロトコル
Aixisが採用する5軸評価フレームワークの詳細な方法論
5つの評価軸
Five Evaluation Axes
すべてのAIツールは、以下の5つの独立した評価軸に基づいて定量的に評価されます。各軸は0.0〜5.0のスコアで採点されます。
実務適性 Practicality
業務での即戦力度合いを評価します。タスク完遂率・操作性・ワークフロー統合性から、実際の業務環境での有用性を測定します。
- - タスク完遂率・成功率(自動)
- - チーム導入容易性・オンボーディング品質(手動)
- - 既存ワークフロー統合性(手動)
- - カスタマーサポート品質(手動)
- - 出力品質の一貫性(自動 + 手動)
費用対効果 Cost Performance
価格に見合う価値を評価します。応答速度・成功率・API効率・出力品質から自動分析し、料金体系・ROIは手動で補完します。
- - 月額コスト・TCO(総保有コスト)(手動)
- - 無料プランの実用性(手動)
- - 料金体系の透明性(手動)
- - 乗り換えコスト・ロックインリスク(手動)
- - 応答速度・API効率性(自動)
日本語能力 Japanese Readiness
日本語UI・ドキュメント・サポート品質を体系的に監査します。日本語入出力の精度、敬語・ビジネス日本語の適切性を検証します。
- - UI日本語化品質(自動 + 手動)
- - 日本語入力に対する応答精度(自動)
- - ドキュメント日本語化・ヘルプ充実度(手動)
- - 日本固有機能対応(和暦・通貨・住所形式)(自動)
- - 敬語・ビジネス日本語の適切性(手動)
信頼性・安全性 Safety
セキュリティ対策・稼働安定性・データ保護体制を監査します。特に日本の個人情報保護法への準拠を重点的に検証します。
- - データ保護ポリシー・暗号化方式(自動 + 手動)
- - アクセス制御・SSO/MFA対応(手動)
- - 監査ログ・操作記録(手動)
- - データ保存場所・越境移転ポリシー(手動)
- - インシデント対応体制・SLA(手動)
革新性 Uniqueness
独自技術・差別化機能・将来性を評価します。出力多様性・創造的対応力を自動分析し、独自技術・エコシステムは手動で補完します。
- - 独自技術・モデルの有無(手動)
- - 差別化機能の独自性(手動)
- - エコシステム・拡張性(手動)
- - 将来性・ロードマップ透明性(手動)
- - ラッパー製品リスク(APIラッパー依存度)(手動)
自動テスト vs 専門家評価
Automated Tests vs Expert Evaluation
ブラウザ自動化による再現可能な定量測定
- -API応答速度(p50/p95/p99)
- -標準テストケース通過率
- -日本語形態素解析精度
- -操作フロー完了率
- -エラー発生率・復帰率
- -暗号化・認証チェック
- -ハルシネーション検出
独立した専門家チームによる定性評価
- -UX設計品質・直感性
- -ドキュメント充実度
- -サポート応答品質
- -セキュリティ体制精査
- -ビジネス日本語適切性
- -出力品質・バイアス検証
- -コンプライアンス確認
スコアリング方法論
Scoring Methodology
スコアの算出方法
各評価軸のスコアは、自動テストスコア(60%)と専門家評価スコア(40%)の加重平均で算出されます。総合スコアは5軸の均等平均です。
軸スコア = (自動テスト結果 x 0.6) + (専門家評価 x 0.4)
総合スコア = (軸1 + 軸2 + 軸3 + 軸4 + 軸5) / 5
軸ごとの重み付け
標準の総合スコアでは5軸を均等に扱いますが、業界別ランキングではユースケースに応じた重み付けが適用される場合があります。重み付けが適用される場合は、その旨を明示します。
グレード判定基準
Grade Assignment Criteria
| グレード | スコア範囲 | 評価 |
|---|---|---|
| S | 4.5 - 5.0 | 業界最高水準 |
| A | 3.5 - 4.4 | 高品質・推奨 |
| B | 2.5 - 3.4 | 標準的 |
| C | 1.5 - 2.4 | 改善の余地あり |
| D | 0.0 - 1.4 | 要注意 |
グレードは総合スコアだけでなく、各軸の最低スコアも考慮して判定されます。特定の軸が極端に低い場合、総合スコアが高くても上位グレードに判定されない場合があります。
品質保証プロセス
Quality Assurance Process
独立評価者の選定
評価対象ベンダーとの利害関係がない専門家を選定。利益相反チェックを事前に実施します。
ダブルチェック評価
手動評価は2名以上の独立した評価者が別々に実施。評価者間の乖離が大きい場合は第3の評価者を追加します。
自動テスト検証
自動テストスクリプトの精度を定期検証。テスト環境の差異による誤差を統計的に補正します。
最終レビュー
シニアアナリストが全スコアを最終レビュー。異常値の検出・データ整合性の確認を行います。
公開前チェック
公開前に事実関係の最終確認を実施。スコアの根拠となるデータの完全性を保証します。
監査信頼度の可視化
Audit Reliability — BenchRisk-Inspired Meta-Evaluation
Aixisは自らの評価手法の信頼性も定量的に検証しています。 AVERIが提唱する BenchRiskフレームワークに着想を得た4次元の信頼度指標を、各監査セッションに対して自動算出します。
| 評価軸 |
再現性 Consistency
|
正確性 Correctness
|
網羅性 Comprehensiveness
|
解釈性 Intelligibility
|
|---|---|---|---|---|
| 実務適性 | ||||
| 費用対効果 | ||||
| 日本語能力 | ||||
| 信頼性・安全性 | ||||
| 革新性 |
信頼度4次元の定義
- 再現性 (Consistency)
- 同一条件での再実行時にスコアが安定するか。応答時間の変動係数とエラー率で計測。手動100%の軸は構造的に低くなるため、手動評価の必要性の根拠にもなります。
- 正確性 (Correctness)
- 評価エンジンの確信度分布と、有効なエビデンス(非エラー応答)の割合で計測。自動スコアの信頼区間を定量化します。
- 網羅性 (Comprehensiveness)
- テスト計画の完遂率とカテゴリカバー率で計測。全テストカテゴリ(方言・長文・矛盾・曖昧・敬語など)を網羅的に実行したかを評価します。
- 解釈性 (Intelligibility)
- 結果の解釈しやすさ。応答データの充実度、軸スコアの詳細・強み・リスク情報の付与率で計測します。
再監査トリガーと頻度
Re-audit Triggers & Frequency
定期再監査
すべてのツールは90日サイクルで定期再監査の対象となります。再監査では前回と同一のテストケースに加え、新たに追加されたテストケースも適用されます。
臨時再監査トリガー
- -ツールのメジャーバージョンアップ
- -重大なセキュリティインシデントの報告
- -ベンダーからの訂正依頼(検証の結果、再評価が必要と判断された場合)
- -ユーザーからの複数の品質低下報告
- -AIモデルの大幅な変更(基盤モデルの切り替え等)
- -サービスの運営体制の大幅な変更
臨時再監査は通常30営業日以内に完了します。再監査中は現行スコアに「再評価中」ラベルが付与されます。