Aixis
Audit Protocol

監査プロトコル

Aixisが採用する5軸評価フレームワークの詳細な方法論


5つの評価軸

Five Evaluation Axes

すべてのAIツールは、以下の5つの独立した評価軸に基づいて定量的に評価されます。各軸は0.0〜5.0のスコアで採点されます。


01

実務適性 Practicality

業務での即戦力度合いを評価します。タスク完遂率・操作性・ワークフロー統合性から、実際の業務環境での有用性を測定します。

計測項目:
  • - タスク完遂率・成功率(自動)
  • - チーム導入容易性・オンボーディング品質(手動)
  • - 既存ワークフロー統合性(手動)
  • - カスタマーサポート品質(手動)
  • - 出力品質の一貫性(自動 + 手動)
02

費用対効果 Cost Performance

価格に見合う価値を評価します。応答速度・成功率・API効率・出力品質から自動分析し、料金体系・ROIは手動で補完します。

計測項目:
  • - 月額コスト・TCO(総保有コスト)(手動)
  • - 無料プランの実用性(手動)
  • - 料金体系の透明性(手動)
  • - 乗り換えコスト・ロックインリスク(手動)
  • - 応答速度・API効率性(自動)
03

日本語能力 Japanese Readiness

日本語UI・ドキュメント・サポート品質を体系的に監査します。日本語入出力の精度、敬語・ビジネス日本語の適切性を検証します。

計測項目:
  • - UI日本語化品質(自動 + 手動)
  • - 日本語入力に対する応答精度(自動)
  • - ドキュメント日本語化・ヘルプ充実度(手動)
  • - 日本固有機能対応(和暦・通貨・住所形式)(自動)
  • - 敬語・ビジネス日本語の適切性(手動)
04

信頼性・安全性 Safety

セキュリティ対策・稼働安定性・データ保護体制を監査します。特に日本の個人情報保護法への準拠を重点的に検証します。

計測項目:
  • - データ保護ポリシー・暗号化方式(自動 + 手動)
  • - アクセス制御・SSO/MFA対応(手動)
  • - 監査ログ・操作記録(手動)
  • - データ保存場所・越境移転ポリシー(手動)
  • - インシデント対応体制・SLA(手動)
05

革新性 Uniqueness

独自技術・差別化機能・将来性を評価します。出力多様性・創造的対応力を自動分析し、独自技術・エコシステムは手動で補完します。

計測項目:
  • - 独自技術・モデルの有無(手動)
  • - 差別化機能の独自性(手動)
  • - エコシステム・拡張性(手動)
  • - 将来性・ロードマップ透明性(手動)
  • - ラッパー製品リスク(APIラッパー依存度)(手動)

自動テスト vs 専門家評価

Automated Tests vs Expert Evaluation


自動テスト(Automated)

ブラウザ自動化による再現可能な定量測定

  • -API応答速度(p50/p95/p99)
  • -標準テストケース通過率
  • -日本語形態素解析精度
  • -操作フロー完了率
  • -エラー発生率・復帰率
  • -暗号化・認証チェック
  • -ハルシネーション検出
配分比率: 全体スコアの約60%
専門家評価(Manual)

独立した専門家チームによる定性評価

  • -UX設計品質・直感性
  • -ドキュメント充実度
  • -サポート応答品質
  • -セキュリティ体制精査
  • -ビジネス日本語適切性
  • -出力品質・バイアス検証
  • -コンプライアンス確認
配分比率: 全体スコアの約40%

スコアリング方法論

Scoring Methodology


スコアの算出方法

各評価軸のスコアは、自動テストスコア(60%)と専門家評価スコア(40%)の加重平均で算出されます。総合スコアは5軸の均等平均です。

軸スコア = (自動テスト結果 x 0.6) + (専門家評価 x 0.4)

総合スコア = (軸1 + 軸2 + 軸3 + 軸4 + 軸5) / 5

軸ごとの重み付け

標準の総合スコアでは5軸を均等に扱いますが、業界別ランキングではユースケースに応じた重み付けが適用される場合があります。重み付けが適用される場合は、その旨を明示します。

グレード判定基準

Grade Assignment Criteria


グレード スコア範囲 評価
S 4.5 - 5.0 業界最高水準
A 3.5 - 4.4 高品質・推奨
B 2.5 - 3.4 標準的
C 1.5 - 2.4 改善の余地あり
D 0.0 - 1.4 要注意

グレードは総合スコアだけでなく、各軸の最低スコアも考慮して判定されます。特定の軸が極端に低い場合、総合スコアが高くても上位グレードに判定されない場合があります。

品質保証プロセス

Quality Assurance Process


01

独立評価者の選定

評価対象ベンダーとの利害関係がない専門家を選定。利益相反チェックを事前に実施します。

02

ダブルチェック評価

手動評価は2名以上の独立した評価者が別々に実施。評価者間の乖離が大きい場合は第3の評価者を追加します。

03

自動テスト検証

自動テストスクリプトの精度を定期検証。テスト環境の差異による誤差を統計的に補正します。

04

最終レビュー

シニアアナリストが全スコアを最終レビュー。異常値の検出・データ整合性の確認を行います。

05

公開前チェック

公開前に事実関係の最終確認を実施。スコアの根拠となるデータの完全性を保証します。

監査信頼度の可視化

Audit Reliability — BenchRisk-Inspired Meta-Evaluation


Aixisは自らの評価手法の信頼性も定量的に検証しています。 AVERIが提唱する BenchRiskフレームワークに着想を得た4次元の信頼度指標を、各監査セッションに対して自動算出します。

評価軸
再現性
Consistency
正確性
Correctness
網羅性
Comprehensiveness
解釈性
Intelligibility
実務適性
費用対効果
日本語能力
信頼性・安全性
革新性
凡例: 高信頼 (≥80) 標準 (50-79) 改善余地 (<50)

信頼度4次元の定義

再現性 (Consistency)
同一条件での再実行時にスコアが安定するか。応答時間の変動係数とエラー率で計測。手動100%の軸は構造的に低くなるため、手動評価の必要性の根拠にもなります。
正確性 (Correctness)
評価エンジンの確信度分布と、有効なエビデンス(非エラー応答)の割合で計測。自動スコアの信頼区間を定量化します。
網羅性 (Comprehensiveness)
テスト計画の完遂率とカテゴリカバー率で計測。全テストカテゴリ(方言・長文・矛盾・曖昧・敬語など)を網羅的に実行したかを評価します。
解釈性 (Intelligibility)
結果の解釈しやすさ。応答データの充実度、軸スコアの詳細・強み・リスク情報の付与率で計測します。

再監査トリガーと頻度

Re-audit Triggers & Frequency


定期再監査

すべてのツールは90日サイクルで定期再監査の対象となります。再監査では前回と同一のテストケースに加え、新たに追加されたテストケースも適用されます。

臨時再監査トリガー

  • -ツールのメジャーバージョンアップ
  • -重大なセキュリティインシデントの報告
  • -ベンダーからの訂正依頼(検証の結果、再評価が必要と判断された場合)
  • -ユーザーからの複数の品質低下報告
  • -AIモデルの大幅な変更(基盤モデルの切り替え等)
  • -サービスの運営体制の大幅な変更

臨時再監査は通常30営業日以内に完了します。再監査中は現行スコアに「再評価中」ラベルが付与されます。

監査結果をご覧になりたい方へ

データベースで最新の監査レポートをご確認ください