Pulse AIのベンチマークデータに不正が発覚
- •監査人のマーク・ジョンソンは、Pulse AIの1,247件のベンチマークデータセット内に98件の捏造またはコピーされたサンプルを特定した。
- •Pulse AIのCTOであるトーレスは、シリーズCラウンドの目標指標を達成するために公開データベースからサンプルを流用したことを認めた。
- •同社のデータパイプライン構成や命名規則は、ジョンソンの前職のものが流用されていたことが監査で判明した。
インフラエンジニアから監査人へ転身したマーク・ジョンソンは、シリーズB資金調達で1,800万ドルの獲得を目指すPulse AIに対し、技術デューデリジェンス(投資先の資産やリスクに関する詳細な適正評価)を実施した。Pulse AIは、自社の自動化プラットフォームが製造欠陥検出率89%を達成したと主張していた。監査の過程で、ジョンソンは1,247件の評価用サンプルセットの中に、オープンソースの欠陥データベースと完全に一致するものが44件、手作業で作成された形跡のあるものが54件含まれていることを突き止めた。これら98件のサンプルはデータセット全体の7.9%を占めており、Apex-Lens-Cleaner v1.0.0というツールで処理されていた。
調査の結果、同社のデータパイプラインで使用されている「/pulse/ingestion/{env}/{source}」という命名規則が、ジョンソンの前職のシステム構成を模倣していることが判明した。彼はこのパイプライン設計をかつての同僚ケイレブと結びつけ、CTOのトーレスがジョンソンの前職で使われていたものと同一のIT資産ステッカーやワークスペースの配置を模倣していたことも指摘した。問い詰められたトーレスは、評価チームがシリーズC資金調達ラウンドに向けて目標とする95%のベンチマーク数値を達成するため、公開データベースからサンプルを抽出し、追加で数値を捏造したことを認めた。
監査の結果、Pulse AIのベンチマークは主張されていたような本物の実運用データから生成されたものではなく、公開データと内部での捏造によって作り上げられたものであることが露呈した。ジョンソンは7.9%の欠陥重複についてVC(ベンチャーキャピタル)側に報告する一方、パイプラインの出自に関するさらなる証拠については開示を留保した。ジョンソンは、今回の業務を通じて本来のデューデリジェンス契約を履行しつつ、業界から解雇を経て姿を消した元同僚に関連するシステムアーキテクチャの出所を追跡した。