DEV、Gemini Embeddingsでセマンティックなフィードへ刷新
- •DEVはGemini Embeddings 2とpgvectorを統合し、新しいセマンティックフィードアルゴリズムを導入する。
- •システムは3,072次元ベクトルを使用し、ユーザーの興味と記事の内容を統一されたセマンティック空間に配置する。
- •TrendDetectorサービスは6時間ごとに質の高い投稿をクラスタリングし、Gemini APIで議論を要約する。
開発者コミュニティプラットフォームのDEVは、コンテンツ発見機能を向上させるため、Gemini Embeddings 2とPostgreSQL拡張機能であるpgvectorをフィードアルゴリズムに統合している。新システムは、単純な新着順やリアクション数による順位付けから脱却し、ユーザー個別の興味プロファイルに基づくセマンティックフィードバックループを実装した。各ユーザーの動的な興味ベクトルを生成し、ユーザーの興味と記事コンテンツ間におけるコサイン類似度を統一されたセマンティック空間で計算する。これにより、コミュニティのソーシャルシグナルとバランスを取りつつ、知的刺激を与える投稿を抽出可能となった。
システムの安定性と透明性を維持するため、エンジニアチームはAi::BaseおよびAi::Embeddingクラスを用いたラッパーパターンを実装した。このアーキテクチャはAiAuditモデルを通じた包括的な監査証跡を可能にし、ベクトル生成タスクごとのモデルバージョン、ペイロード、レイテンシ、トークン消費量を自動的に記録する。Gemini Embeddings 2はコンテンツを3,072次元ベクトルとして表現する。このアップグレードによりネイティブなマルチモーダル対応が実現し、既存のフィードロジックを大幅に変更することなく、画像、動画、音声解析へと将来的に拡張可能なインフラを構築した。
さらに、一般的なタグでは見落とされる微妙な会話を特定するため、TrendDetectorサービスを導入した。6時間ごとにバックグラウンド処理が、ホームページ掲載基準を15ポイント上回る質の高い投稿を対象に、リーダークラスタリングアルゴリズムを実行する。記事はコサイン類似度の距離閾値0.15に基づいてグループ化される。クラスタが10記事に達すると、Gemini APIが議論の要約とラベル付けを行う。これらの結果はTrendMembershipモデルに保存され、UIの並び替えに活用される。これらの機能を実現するインフラは、オープンソースのForemコードベースで公開されている。