1931年以前の文献のみで学習したAIモデル「Talkie」の登場
- •研究者が130億パラメータのモデル「Talkie」を発表。1931年以前の英語文献のみを学習に使用した。
- •特定の歴史的知識の境界内でAIが「推論」可能かを検証するプロジェクトである。
- •オープンな著作権データセットを基盤とし、会話能力向上のために合成データを用いた調整を行っている。
歴史と機械学習の交差点における興味深い実験として、1931年以前に出版された英語テキストのみで学習した130億パラメータの言語モデル「Talkie」が公開された。現代のAIモデルの大半は、インターネット上の混沌とした広大なデータから、現代特有のバイアスや時代錯誤な知識を取り込んで学習している。これに対し本プロジェクトは、デジタル化以前の世界観に完全に適合した、クリーンで「純粋な」コーパス(言語データセット)の構築を目指している。
現代のテクノロジー的文脈を一切排除することで、AIが別の世紀に存在しているかのように推論し、応答することを学習できるのかを検証する狙いがある。ここでの技術的課題は極めて大きい。現代のインターネットスラングや最新の情勢といった「汚染」に触れさせずに、AIにいかにして指示に従わせ、効果的な対話を行わせるかが問われるからだ。
開発チームは、歴史的データ2600億トークンでベースモデルを学習させた後、料理本や辞書、礼儀作法のマニュアルといった当時の正確な資料から抽出した指示と応答のペアを用いて調整(ファインチューニング)を行った。対話や要約の能力を磨くため、現代のモデルである「Claude」を介して合成プロンプトを生成する手法も採用されたが、学習過程において現代のAIを利用するという再帰的な皮肉も生じている。
本研究の最も興味深い目的の一つは、「知識のカットオフ(知識の遮断)」に関する概念だ。この歴史的モデルが、1931年以降に起きた科学や数学のブレイクスルーを独自に導き出せるかを検証している。例えば、アルベルト・アインシュタイン(Albert Einstein)のような歴史的偉人の認知プロセスを再現できるかという試みである。相対性理論についての記述を一度も読んだことがないモデルが、持っている歴史的データから論理的にその概念を導き出せるなら、それは単なる情報検索ではなく、純粋な推論能力の証明となる。
AI学習の倫理に関心がある学生にとって、このプロジェクトは示唆に富む視点を提供している。パブリックドメインの歴史的アーカイブのみを使用することで、データ元や著作権の問題に正面から取り組んでいるためだ。開発者は調整プロセスにおける現代の影響を排除する困難さを認めているが、最終的な目標は、モデルが自ら出力を評価し修正できる「自律的な」システムを構築することにある。これは現在のAIの知能が構造的な論理によるものなのか、単にインターネット文化を反復しているだけなのかを見極める重要な一歩と言える。