Image Credits: Reddit

Reddit、データのライセンス契約で2億300万ドルを得たと発表

uniqorns編集チーム 2024.02.23

Redditの株式公開に向けての見通しは、OpenAIなどのAIベンダーとの関係が想像以上に関係している。
米国証券取引委員会（SEC）へのIPOの意向書では、Redditは自社の10億以上の投稿と160億以上のコメントを使ってAIモデルを訓練する企業とのデータライセンス契約で得られる利益について、2024年1月、合計契約額2億300万ドルのデータライセンス契約を締結した。
契約期間は2年から3年に及ぶと意向書には記載されている。
2024年12月31日までの年に最低でも6,640万ドルの収益が認識され、その後も収益は予想される。

現時点で、Redditからデータのライセンスを受けているAIベンダーがどの企業なのかは謎である。今週早くも、BloombergとReutersが「大手の無名のAI企業」が年間約6,000万ドル相当のライセンス契約を締結したと報道した。

なぜRedditのデータに価値があるのか？AIモデルは例から「学習」し、エッセイ、コード、メール、記事などを作成する。そのため、OpenAIなどのベンダーは数百万から数十億の例をウェブから収集し、トレーニングセットに追加する。一部の例はパブリックドメインにあるが、Redditのコンテンツの場合、引用または特定の形式の補償が必要な制限付きのライセンスになる。

以前、RedditはAIのトレーニング目的でデータへのアクセスを制限していなかった。
しかし昨年方針を転換し、データを「世界中の最大手企業に無料で提供する」ことはないと述べた。
Redditの巨大な会話データと知識は、大規模な言語モデルのトレーニングと改善に引き続き役立つと考えている。コンテンツが毎日更新され成長する中、モデルはこれらの新しいアイデアを反映し、Redditのデータを使用してトレーニングを更新することを期待している。