データキュレーション自動化のCleanlab、Bain Capital Ventures主導で500万ドルを調達——ラベリングミスの効率的な修正手法開発

Image Credits: Cleanlab

データキュレーション自動化のCleanlab、Bain Capital Ventures主導で500万ドルを調達——ラベリングミスの効率的な修正手法開発

uniqorns編集チーム 2023.07.25

大規模言語モデル(LLM)向けのデータキュレーションソリューションを提供するスタートアップ Cleanlab は20日、最新のラウンドで500万米ドルを調達したと発表した。このラウンドはBain Capital Venturesがリードし、"ダーティデータ問題"を解決するというCleanlabの使命に大きな信任が寄せられた。

CleanlabはCurtis Northcutt氏、Jonas Mueller氏、Anish Athalye氏によって設立され、データの不正確なラベルを識別、理解、クリーニングするオープンソース製品を開発した。これはMLモデルの有効性がデータの質の低さによって阻害される問題を大幅に改善する新たなアプローチだ。

データの誤りを検出し、それぞれのラベルと例の精度を推定する手法であるConfident Learningは、真のラベルとノイズの多いラベルの共同分布を推定し、各ラベルの信頼スコアを提供する。

Cleanlabのビジョンとテクノロジーに感銘を受けたBain Capital VenturesのパートナーAaref Hilaly氏とプリンシパルのRak Garg氏は、CleanlabがAI領域の巨大で十分に対処されていない問題を解決していると述べた。また、Garg氏は、Bain Capital VenturesがAIにより重きを置く一環としてCleanlabに投資し、他のAIスタートアップであるContextual AI、Evenup、Unstructuredと共に基礎モデルとその周辺のインフラに投資していると説明した。

最近のGartnerのレポートによると、ルーチンワークの69%が2024年までに完全に自動化され、LLMの需要が高まることが予想されている。Cleanlabのデータキュレーションソリューションは、データの品質とキュレーションが最大の課題となる企業のLLMの導入と展開を助けるものだ。

Cleanlabのソリューションは、データセットとモデルの品質と信頼性を向上させ、データキュレーションの時間とコストを削減し、LLMの倫理的かつ責任ある使用を保証するのに役立つ。Cleanlabはまた、企業が競争優位性を獲得し、データ資産から価値を創造するのに役立つ存在である。