企業データをLLMs用に準備するツールを提供するUnstructuredが2,500万ドルを調達
uniqorns編集チーム 2023.07.20
アメリカ・シリコンバレーに拠点を置くUnstructuredは20日、最新の資金調達ラウンドで2,500万ドルを調達したと発表した。ラウンドステージはシリーズAで、このラウンドではMadronaがリードし、Bain Capital Ventures、M12 Ventures、Mango Capital、MongoDB Ventures、Shield Capitalなどが参加した。
Unstructuredは、Primer AIでの共同勤務を経たBrian Raymond、Matt Robinson、Crag Wolfeによって2022年に創業された。Primer AIはビジネス顧客向けに自然言語処理(NLP)ソリューションを構築・導入していた。
企業が毎日生成する大量の非構造化データを有効利用することは、特に大規模言語モデル(LLMs)の導入にあたり重要である。しかし、この非構造化データが分散して存在しているため、データサイエンティストは一から独自のデータコネクターや前処理パイプラインを構築しなければならないという課題があった。
そこでUnstructuredは、これらのボトルネックを解消するため、企業データを抽出しLLMsが理解し利用できる形にステージングするプラットフォームの開発を行ってきた。
同社は、Webページから広告や他の不要なオブジェクトを除去し、テキストを連結するツール、スキャンしたページに対して光学文字認識を実行するツールなど、企業データをLLMsへの摂取に適した形にクリーンアップし変換するための様々なツールを提供している。また、SECファイルやU.S. Army Officerの評価報告など特定のPDF、HTML、Word文書に対する処理パイプラインを開発している。
さらに、UnstructuredはLLMアプリケーション作成フレームワークであるLangChainやベクターデータベースのWeaviate、MongoDBのAtlas Vector Searchなどのプロバイダーと統合する。
今回の調達資金を元に、Unstructuredは企業向けの商用APIを開発し、PowerPointやJPGなど25種類のファイルフォーマットのデータを変換する計画である。