プロダクトmarktechpost2026-06-02

TinyFishがBigSetを発表：自然言語から構造化データを生成するシステム

TinyFish Launches BigSet: An Open-Source Multi-Agent System That Builds Structured Live Datasets from Plain-English Descriptions

TinyFishがBigSetを発表し、自然な言葉から構造化データを自動生成するシステムを提供します。これにより、データ収集の手間が減り、効率的な作業が可能になります。

ウェブから構造化データセットを作成することは、依然としてパイプラインの問題です。データソースを特定し、スクレイパーを作成または設定し、スキーマを設計し、重複を処理し、更新をスケジュールし、上流サイトが変更されたときに修正する必要があります。このプロセスは、一度行う場合でも百回行う場合でも、ほぼ同じです。TinyFishは、このワークフローに直接対処するためにBigSetを発表しました。BigSetは、AGPL-3.0の下でライセンスされたオープンソースのマルチエージェントシステムです。自然言語の説明を入力として受け取り、ライブウェブデータから構造化されたエクスポータブルデータセットを返します。完全なコードベースはGitHubで入手可能です。

BigSetは、データ要件と使えるテーブルの間の層として位置付けられています。必要なことを一文で説明します。システムはスキーマを推測し、データを収集するためにエージェントを派遣し、結果を重複排除し、ダウンロード可能なCSVまたはXLSXファイルを生成します。実用的な例として、「現在エンジニアを雇用しているYC企業、その資金調達段階、所在地、オープンポジションの数」という説明を入力します。BigSetは、どの列が必要かを推測し、ウェブ上の関連情報を見つけて行を埋めます。URLを指定する必要はなく、セレクターを設定する必要もありません。データを説明するだけで済みます。スケジュールされた更新機能により、データセットは自動的に更新されます。更新の頻度を設定すれば（30分、6時間、12時間、日次、週次）、エージェントはそのスケジュールに従って再実行します。手動でタスクを再実行することなく、テーブルは最新の状態を保ちます。実用的な注意点として、データセットの生成には2〜5分かかります。エージェントは実際にウェブリサーチを行い、ページを検索し、取得し、データを検証します。これは瞬時の結果ではありません。

マルチエージェントアーキテクチャの仕組みは具体的に理解する価値があります。BigSetは、ウェブ検索ツールが付属した単一の文章を書くAIの呼び出しではありません。構造化された二層のエージェントシステムを運用しています。ステップ1 — スキーマ推測：説明を提出すると、Claude Sonnet（OpenRouter経由でアクセス）がデータセットのスキーマを推測します。これには列名、データ型などが含まれます。

元記事を読む→

この記事について質問

記事の内容に答えます。記事外のことは都度ウェブで調べます。