TinyFishがBigSetを発表:自然言語から構造化データを生成するシステム
TinyFish Launches BigSet: An Open-Source Multi-Agent System That Builds Structured Live Datasets from Plain-English Descriptions
TinyFishがBigSetを発表し、自然な言葉から構造化データを自動生成するシステムを提供します。これにより、データ収集の手間が減り、効率的な作業が可能になります。
ウェブから構造化データセットを作成することは、依然としてパイプラインの問題です。データソースを特定し、スクレイパーを作成または設定し、スキーマを設計し、重複を処理し、更新をスケジュールし、上流サイトが変更されたときに修正する必要があります。このプロセスは、一度行う場合でも百回行う場合でも、ほぼ同じです。TinyFishは、このワークフローに直接対処するためにBigSetを発表しました。BigSetは、AGPL-3.0の下でライセンスされたオープンソースのマルチエージェントシステムです。自然言語の説明を入力として受け取り、ライブウェブデータから構造化されたエクスポータブルデータセットを返します。完全なコードベースはGitHubで入手可能です。
BigSetは、データ要件と使えるテーブルの間の層として位置付けられています。必要なことを一文で説明します。システムはスキーマを推測し、データを収集するためにエージェントを派遣し、結果を重複排除し、ダウンロード可能なCSVまたはXLSXファイルを生成します。実用的な例として、「現在エンジニアを雇用しているYC企業、その資金調達段階、所在地、オープンポジションの数」という説明を入力します。BigSetは、どの列が必要かを推測し、ウェブ上の関連情報を見つけて行を埋めます。URLを指定する必要はなく、セレクターを設定する必要もありません。データを説明するだけで済みます。スケジュールされた更新機能により、データセットは自動的に更新されます。更新の頻度を設定すれば(30分、6時間、12時間、日次、週次)、エージェントはそのスケジュールに従って再実行します。手動でタスクを再実行することなく、テーブルは最新の状態を保ちます。実用的な注意点として、データセットの生成には2〜5分かかります。エージェントは実際にウェブリサーチを行い、ページを検索し、取得し、データを検証します。これは瞬時の結果ではありません。
マルチエージェントアーキテクチャの仕組みは具体的に理解する価値があります。BigSetは、ウェブ検索ツールが付属した単一の文章を書くAIの呼び出しではありません。構造化された二層のエージェントシステムを運用しています。ステップ1 — スキーマ推測:説明を提出すると、Claude Sonnet(OpenRouter経由でアクセス)がデータセットのスキーマを推測します。これには列名、データ型などが含まれます。