データの調査

edit

サンプルデータセット

edit

基本についてざっと説明しました。より現実的なデータセットを扱ってみましょう。顧客の銀行口座情報に関する架空のJSONドキュメント例を用意しました。各ドキュメントには、次のスキーマがあります。

{
    "account_number": 0,
    "balance": 16623,
    "firstname": "Bradshaw",
    "lastname": "Mckenzie",
    "age": 29,
    "gender": "F",
    "address": "244 Columbus Place",
    "employer": "Euron",
    "email": "bradshawmckenzie@euron.com",
    "city": "Hobucken",
    "state": "CO"
}

このデータは www.json-generator.com/で生成しました。データはすべてランダムに生成されていますので、実際の値とセマンティックは無視してください。

サンプルデータセットの読み込み

edit

サンプルデータセット(accounts.json)は ここからダウンロードできます。ダウンロードしたファイルを現在のディレクトリに展開して、次のようにクラスタに読み込みます。

curl -H "Content-Type: application/json" -XPOST 'localhost:9200/bank/account/_bulk?pretty&refresh' --data-binary "@accounts.json"
curl 'localhost:9200/_cat/indices?v'

次のような応答が返ります。

health status index uuid                   pri rep docs.count docs.deleted store.size pri.store.size
yellow open   bank  l7sSYV2cQXmu6_4rJWVIww   5   1       1000            0    128.6kb        128.6kb

これは、1000個のドキュメントをbankインデックス(accountタイプの下)に正常に一括インデキシングしたことを示しています。