ビッグデータ vs サンプリングはよくある構図ですが、現時点での自分なりの理解をまとめます。
正直、勉強不足は否めません。
スポンサーリンク
当然のことながら目的や仮説ありきで、サンプリングで実現できるのなら、ビッグデータ解析はノイズの排除から始まるので非効率。
確度の低い仮説ならサンプリング分析したときに失敗する可能性があって、想定していないファクトを発見するためにビッグデータは有用。
というかその場合、わざわざビッグデータと呼ぶ必要は無いのかもしれないですね。
ビッグデータ = 大量のデータなのであれば、ノイズの取り扱い方、その定義が無い限り、混乱するだけ。
結局大量のデータから何らかの法則を見出すとしても、何らかの抽出ロジックが必要なのではないでしょうか?
とりあえず具体性が無いので説得力ナシ!