ClearStory CEO:Apache Sparkがどのようにして平均的なJoeに分析をもたらすのか

データ分析の誤用は、文書化されています。データは整理されています。堅実な見解をバックアップしたり、小企業内で選択的に使用されたり、単に誤って解釈されたりします。

シリコンバレーのスタートアップClearStory DataのCEOであるSharmila Mulligan氏によれば、正しく行われたとしても、妥当な仮説と厳格なテストの後に、従来のアプローチは、それを採用している企業にとっては短期間になることがあります。

これらの欠点は、従来の分析が狭すぎて、複数の情報源から来る多様なデータの量を交渉することができないか、少なくとも十分に迅速に対応できないことが原因である可能性があります。

「あなたのこの全体的な考え方は、仮説や直感でデータを見て、ビジネスがそのようにして苦しんだ後、ビジネスにそのビューやダッシュボードを強制しようとし続けます」と彼女は言いました。

Apache Spark:Hortonworksがメモリ内のエンジンを狙う方法、IBMのチャンピオン、巨大なデータ、TEDサミットの医療を変えるオープンソース、大きなデータ:まだセキュリティの不安に悩まされていますが、ヨーロッパの追いつき、大きなデータ伝道者再教育キャンプに送られた

彼らは文字通りトップライン・ナンバーがなく、競争の脅威がなく、見通しが制約されているため、あらゆる種類のものが失われています。伝統的な分析ソリューションは、ボリュームやそのような種類のデータに対して実際には設計されていません。

2011年後半にClearStoryを共同設立したMulligan氏は、データアナリティクスでは現在2つのアプローチが並行して実行されていると述べています。

「データ科学者が行う長期的な分析があります。何かを実際に検討する前に、異常とパターンを探すために長期間にわたって分析しなければならないものがあります。

大規模なデータ分析が容易に行えるとは誰も想像することはできませんが、技術の実装に伴う問題の程度は、人が考えるよりも広いかもしれません。

それはデータ科学者の問題です。「観察し、観察し、モデルを実行し、別のモデルを実行してください。それはあなたが6か8か月の間何も締め切っていない分析かもしれません。しかし、あなたが最後に締めくくっていることは、すばらしい発見かもしれません。

一方で、Mulliganは高速サイクルの統合データ分析と呼んでいます。これは、毎日のデータを分析できるということです。彼女の見解では、企業はデータソースを定期的に購入して自分自身を増強し、それを利用する人材と技術のリソースが不足しているということです。

ビッグデータ分析、Big Data Analytics、DataRobotはデータサイエンスの欠点を自動化することを目指している、Big Data Analytics、MapR創設者のJohn Schroederが辞任し、交換するCOO

彼女の会社は、Apache Sparkオープンソース・データ分析クラスタ・フレームワークに基づくバックエンド・システムと、最大24の内外のデータ・ソースの上に位置するフロントエンド・アプリケーションを提供しています。先週、ClearStoryはCollaborative StoryBoardsクラウドサービスを発表しました。

まず、バックエンドエンジンはデータの推論とプロファイリングを行い、データの調和のためのディメンションとセマンティクスを特定し、データソース間の関係を特定します。

その時点で、ブレンドされ調和されたデータがフロントエンドアプリケーションを通じてユーザーに提示されます。追加のモデリングを必要とせずに、より多くのデータを追加することもできます。

「これは、コラボレーションが起こる場所です。長いサイクルのデータ科学者の話によると、6ヶ月または3ヶ月に一度パワーポイントで誰かを送っても問題ありませんが、日中や日常を見るときは人々が一貫性のない見方をしていることに余裕はない」と述べた。

ビッグデータプロジェクトを運営する技術はより多くの企業に開放されているかもしれないが、スキルの欠如と企業の本能に対する企業の好みによって進歩は妨げられている。

フロントエンドのアプリを通じてさまざまな人々を組織全体に集め、これらの洞察をリアルタイムに共同作業することで、彼らはそれまでには到達できなかった観察に到達することができます。これらの伝統的な厳格な制約のないビューは使用しないでください。

このアプローチには、最終的にデータを消費し分析する従業員と、この特定の定期分析にどのソースを使用するか、データがリポジトリにあるか外部フィードかシンジケートフィードかを判断するデータ管理者の2種類のユーザーが含まれます。

「ほとんどのユーザーはビジネスフロントラインのユーザーで、ミドルオフィスやフロントオフィスのユーザーでも、ビジネス上の問題やビジネス上の問題を抱えており、より深く探求できるようにするための洞察を探しているユーザーです答えに、 “彼女は言った。

バックエンドとデータ調和の仕方については、Sparkの周りに構築したIPに多くの投資をしました。私たちはバークレーのプロジェクトであったときにスパークに携わり、スパークのヘッドは顧問です。非常に高速な前後分析を可能にするために、Sparkに多くを投入しました。データをすべて効率的なメモリ内のレイヤーに置かないと、実行できないためです。

Mulligan氏によると、ClearStoryの技術は、特に消費者向けパッケージ製品、メディア、エンターテイメント、医療、小売などの企業によって取り上げられているという。

「店舗の閉鎖率向上に寄与する要因は、顧客サービスの問題から、駐車場がいっぱいになっているため、店舗に入る人が少なく、部署別に歩き回り、マーチャンダイジングに至るまで、さまざまなデータ信号があります。近い金利に貢献すると思う典型的なこと以外の多くの要因がある」と彼女は語った。

ビッグデータのコンセプトに熱心でも、新しいものもほとんど含まれていないと思っても、間違いなく誤解されていることは間違いありません。

食料品会社ダノンのような企業には、販売時点管理会社からの売上高が減少したことを検出すると、潜在的なサプライチェーンの問題を検討している多くの人々がいる。

“彼らは、サプライチェーン全体にわたるすべてのデータを持っていることを理解することは、それが販売可能性の問題であるかどうか、在庫が到着しなかったかどうかです。競争相手が価格を10セント下げたからです。しかし、それは棚に座っている? Mulliganは言った。

ユーザーガバナンスは重要な問題であり、データ管理者や専門家は、ユーザーがレポートラインをさらに下回って楽しむ人々とは異なる権利を与えられています。

「データストーリーの一部であり、更新されたものを見ることができる適切なユーザー権限を持つこの能力は、非常に強力なものです。多くの企業が、経営陣が、遅れていた6つのダッシュボードや間違ったことを解釈したり、ITがダッシュボードをどう設定しているかの制約のために洞察を見ていなかった」

このすべてがよりリアルタイムで協調的になり、必要なすべての人々が見ることができます。それは、人と人の間でデータや情報がどのようにやりとりされるかという非常に厳しい方法がある場合に起こる欠けている情報をすべて取り除きます。

LinkedInが新しいブログプラットフォームを発表

これはBig OLAPの時代ですか?

DataRobotは、データサイエンスの果実を自動化することを目指しています

MapRの創設者John Schroederが辞任し、COOが辞任

ビッグデータ