分散型データサイエンティストの事例

Posted on 7月 2, 2024

「データサイエンティスト」という職名が作られるずっと前から (Facebook で有能なデータアナリストを採用するために作られたとされる)、それほど派手ではないにせよ、この職務内容は存在していました。これは、ログインデータを見てコホート保持に関する質問に答える方法を知っているマーケティング組織の人々、またはプロキシサーバーのログを調べてどの従業員が内部脅威のリスクをもたらすか判断できる情報セキュリティ組織の人々でした。

その後、ビッグデータが登場し、それによって、知ることができること、そしてその結果として、データに基づいた意思決定が飛躍的に向上しました。しかし、すぐに予期せぬ結果も起こりました。データの量、速度、種類が増大するにつれて (内部脅威の専門家は、プロキシログのより大規模な部分を分析できるだけでなく、バッジスワイプデータと相関させることもできる)、データ分析ツールもそれとともに高度化しました。その結果、アナリストの高度化が求められました。

ここでデータサイエンティストの登場です。強力な Microsoft Excel はしばらくは対応できましたが、企業データの信頼できる情報源がスプレッドシートから構造化データベースに移行したため、最終的には SQL GUI と Python ターミナルに取って代わられました。これは大きな前進として称賛されましたが (実際そうでした)、意図しない結果の 1 つは、前述のマーケティングアナリストや情報セキュリティアナリストなどの主題専門家が、以前と同じように簡単に質問に答え、ビジネスユニットに関する決定を下す能力に付随的な損害を与えたことです。

言い換えれば、企業でビッグデータを活用するために必要な高度な技術によって、主題の専門知識と技術的な専門知識が二分されました。これは、初期のデータ分析ツールのウォークアップユーザビリティの欠如だけでなく、主題の専門家の技術力が突然不足したことによる結果でもありました。質問と回答は分裂し、前者はビジネスユニットに残り、後者は新興のデータサイエンス組織に移行しました。

過去20年間にアメリカの企業で働いた経験のある人なら、この世界とそのワークフローに十分慣れているでしょう。データチームにリクエストを送信します（「この広告を配信されたユーザーのうち、何パーセントが新しいモジュールを使用しましたか？」）、彼らはいくつかの明確な質問を返信します（「他の広告を配信されたユーザーを除外すべきでしょうか？」）、質問を少し絞り込みます（「まあ、広告が少なくとも1ヶ月間隔で掲載されていれば」）。到着予定時刻を教えてくれます（「この作業は一晩中実行します。結果は明日お知らせします」) 、そして翌朝、チャートや、さらには CSV が添付されたメールが届くのを心待ちにします。

これはうまくいくときはうまくいくが、返される結果にはさらなる分析が必要になることもある（「ああ、申し訳ありませんが、この広告をこれまで一度も見たことがないユーザーだけにこの広告を配信したいのです」）、あるいはもっとひどい場合は、翻訳のミスで、あなたが求めていたものと違うものになってしまうこともあります（「何かおかしいようです…広告が配信されたユーザー数よりも多くのユーザーがここにいます…もう一度確認してもらえますか？」）。

これらはどれも解決不可能なものではなく、作業は継続して行うことができます。ただし、さらに数回のサイクルと少しの苦労は必要です。人間は、試行錯誤の反復ループが迅速かつ直感的である場合に最もよく機能しますが、限られたコンテキストを持つ第三者が仲介する場合はそうではありません。Palantir (私がしばらく働いていた) などの数十億ドル規模の企業は、このギャップを埋めるために設立され、主題の専門家が迅速で直感的な Q&A ループを再現し、より迅速かつ情報に基づいた意思決定を促進できるように支援しています。彼らは大きな進歩を遂げましたが、その影響は必要なほど広範囲に及んでいません。

テクノロジー主導の世界に生きることの素晴らしい点の 1 つは、現状に慣れ始めた途端、足元の地面が再び動き始めることです。それが、私たちが現在いる地点だと私は考えています。AI はコンピューターサイエンスの研究室から頭を突き出し、非技術系の専門家に再びデータを使用できる能力を与えました。私たちはまだ、分厚い本の第 1 章の最初の段落にいるところなので、予測を立てるほど愚かではありません。今日の AI 搭載ツールは、巨大なエンタープライズウェアハウスとのやり取りの技術的な複雑さを抽象化し、専門家がビッグデータ時代以前のように質問したり回答したりできるようにしています。

新たな対話の形態は、ビジネスアナリストと自然言語で対話し、それをSQLに変換し、即座に回答とグラフを返し、アナリストが質問を微調整するのに合わせて繰り返し、決定を下すために必要なものが明らかになるまで繰り返すことができるAIエージェントです。興味深いことに、エージェントはアナリストのフィードバックから学習することができます。「いいえ、実際には返品なしで収益を計算します」組織内の他のすべてのアナリスト向けの分析に企業の知識を組み込み始めます。

私は、主題の専門知識と技術的な専門知識の分離が解消され、意思決定者が意思決定を行い企業価値を生み出すために必要な情報源と再び結びつくことに興奮し、楽観しています。誰もがデータサイエンティストになれば、誰もデータサイエンティストである必要はありません。

前の投稿

2024年に暗号通貨に投資するための最良の戦略

次の投稿

現代の SaaS における副操縦士: AI でユーザージャーニーを簡素化する方法