Excel の回帰はおそらく混乱しています。Python がそれを修正する方法は次のとおりです。

in tech

Excel やその他のスプレッドシートは、現代のビジネスの主力製品です。おそらく回帰関数を使用して、データ内の傾向線やその他の線形関係を見つけたことがあるでしょう。データに Python を使用すると回帰分析が大幅に強化される理由は次のとおりです。

Python はコードをデータから分離します

誤ってスプレッドシートを台無しにしてしまうことはもうありません。

Excel のようなスプレッドシートは便利で人気がありますが、実際のデータ分析に使用すると、間違った作業に間違ったツールを使用しているように感じることがあります。主な問題は、Excel ワークブック内でデータとそのデータに対する操作が絡み合っていることです。

回帰を実行したい場合は、スプレッドシート内の空き領域を探し、列をクリックしてドラッグし、結果をスプレッドシートに直接表示する必要があります。これは見た目が乱雑で、注意しないとデータが台無しになる可能性があります。

Python を使用すると、データを分析から分離して保存できます。スプレッドシートのデータをパンダに取り込み、そのデータに Pingoin または statsmodels を使用できます。この方法では、データや分析を台無しにするリスクが少なくなります。

Jupyter ノートブックは再現可能です

あなたがしたことを他の人も行うことができます(そしてあなたは思い出すことができます)

Seaborn での合計請求額とチップの散布図。

スプレッドシート データと回帰分析を混合する場合のもう 1 つの問題は、あなたが何をしようとしているのか、または実際にデータに対して何を実行したのかを同僚が把握するのが難しいことです。それには、数日、数週間、あるいは数か月後にスプレッドシートに戻ってきて、データをどう扱ったかを思い出そうと頭を悩ませている自分自身も含まれます。

Jupyter ノートブックはこの問題を解決します。これらは互いに分離されているため、データをロードしていくつかの分析を実行できます。回帰を実行してプロットを生成し、実行した正確なコードを確認できます。 Jupyter ノートブックで Python コードを実行できるだけでなく、分析を説明するために通常の書式設定をすべて使用して Markdown セルを作成することもできます。ノートブックを PDF などの他の形式にエクスポートすることもできます。

これにより、Jupyter には、スプレッドシート自体には欠けている透明性が与えられます。これが、Jupyter ノートブックが科学技術コンピューティングとデータ サイエンスの分野で非常に人気がある理由です。

必要に応じて、より高度なモデルを実行できます

なぜ単純な線形回帰で終わるのでしょうか?

Pingoin ライブラリを使用した Python の二次回帰。

標準の独立変数または x 変数と従属変数または y 変数を使用した単純な線形回帰は Excel でも十分簡単ですが、より高度な回帰手法を使用したい場合は、Python の方がはるかに合理的です。

Excel やその他のスプレッドシートでは、複数の独立変数などの重回帰を使用できますが、複数の列をクリックしてドラッグする必要があります。たとえば、statsmodels へのライブラリ呼び出しでこれを行うには、十分な Python の知識が必要かもしれませんが、クリックしてドラッグするよりも簡単だと思います。

たとえば、レストランの顧客のデータセットから、パーティーの規模と請求総額がレストランでのチップに関係があるかどうかを確認したい場合は、Python で次のコードを実行できます。

results = smf.ols('tip ~ total_bill + size',data=tips).fit()
results.summary()

このコードは、R によって普及した数式スタイルを使用しています。

並べてプロットされたトレーニング セットとテスト セットのヒント回帰プロット。

必要に応じて、scikit-learn で使用されるような高度な機械学習ルーチンを実行することもできます。

出版物品質のビジュアライゼーション

あなたの作品を目立たせる

多くの人は、回帰直線が描かれた標準的な散布図に慣れています。これらは、Excel や LibreOffice などのスプレッドシート プログラムで簡単に生成できます。どこにでもあるものですが、見た目に特徴があるように思います。それは私にとって必ずしも良いことではありません。

幸いなことに、ほぼ出版品質のプロットを生成するのは簡単で、次のレポートやプレゼンテーションを目立たせるのに役立ちます。

レストランのヒントの例に戻りましょう。請求総額とチップの関係を示したいと思います。このコードは Seaborn で回帰をプロットし、タイトルを調整して読みやすくします。

import seaborn as sns
sns.set_theme()
sns.regplot(x='total_bill',y='tip',data=tips)
plt.title("Tip vs. total bill in a New York City restaurant")
plt.xlabel("Total bill (USD)")
plt.ylabel("Tip (USD)")
plt.show()
ラベルを変更したヒント対請求回帰および散布図。

これにより、回帰直線が描かれた散布図が表示されますが、ほとんどのスプレッドシート プログラムよりも見栄えの良いデフォルトのテーマが表示されます。

さらに良いことに、グラフ ウィザード内でクリックしてドラッグするだけよりも透明性が高くなります。このコードを Jupyter ノートブックに配置すると、そのコードを同僚にどのように実行したかを示すことができるだけでなく、後で同様の回帰をいつ実行するかを覚えておくこともできます。

両者の間でデータを交換できます

業務に適したツールを使用する

Python を使用してスプレッドシート データに対して回帰を実行することが合理的である理由の 1 つは、Python とスプレッドシートの間でデータを交換するのが簡単であるためです。

pandas ライブラリは、次を使用して Excel ファイルを処理できます。 read_excel() 関数:

import pandas as pd

pd.read_excel('very_important_data.xls')

非常に一般的な CSV 形式も読み取ります。

pd.read_csv('data.csv')

これらのコマンドはデータを「DataFrame」にインポートし、そこで回帰の実行などの Python での作業を行います。 DataFrame を他の形式で保存し直すこともできます。これは、パンダを使用してデータを「クリーン」し、重複値や欠損値を削除する場合に便利です。

pd.to_csv('cleaned_data.xls')

これにより、Excel と Python の両方の長所を利用できるようになります。データの入力と書式設定には Excel を使用し、回帰分析の作成には Python を使用できます。


Excel も便利ですが、より高度な回帰分析が必要な場合は、Python が必要なツールになります。

OS

Windows、macOS、iPhone、iPad、Android

ブランド

マイクロソフト

価格

100ドル/年

開発者

マイクロソフト

無料トライアル

1ヶ月

Microsoft 365 には、最大 5 台のデバイスで Word、Excel、PowerPoint などの Office アプリ、1 TB の OneDrive ストレージなどへのアクセスが含まれています。


関連情報は以下のリンクからご確認いただけます

詳しい情報を見る

関連記事

前の投稿
Windows でごみ箱にファイルを強制的に作成すると、次のようになります。
次の投稿
トヨタは他の企業のようにEVを追いかけることを拒否し、長期戦に勝利した