همبستگی - وقتی R پیرسون کافی نیست

ساخت وبلاگ

ما با عبارت "همبستگی دلالت بر علت علیت ندارد" بسیار آشنا هستیم ، اما اجازه می دهیم یک مثال واقعی را درک کنیم تا بفهمیم چه پیامدهایی با همبستگی گیج کننده با علیت می تواند داشته باشد. در فوریه 1998 ، مقاله ای منتشر شد که ادعا می کند ارتباط علّی بین واکسن های خاص و اوتیسم در کودکان وجود دارد. این مقاله بعداً کلاهبرداری شد و در سال 2010 پس گرفت. فقط می توان پیامدهای چنین ادعایی را در مورد زندگی کسانی که بر اساس یافته های این مقاله واکسینه نشده بودند ، تصور کرد که همبستگی به دلیل علت ایجاد شده است.

در این پست ، ما می خواهیم نگاهی دقیق تر به همبستگی بیندازیم تا بهتر درک کنیم که چیست. ما می آموزیم که بر اساس نوع متغیرهای مورد مطالعه ، روش همبستگی توصیه شده برای استفاده چیست. سرانجام ، ما برخی از متداول ترین روش ها را در یک محیط پایتون پیاده سازی خواهیم کرد.

با پیوند ارجاع من به رسانه بپیوندید - Farzad Mahmoodinobar

هر داستان را از Farzad (و سایر نویسندگان در رسانه) بخوانید. هزینه عضویت شما به طور مستقیم از فرزاد و سایر موارد پشتیبانی می کند ...

همبستگی چیست؟

همبستگی یک اندازه گیری آماری از رابطه (یا ارتباط) بین دو متغیر مورد علاقه است. این جهت و قدرت چنین رابطه ای را با استفاده از "ضریب همبستگی" تعیین می کند. بیایید آنچه را که ما از نظر مفهومی باید در مورد ضریب همبستگی بدانیم تجزیه کنیم:

  • دامنه و جهت: دامنه ضریب همبستگی (تقریباً همیش ه-ما در مورد استثنائات صحبت خواهیم کرد) ا ز-1 تا 1 ، شامل هر دو. مثبت و منفی مبتنی بر جهت رابطه بین این دو است.
  • تفسیر: مقدار 1 به این معنی است که بین دو متغیر همبستگی مثبت کاملی وجود دارد (یعنی با افزایش یک ، دیگری همان مقدار را افزایش می دهد و برعکس). از طرف دیگر ، مقدا ر-1 به این معنی است که بین این دو ارتباط کامل اما منفی وجود دارد (یعنی با افزایش یک ، دیگری همان مقدار را کاهش می دهد و برعکس). همبستگی 0 به این معنی است که با تغییر یک متغیر ، دیگری بدون تغییر باقی می ماند.
  • اندازه گیری: بیش از یک راه برای اندازه گیری همبستگی وجود دارد. ما در این پست به روشهای مختلف اندازه گیری خواهیم پرداخت.

اکنون که ما با آنچه همبستگی دارد آشنا هستیم ، اجازه دهید به روشهای مختلف محاسبه همبستگی شیرجه بزنیم.

(همه تصاویر ، مگر اینکه به طور دیگری ذکر شده باشد ، توسط نویسنده است.)

مقایسه کلی روشهای همبستگی

جدول زیر یک مرور کلی و مقایسه روش های مختلف همبستگی را ارائه می کند که در این پست درباره آن ها بحث خواهیم کرد. این جدول یک مرجع عالی برای استفاده در آینده است.

بیایید این متدولوژی ها را با جزئیات بیشتری مورد بحث قرار دهیم.

مجموعه داده ها

به منظور اجرای برخی از روش های همبستگی، از مجموعه داده ای از مخزن یادگیری ماشین UCI (CC BY 4. 0) استفاده خواهیم کرد که شامل قیمت خودرو و مجموعه ای از ویژگی های خودرو مرتبط با قیمت هر خودرو است. من داده ها را پاک و فیلتر کردم که از این لینک قابل دانلود است. برای برخی از روش های همبستگی، به بررسی همبستگی بین قیمت خودرو و اندازه موتور یا نوع سوخت خودرو خواهیم پرداخت. برای بقیه روش ها، ما مجموعه داده های کوچکی را در محل برای پیاده سازی ایجاد خواهیم کرد.

بیایید داده های خودرو را در یک دیتافریم پاندا وارد کنیم و سپس قیمت و اندازه موتور را در یک نمودار پراکنده تجسم کنیم تا ارتباط بصری بین این دو متغیر را بهتر درک کنیم.

# واردات کتابخانه هاnumpy را به عنوان np وارد کنیدپانداها را به صورت PD وارد کنیدواردات دریایی به عنوان snsاز آمار واردات اسکیپیmatplotlib. pyplot را به صورت plt وارد کنید%matplotlib درون خطی# داده ها را بخوانیدdf = pd. read_csv('auto-cleaned. csv')# Scatterplot را ایجاد کنیدsns. regplot(داده = df، x = 'قیمت'، y = 'اندازه موتور'، fit_reg = نادرست، رنگ = 'بنفش')# برای محورهای X و Y برچسب اضافه کنیدplt. xlabel ("قیمت")plt. ylabel ("اندازه موتور")plt. show()

Scatterplot نشان می دهد که با افزایش قیمت ها، اندازه موتور افزایش می یابد. بنابراین انتظار داریم همبستگی مثبت باشد. بیایید ببینیم آیا محاسبه این را پشتیبانی می کند یا خیر.

روش های محاسبه همبستگی

1. ضریب همبستگی پیرسون

این پرکاربردترین همبستگی است. ضریب همبستگی پیرسون (PCC) که با نام پیرسون r نیز شناخته می شود، معیاری از همبستگی خطی بین دو متغیر است. همانطور که از تعریف نشان می دهد، این روش یک رابطه خطی بین دو متغیر را فرض می کند و بنابراین برای روابط غیر خطی مناسب نیست. این همبستگی همچنین فرض می کند که متغیرها تقریباً به طور معمول توزیع شده اند.

از نظر ریاضی می توان آن را به صورت زیر محاسبه کرد:

1. 1. ضریب همبستگی پیرسون - پیاده سازی

خوشبختانه ما مجبور نیستیم خودمان این را به صورت ریاضی محاسبه کنیم. بیایید از پایتون برای محاسبه r پیرسون بین قیمت و اندازه موتور در مجموعه داده خود استفاده کنیم.

# r پیرسون را محاسبه کنیدstats. pearsonr(df['price'], df['engine-size'])

"آمار" از~0. 89 ضریب همبستگی است که ما به دنبال آن بودیم. همانطور که انتظار داشتیم ، یک ارتباط مثبت (و نسبتاً قوی) بین این دو وجود دارد."pValue" نتیجه آزمون فرضیه تهی است که توزیع داده های ارائه شده با هم مرتبط و به طور عادی توزیع می شود. مقدار p در این مثال تعداد بسیار کمی است ، به این معنی که می توانیم فرضیه تهی را رد کنیم (یعنی همبستگی وجود دارد).

2. ضریب همبستگی Spearman

همچنین به عنوان Spearman شناخته می شود (به عنوان "Rho" می خواند) اندازه گیری همبستگی رتبه بین دو متغیر است ، که اندازه گیری می کند که چگونه رابطه بین دو متغیر را می توان با یک عملکرد یکنواخت توصیف کرد. از نظر مفهومی ، این بسیار ساده تر از آن است که به نظر می رسد ، هنگامی که "همبستگی رتبه" و "عملکرد یکنواخت" را تعریف کردیم.

  • همبستگی رتبه: همبستگی رتبه شباهت ترتیب دو مجموعه داده را نسبت به یکدیگر اندازه گیری می کند (به یاد بیاورید که PCC به طور مستقیم رتبه نسبی را اندازه گیری نمی کند).
  • عملکرد یکنواخت: یک تابع یکنواخت نامیده می شود اگر و فقط اگر ترتیب داده شده از آرگومان های خود را حفظ کند - به عبارت دیگر ، این عملکرد همیشه با افزایش مقادیر ورودی افزایش می یابد یا همیشه کاهش می یابد (که دقیقاً مانند همبستگی به نظر می رسد). بین یک رابطه یکنواخت و یک رابطه خطی تمایز قائل است. رابطه خطی یک نوع خاص از رابطه یکنواخت است که در آن میزان افزایش ثابت باقی می ماند - به عبارت دیگر ، بر خلاف یک رابطه خطی ، میزان تغییر (افزایش یا کاهش) در یک رابطه یکنواخت می تواند متفاوت باشد.

از نظر ریاضی ، و هنگامی که همه رده های N عدد صحیح هستند ، به شرح زیر محاسبه می شود:

2. 1ضریب همبستگی رتبه Spearman - اجرای

بیایید ببینیم که چگونه می توان این کار را در پایتون برای همان دو متغیر قیمت و اندازه موتور محاسبه کرد.

# Rho Spearman را محاسبه کنیدstats. spearmanr (df ['price'] ، df ['اندازه موتور'])

همانطور که انتظار می رود ، نتایج بسیار شبیه به R پیرسون است.

3. تاو کندال

تاو کندال ، با مشخصات اخبار رمز ارزها...

ما را در سایت اخبار رمز ارزها دنبال می کنید

برچسب : نویسنده : علی‌محمد افغانی بازدید : 33 تاريخ : يکشنبه 12 شهريور 1402 ساعت: 19:29