r² یا r² - چه موقع از چه چیزی استفاده کنید

ساخت وبلاگ

توضیح گرافیکی از ضریب همبستگی پیرسون مربع و ضریب تعیین برای کمک به شما در مشخص کردن دروغ های آماری

تفاوت بین ضریب همبستگی پیرسون و ضریب تعیین. تصویر توسط نویسنده.

این را تصویر کنید- شما یک تحلیلگر سهام هستید که مسئولیت پیش بینی قیمت سهام والمارت را پیش از گزارش سه ماهه درآمد خود دارید. شما درست وقتی که دانشمند داده شما در حال کار است ، سخت کار می کنید و می گویند که آنها یک جریان داده کمی شناخته شده را کشف کرده اند که روزانه پارکینگ والمارت را فراهم می کند که به نظر می رسد با درآمدهای تاریخی والمارت ارتباط دارد. شما به طور واضح هیجان زده هستید. شما از آنها می خواهید که از داده های پارکینگ در کنار سایر معیارهای استاندارد در یک مدل یادگیری ماشین استفاده کنند تا قیمت سهام والمارت را پیش بینی کنند.

دانشمند داده طی چند ساعت باز می گردد و ادعا می کند که پس از اعتبار سنجی دقیق مدل ، پیش بینی های آن به شدت با قیمت سهام واقعی ارتباط دارد. آیا این مدل را بدون هیچ گونه تحقیقات بیشتر می پذیرید؟

c orrelations برای شناسایی الگوهای در داده ها مناسب است ، اما تقریباً برای تعیین عملکرد یک مدل ، به ویژه برای مدل های پیچیده (مانند مدل های یادگیری ماشین) تقریباً بی معنی است. این امر به این دلیل است که همبستگی ها فقط می گویند که دو چیز از یکدیگر پیروی می کنند (به عنوان مثال ، پارکینگ اشغال و سهام والمارت) ، اما نگویید که چگونه آنها با یکدیگر مطابقت دارند (به عنوان مثال ، قیمت سهام پیش بینی شده و واقعی). برای این کار ، معیارهای عملکرد مدل مانند ضریب تعیین (R²) می توانند کمک کنند.

در این مقاله ، ما یاد خواهیم گرفت:

  1. ضریب همبستگی (R) و مربع آن (R ²) چیست؟
  2. ضریب تعیین (R ²) چیست؟
  3. چه زمانی از هر یک از موارد فوق استفاده کنیم؟

1. ضریب همبستگی: "این پیش بینی کننده چقدر خوب است؟"

ضرایب همبستگی به تعیین کمیت روابط متقابل یا ارتباطات بین دو چیز کمک می کند. برخی از مقادیر همبستگی مشهور وزن و قد انسان ، ارزش خانه و منطقه آن است و همانطور که در مثال بالا دیدیم ، درآمد یک فروشگاه و اشغال پارکینگ آن است.

یکی از ضرایب همبستگی پرکاربرد ، ضریب همبستگی پیرسون (معمولاً توسط R مشخص می شود). از نظر گرافیکی ، این را می توان به عنوان "داده ها به خط بهترین تناسب نزدیک دانست؟"

  1. اگر امتیازات بسیار دور باشد ، R نزدیک به 0 است
  2. اگر نقاط بسیار نزدیک به خط باشند و خط به سمت بالا شیب داشته باشد ، R نزدیک به 1+ است
  3. اگر نقاط بسیار نزدیک به خط باشند و خط به سمت پایین شیب داشته باشد ، R نزدیک به 1 است

توجه کنید که چگونه شکل بالا دارای اعداد گمشده در محورها است؟به این دلیل که ضریب همبستگی پیرسون مستقل از بزرگی اعداد است. فقط به تغییرات نسبی حساس است. این ویژگی معمولاً مطلوب است زیرا متغیرها به ندرت دارای مقادیر یکسان هستند. به عنوان مثال، قیمت سهام والمارت ده ها دلار است در حالی که تعداد خودروهای پارک شده در مقابل فروشگاه های آن به هزاران می رسد.

با این حال، به دلیل عدم حساسیت آن به بزرگی واقعی، ضریب همبستگی پیرسون می تواند برای ایجاد حس اطمینان کاذب در زمانی که انتظار می رود دو چیز واقعاً اندازه یکسانی داشته باشند، سوء استفاده شود.

بدتر از همه، برخی افراد مجذور ضریب همبستگی پیرسون را بین 0 و +1 می گیرند و آن را r² می نامند. اما این را نباید با ضریب تعیین (R²) که در زیر توضیح داده شده اشتباه گرفت.

2. ضریب تعیین: "این مدل چقدر خوب است؟"

برخلاف ضریب همبستگی پیرسون، ضریب تعیین میزان تطابق مقادیر پیش بینی شده با مقادیر مشاهده شده را اندازه گیری می کند (و نه فقط دنبال می کنند). این بستگی به فاصله بین نقاط و خط 1:1 (و نه خط مناسب) همانطور که در بالا نشان داده شده است. هرچه داده ها به خط 1:1 نزدیک شوند، ضریب تعیین بالاتر است.

ضریب تعیین اغلب با R2 نشان داده می شود. با این حال، مربع هیچ چیز نیست. می تواند از هر عدد منفی تا 1+ باشد.

  1. R² = +1 نشان می دهد که پیش بینی ها کاملاً با مشاهدات مطابقت دارند
  2. R² = 0 نشان می دهد که پیش بینی ها به اندازه حدس های تصادفی در اطراف میانگین مقادیر مشاهده شده خوب هستند.
  3. R2 منفی نشان می دهد که پیش بینی ها بدتر از تصادفی هستند

از آنجایی که R2 فاصله نقاط را از خط 1:1 نشان می دهد، به بزرگی اعداد بستگی دارد (برخلاف r²).

3. چه زمانی از چه چیزی استفاده کنیم؟

ضریب همبستگی پیرسون (r) برای شناسایی الگوها در چیزها استفاده می شود در حالی که ضریب تعیین (R²) برای شناسایی قدرت یک مدل استفاده می شود.

با گرفتن مجذور r، ضریب همبستگی پیرسون مجذور (r 2) را به دست می آورید که کاملاً با ضریب تعیین (R2) متفاوت است، به جز در موارد بسیار خاص رگرسیون خطی (زمانی که هر دو خط خاکستری از شکل های بالا با هم ادغام می شوند. معادل سازی خطوط آبی و نارنجی).

بنابراین، ضریب همبستگی پیرسون یا مربع آن به ندرت باید برای ارزیابی عملکرد یک مدل استفاده شود. این با استفاده از 3 مثال در شکل زیر توضیح داده شده است.

  1. مدل 1: R² = 0. 99 نشان می دهد که تقریباً قیمت سهام را پیش بینی می کند.
  2. مدل 2: R² = 0. 59 نشان می دهد که قیمت سهام را ضعیف پیش بینی می کند. با این حال ، اگر فقط به R ² نگاه می کردید ، بیش از حد خوش بین بودید. این نوع پیش بینی مغرضانه در مدل های یادگیری ماشین بسیار متداول است. بنابراین مهمتر از این است که پیش بینی های خود را تجسم کنید نه اینکه فقط آنها را با استفاده از آمار خلاصه کنید.
  3. مدل 3: R² = - 0. 98 نشان می دهد که این بدتر از حدس زدن به طور تصادفی قیمت سهام در حدود 50 دلار است. اما اگر تازه به R ² نگاه کرده بودید ، ممکن است تمام پول خود را از دست داده باشید! نکته جانبی: باور کنید یا نه ، پیش بینی سهام بر خلاف روندهای واقعی کاملاً متداول است. همچنین باعث شده است که یک زمینه کاملاً جدید به نام سرمایه گذاری Contrarian ایجاد شود.

بازنگری کردن

  1. همبستگی برای یافتن الگوهای و روابط در داده ها مفید است اما برای ارزیابی پیش بینی ها عمدتاً بی فایده است.
  2. برای ارزیابی پیش بینی ها ، از معیارهایی مانند ضریب تعیین استفاده کنید که پیش بینی های خوبی را با مشاهدات مطابقت می دهد ، یا اینکه چه میزان از تغییر در داده های مشاهده شده توسط پیش بینی ها توضیح داده می شود.
  3. ضریب همبستگی پیرسون مربع معمولاً برابر با ضریب تعیین نیست (یا r ² ≠ r²)

اگر می خواهید یک توضیح ریاضی در مورد تفاوت بین R ² و R² ، این مقاله عالی توسط Deepak Khandelwal را بررسی کنید.

بهترین استراتژی معاملات...
ما را در سایت بهترین استراتژی معاملات دنبال می کنید

برچسب : نویسنده : صدرا ذوالریاستین بازدید : 49 تاريخ : سه شنبه 22 فروردين 1402 ساعت: 19:01