تحلیل مولفههای اصلی (Principal Component Analysis - PCA) تبدیلی در فضای برداری است، که غالباً برای کاهش ابعاد مجموعهٔ دادهها مورد استفاده قرار میگیرد.
تحلیل مولفههای اصلی در سال ۱۹۰۱ توسط کارل پیرسون
[۱] ارائه شد. این تحلیل شامل تجزیه مقدارهای ویژهٔ ماتریس کواریانس میباشد.




جزئیات

تحلیل مولفههای اصلی در تعریف ریاضی
[۲]یک تبدیل خطی متعامد است که داده را به دستگاه مختصات جدید میبرد به طوری که بزرگترین واریانس داده بر روی اولین محور مختصات٬ دومین بزرگترین واریانس بر روی دومین محور مختصات قرار میگیرد و همین طور برای بقیه. تحلیل مولفههای اصلی میتواند برای کاهش ابعاد داده مورد استفاده قرار بگیرد، به این ترتیب مولفههایی از مجموعه داده را که بیشترین تاثیر در واریانس را دارند حفظ میکند. برای ماتریس داده XT با میانگین تجربی صفر، که هر سطر یک مجموعه مشاهده و هر ستون دادههای مربوط به یک شاخصه است، تحلیل مولفههای اصلی به صورت زیر تعریف میشود:

  • YT = XYW = VΣ

به طوری که VΣWTتجزیه مقدارهای منفرد ماتریس XT میباشد.
محدودیتهای تحلیل مولفههای اصلی

استفاده از تحلیل مولفههای اصلی منوط به فرضهایی است که در نظر گرفته میشود. از جمله:

  • فرض خطی بودن

ما فرض می کنیم مجموعه داده ترکیب خطی پایههایی خاص است.
  • فرض بر این که میانگین و کواریانس از نظر احتمالاتی قابل اتکا هستند.
  • فرض بر این که واریانس شاخصه اصلی داده است.

محاسبه مولفههای اصلی با استفاده از ماتریس کواریانس

بر اساس تعریف ارائه شده از تحلیل مولفههای اصلی، هدف از این تحلیل انتقال مجموعه داده X با ابعاد M به داده Y با ابعاد L است. بنابرین فرض بر این است که
ماتریس X از بردارهای تحلیل مولفه های اصلی چیست ؟ تشکیل شده است که هر کدام به صورت ستونی در ماتریس قرار داده شده است. بنابرین با توجه به ابعاد بردارها (M) ماتریس دادهها به صورت تحلیل مولفه های اصلی چیست ؟ است.
محاسبه میانگین تجربی و نرمال سازی دادهها

نتیجه میانگین تجربی٬ برداری است که به صورت زیر به دست میآید:

  • تحلیل مولفه های اصلی چیست ؟

که به طور مشخص میانگین تجربی روی سطرهای ماتریس اعمال شده است.
سپس ماتریس فاصله تا میانگین به صورت زیر به دست میآید:

  • B = Xuh

که h برداری با اندازه تحلیل مولفه های اصلی چیست ؟ با مقدار ۱ در هرکدام از درایهها است.
محاسبه ماتریس کواریانس

ماتریس کواریانس C با ابعاد تحلیل مولفه های اصلی چیست ؟ به صورت زیر به دست میآید:

  • تحلیل مولفه های اصلی چیست ؟
    به طوری که: تحلیل مولفه های اصلی چیست ؟
    میانگین حسابی است. تحلیل مولفه های اصلی چیست ؟ ضرب خارجی است. تحلیل مولفه های اصلی چیست ؟ ماتریس ترانهاده مزدوج ماتریس B است.

محاسبه مقادیر ویژه ماتریس کواریانس و بازچینی بردارهای ویژه

در این مرحله،
مقادیر ویژه و بردارهای ویژه ماتریس کواریانس، C، به دست میآید.
  • V − 1CV = D

V ماتریس بردارهای ویژه و D ماتریس قطری است که درایههای قطر آن مقادیر ویژه هستند. آنجنان که مشخص است٬ هر مقدار ویژه متناظر با یک بردار ویژه است. به این معنا که ماتریس V ماتریسی تحلیل مولفه های اصلی چیست ؟ است که ستونهای آن بردارهای ویژه میباشند و بردار ویژه Vq در ستون qام قرار دارد و مقدار ویژه qام یعنی درایهٔ λq = Cq,q متناظر با آن است. بازچینی بردارهای ویژه بر اساس اندازهٔ مقادیر ویژه متناظر با آنها صورت میگیرد. یعنی بر اساس ترتیب کاهشی مقادیر ویژه، بردارهای ویژه بازچینی میشوند. یعنی تحلیل مولفه های اصلی چیست ؟
انتخاب زیرمجموعهای از بردارهای ویژه به عنوان پایه

تحلیل مولفه های اصلی چیست ؟ تحلیل مقادیر ویژه ماتریس کواریانس


انتخاب زیرمجموعهای از بردارهای ویژه با تحلیل مقادیر ویژه صورت میگیرد. زیرمجموعه نهایی با توجه به بازچینی مرحله قبل به صورت تحلیل مولفه های اصلی چیست ؟ انتخاب میشود. در اینجا میتوان از انرژی تجمعی استفاده کرد که طبق آن

  • تحلیل مولفه های اصلی چیست ؟

انتخاب l باید به صورتی باشد که حداقل مقدار ممکن را داشته باشد و در عین حال g مقدار قابل قبولی داشته باشد. به طور مثال میتوان حداقل l را انتخاب کرد که
  • تحلیل مولفه های اصلی چیست ؟

بنابرین خواهیم داشت:
  • تحلیل مولفه های اصلی چیست ؟

انتقال داده به فضای جدید

برای این کار ابتدا تبدیلات زیر را انجام می دهیم: ماتریس
sM,1 انحراف معیار مجموعه داده است که میتواند به صورت زیر به دست بیاید:
  • تحلیل مولفه های اصلی چیست ؟

سپس داده به صورت زیر تبدیل میشود:
  • تحلیل مولفه های اصلی چیست ؟'

که ماتریسهای C و B در بالا توضیح داده شده اند. دادهها میتوانند به ترتیب زیر به فضای جدید برده شوند:
  • تحلیل مولفه های اصلی چیست ؟

نرم افزارها

  • در MATLAB تابع princomp مولفههای اصلی را باز می گرداند.
  • Computer