داده کاوی

کشف خودکار ونیمه خودکار دانش

داده کاوی

کشف خودکار ونیمه خودکار دانش

Overfitting

جمعه, ۵ مهر ۱۳۹۲، ۰۴:۳۳ ب.ظ
این نوشته گردآوری نوشته های پراکنده پیرامون Overfitting است که با گشت و گذاری در وب به دست آورده ام. لب مطلب این بخش را از مطالبی که آقای دکتر سعید شیری به عنوان محتوای درس دانشگاهی انتشار داده اند گرفته ام.

تعریف:
برای فرضیه ای مثل h روی فضای فرضیه ای H دو نوع خطا وجود دارد.
  • خطا روی داده های آموزشی 
  • errortrain(h) 
  •   خطا روی کل داده های ممکن 
  • errorD(h)
می گوئیم برای فرضیه h عضو H روی داده های آموزشی Overfitting  رخ داده است، اگر فرضیه ای مثل h0 عضو H وجود داشته باشد که :
errortrain(h) < errortrain(h0) 
&
errorD(h) > errorD(h0)
یعنی فرضیه ای (یا مدلی) دیگر وجود دارد که  در استفاده واقعی و کاربری، از مدل ما بهتر است ولی بر روی داده های آموزشی بهتر نیست.

سرآغاز هر کار نام خداست

جمعه, ۲۵ مرداد ۱۳۹۲، ۱۲:۱۲ ب.ظ
به نام خدا
سلام
این جا را برای باز نشر یافته هایم در مورد داده کاوی راه انداخته ام. درنگاه آغازین و ناپخته با کارهایی که باید در این مقال به پایان برسانم، این ها به خاطرم می آید.
  • پخش مقالات بازگردان شده 
  • جمع آوری نوشتارهای پراکنده پیرامون چالش های اصلی داده کاوی
  • بررسی چالش ها و چیزهای درگیر با داده کاوی 
  • شناساندن دیگر پایگاه ها که به دید بنده کاربردی و خوب می آیند. تلاش میکنم که  گزینشی خوب در این باره داشته باشم تا دوستان گرام به سادگی با لب مطلب و مراجع اصلی آشنا شوند
  • ...
به هر روی  آغاز کار است و آینده بس نا پدید. امید که به یاری ایزد خواسته هایمان حسرت نشوند و آینده امان خیر و برکت باشد.