آموزش زبان با داستان انگلیسی
 
پایان نامه کاربرد مهندسی معکوس نرم افزار در تحلیل ویروسهای کامپیوتری

چکیده :

در صنعت نرم افزار ، مهندسی معکوس یعنی تکنیک های کالبد شکافی یک برنامه نرم افزاری و بررسی روابط درونی آن به منظور تکمیل اطلاعات  در  مورد  ساختار و عملکرد برنامه یک پروسه پیچیده و زمانبر است و معمولا تنها زمانی که روش و یا منبع دیگری برای بدست  آوردن اطلاعات مورد نیاز در مورد یک نرم افزار موجود نباشد به کار می رود .

یک نمونه از کاربرد های مهم ان استفاده از تکنیک های مهندسی معکوس نرم افزار در تجزیه و تحلیل نرم افزار های مخرب یا به عبارت دیگر بد افزار ها می باشد . که هدف از این تحقیق نیز مطالعه این تکنیک ها و چگونگی استفاده از انها توسط توسعه دهندگان نرم افزار  های ضد ویروس می باشد .

در فصل اول  این تحقیق به بیان مفهوم مهندسی معکوس نرم افزار و کاربرد های گوناگون آن در صنعت نرم افزار پرداخته و سپس در فصل دوم روش ها و مراحل گوناگون پروسه مهندسی معکس و ابزار های مرتبط با آن را بیان می کنیم . در فصل سوم نیز بررسی مباحث  مرتبط باویروس هخای کامپیوتری از دیدگاه مهندسی معکوس نرم افزار پرداخته و در فصل چهارم برای روشنتر شدن مباحث  فصل های  پیشین با بررسی یک تروجان چگونگی تجزیه و تحلیل نرم افزار های مخرب با استفاده از تکنیم های مهندسی معکوس نرم افزار را بیان می نماییم .

 تعداد صفحه :76


ادامه مطلب...
دانلود پایان نامه استفاده از گراف ها در تشخیص الگوها

چکیده :

pattern recognition علمی است که به توصیف و کلاسه بندی و تشخیص اشیا مختلف می پردازد . یکی از روش های مختلف برای  تشخیص الگو تشخیص الگوی ساختاری است که در آن از تئوری گراف برای توصبف  اجسام موجود استفاده می شود . باز نمایی داده ها و اشیا توسط گراف ها ما را به سمت الگوریتم های تطبیق گراف سوق  می دهند . در این سمینار قصد داریم الگوریتم های شناسایی الگو با گراف ها و دسته بندی های موجود در این رابطه را مورد بررسی قرار دهیم . روش های موجود عبارتند از الگوریتم های بهینه  الگوریتم های تقریب الگوریتم های مقاوم در برابر خطا و جستجوی شاخص دار .

الگوریتم های بهینه همیشه بهترین تطابق را استخراج می کنند ولی پیچیدگی زمانی بسیار  بالایی دارند . در روش های تقریب تضمینی  در مورد بهینه بودن جواب وجود ندارد در عوض زمان محاسبه و رسیدن به تطابق مورد نظر بسیار کوتاهتر می باشد . روش های مقاوم در برابر خطا کاربرد بیشتری در محیط های واقعی و نویزی دارند . الگوریتم های  تطبیق گراف را می توان برای stero vision  تشخیص  داد سازمان دهی مدل های بانک اطلاعاتی و غیره بکار برد .

مقدمه :

تشخیص الگو در برگیرنده دو عمل اساسی و مهم می باشد : توصیف و دسته بندی وقتی یک جسم  ناشناخته را به عنوان ورودی به سیستم می دهیم ابتدا یک توصیف از این جسم تولید می شود . دو راه کار کلی برای پیاده سازی سیستم مهای تشخیص الو وجود دارد .

1. تشخیص الگوی آماری

2. تشخیص ساختاری

هر کدام از این دو روش تکنیک های متفاوتی را برای عمل توصیف و کلاسه بندی به کار می برند . روش ها ی آماری با استفاده از تئوری های تصمیم گیری و براساس ویژگی های کمیتی استخراج شده از  ورودی فرایند کلاسه بندی را انجام می دهند . روش های ساختاری بر مبنای ویژگی های شکل شناسی و خصوصیات ساختاری جسم و نحوه ارتباط آنها باهم عمل توصیف ورودی و تشخیص گروه مربوط به آن را پیاده سازی می کنند .

تعداد صفحه :63

ادامه مطلب...
پایان نامه بررسی مفاهیم سیستم های برنامه ریزی منابع سازمان

چکیده :

رشد غیر قابل پیش بینی فناوری اطلاعات و ارتباطات در دهه های گذشته بر جنبه های مختلف عملکرد سازمان ها تاثیرات شگرفی داشته است . همزمان با این تغییرات محیط فعالیت سازمان های مختلف پیچیده تر شده و به همین جهت نیاز به سیستم های مختلفی که بتواند ارتباط بهتری بین اجزای مختلف سازمانی برقرار کرده و جریان اطلاعات را در بین آنها تسهیل  کند افزایش چشمگیری یافته است .  این سیستم ها که در مجموع به سیستم های سازمانی معروف هستند زمینه ای را فراهم آورده اند که مدیران بتوانند در تصمیم گیری های مختلف خود از اطلاعات مناسب در هر جا و در زمان مناسب استفاده نمایند .

از اوایل دهه 1990 میلادی طهور نرم افزار های یکپارچه ای تحت عنوان با هدف قراردادن سازمان های بزرگ توسعه بسیار  زیادی پیدا کردند . این نرم افزار های بسیار قدرتمندپیچیده و گران قیمت سیستم های از پیش طراحی شده ای هستند که پس از اندک تغییراتی در آنها توسط مشاوران پیاده ساز و مشاوران تحلیل فرایندهای سازمانی پیاده سازی و اجرا می شوند . در بسیارزی از موارد سازمان ها به دلیل اجبار در تبعیت از منطق حاکم براین نرم افراز  ها مجبور به اصلاح و بازبینی مجدد فرایند های خود هستند این نرم افزار ها برخلاف  نرم افزارهای قدیمی که در سازمان ها و از طریق واحد های مختلف سازمانی توسعه پیدا می کردند .

مجموعه ای یکپارچه ای هستند که دارای ماژول های مختلف بوده و هر زمان که نیاز به اضافه کردن ماژول دیگری به آنها باشد این کار به راحتی صورت می پذیرد به ساده ترین بیان erp مجموعه ای  است از بهترین شیوه ها برای  اجرای  وظایف مختلف در بخش های متععد سازمان .

 تعداد صفحه :49

ادامه مطلب...
دانلود پایان نامه ارشد با عنوان توربازآرا “RM-Reconfigurable Mesh”

دانلود پایان نامه ارشد با عنوان توربازآرا “RM-Reconfigurable Mesh”

تعداد صفحه :218

چکیده
اجرای پرسرعت برنامه نیاز به طرّاحی بر روی الگوهایی غیر از Von-Newman دارد. از این رو استفاده از چینشهای دوبعدی الزامی است. در هر یک از الگوهای محاسباتی موازی علاوه بر وجود چینشهای متفاوت ، خصوصیّات معماریهای سازگار با آنها نیز دیده میشود. بازآرائی یکی از این خصوصیّات است که به تغییر پیکربندی در زمان اجرا گفته میشود. با این قابلیت بین استفاده ی عمومی از سختافزار و طرّاحی سازگار با برنامه ، توازن ایجاد میشود. هزینهی سنگین عوض کردن پیکربندی ، یکی از موانع اجرایی شدن این خصوصیّت است. علاوه بر همگامسازی و انجام  محاسبات باید هزینه ی پیکربندی نیز در طرّاحی الگوریتم سنجیده و کمینه شود. تأثیر در مقیاس پذیری الگوریتم ، یکی از اثرات جانبی استفاده از بازآرائی است که با کمّی کردن و اندازه گیری آن در انواع الگوهای محاسباتی به کارایی بهتری در زمان اجرا خواهیم رسید. 

مقدمه
همه کاره  الگوی von-newman اساس کار رایانه ی است. هدف این الگو تبدیل دستورات پیچیده به ساده است . گاهگان نتیجه که بعد از اجرای هر دستور موجود در حافظه با گذر از چرخه ی الزامی fetch-decode-execute حاصل میشود در حافظه ذخیره خواهد شد. گذر از مراحل -fetch decode موجب افزایش زمان اجرای دستورات میشود. در این نوع رایانه ها قابلیّت اجرای انواع متنوّعی از برنامه ها در ازای هزینه در زمان اجرا به دست میآید. با پذیرش این رویّه اجرای ترتیبی دستورات که ذاتاً موازی پذیر نیست اجتناب ناپذیر است . زمان اجرا با موازی سازی دستورات کاهش  مییابد. در این الگو موازی سازی ، شبیه سازی میشود.  مدار سازگار با برنامه یکی از روشهای موازی سازی دستورات است . هدف ، طرّاحی مدار مجتمع بر اساس ماهیّت برنامه است. این پیشنهاد باعث بالا رفتن کارایی میشود اما قابلیّت استفاده ، تنها در مجموعه ای خاص از برنامه ها  محدود میشود. عدم انعطاف در اجرای متنوّع برنامه ها مشکل این روش بین انعطاف پذیری  است. تلاش محقّقین برای ایجاد توازن و کارایی  باعث پیشنهاد تغییر آرایش مدار مجتمع در حین اجرا شد. این معماری قابلیّت بازآرایی دارد. از این جهت میتوان این الگو را معماری نامید. در این الگو ،  پیکربندی بدون هزینه زیاد در زمان اجرا برای بالا بردن کارایی یک بازآراپذیر برنامه خاص تغییر میکند. حاصل شد. به آرایه ای با واحدهای منطق این نوع معماری با تکامل تدریجی آرایه ی منطقی برنامه پذیر و شبکه ارتباطی که تغییر بیت های پیکربندی سبب تغییر پیوندهای شبکه و در نتیجه  تغییر پردازش خواهد شد آرایه ی منطقی برنامه پذیر گفته میشود. انتقال بیت های پیکربندی و تغییر آن فرایندی پرهزینه است. در تراشه های پیوندی حاصل از آرایه منطقی برنامه پذیر و ریز پردازنده ی کمکی هزینه ی دسترسی به حافظه و بازآرایی شبکه کم شد. گاشت درست محاسبات بر روی  خت افزار بازآراپذیر و استفاده از ریزپردازنده ی کمکی سبب کارایی بهتر در اجرای برنامه میشود. تقسیم محاسبات بین ریزپردازنده و بقیه اجزا به صورت دستی یا به پیچیده و ساختار کمک ابزارهای خودکار و نیمه خودکار امکانپذیر است. محاسباتی که دارای نظارت  قابل اجرا توسط  گاهگان ویژه باشند توسط ریزپردازنده انجام میشود. تبدیل محاسبات به رمزعدد ریزپردازنده و تغییر پیکربندی برای بقیّه اجزا ، نگاشت گفته میشود. پیکربندی اولیّه با توجّه به اطّلاعاتی خواهد بود که قبل از اجرای محاسبات از روی برنامه حاصل میشود . پیکربندی در زمان اجرا برای مجموعه ای متفاوت از محاسبات تغییر مییابد.
معماری von-newman نیازمندیهای این الگو را برآورده نمیکند ، از این جهت برای بهبود و روشهای نگاشت احتیاج به یک سلسله مفاهیم بلنددید زمانبندی است. الگوی محاسباتی بازآرا  یکی از این مفاهیم است که با استفاه از آن میتوان به بهینه سازی نگاشت با روشهای الگوریتمی  دست زد. کارایی این گونه محاسبه در زمینه رمزنگاری ، معنافهمی ،پردازش شکل ،الگوریتمهای وراثتی پیام و شبکه عصبی …. اثبات شده. این نوشتار در سه بخش کلیّات ، نگاه سختافزاری و نگاه نرمافزاری تهیه شده است. در قسمت کلیّات به پیشزمینههای مورد نیاز میپردازیم و در  بخشهای دیگر تنها ارجاعی به آن میشود. در نگاه سختافزاری به شرح الگو و انواع موجود تور بازآرا میپردازیم و در آخر نیز با چگونگی نگاشت و ملاکهای طرّاحی بهینه آشنا میشویم.

بعضی از مطالعات نیز به عهدهی خواننده گذاشته شده است. امید است مورد قبول مخاطب قرار بگیرد.

تعداد صفحه :218

ادامه مطلب...
 دانلود پایان نامه ارشد رشته کامپیوتر قابلیت اطمینان درشبکه های بی سیم بامنابع خفته

چکیده

درشبکه های حسگربیسیم مصرف انرژی مهمترین عامل برای تعیین طول عمرشبکه است بـه ایـن دلیل که گره های حسگرباانرژی باطری کارمی کنندومنبع انرژی کم ومحدودی دارند ایـن امربهینـه سـازی مصرف انرژی رادرشبکه های حسگرضروری میسازدزیراکم کردن مصرف انرژی باعـث  بیشـترکردن طـول عمرشبکه میشود.
گره هادرشبکه های حسگربیسیم برای انجام یک برنامه کاربردی مشترک مثل مانیتورکردن عوامـل محیطی بایکدیگرهمکاری می کنند.
دراین سمینار پس ازمعرفی شبکه حسگرهای بیسیم ،مفهوم قابلیت اطمینان بیان شده اسـت.عـلاوه برآن به تفصیل راجع به پروتکل SMAC صحبت شده است که یکی از پروتکل های پایـه در شـبکه هـای حسگر بیسیم می باشد پروتکل SMAC تغییر یافته IEEE.802.11 مـی باشـد کـه  مصـرف انـرژی و خـود سازماندهی هدف اولیه آن است این پروتکل ازبازه های خواب وبیداری مجزابرای هرگـره حسگراسـتفاده می کند ودرنهایت درباره زمانبندی نودهای همسایه برای رفتن به حالت خفتن بحث خواهدشد.
مقدمه
پیشرفت های اخیر در زمینه مخابرات و الکترونیک توسعه سنسورهای چند کاره کم قیمت با توان مصرفی پائین که دارای اندازه های کوچک هستند، را ممکن ساخته است. چنین سنسورهایی قـادر هسـتند در مسافت های کوتاه با هم ارتباط برقرار نمایند. این سنسورهای کوچـک کـه  شـامل واحـدهای حسـگر، پردازش داده و فرستنده گیرنده هستند، در شبکه های سنسوری مورد استفاده قرار می گیرنـد. شـبکه هـای سنسوری بیان کننده یک بهبود بزرگ در سنسورهای قدیمی هستند. یک شبکه سنسوری  از تعداد زیادی سنسور تشکیل شده است کـه بـا چگـالی زیـاد در یـک محیط مورد بررسی، قرار داده شده اند. لازم نیست مکان سنسورها از قبل محاسبه شده باشد. این امر امکان استقرار سنسورها در محیط های غیر قابل دسترس را نیز ممکن می سازد. به عبارت دیگـر پروتکـل هـا و باشـد. 1 الگوریتم های به وجود آمده برای شبکه های سنسوری باید دارای خصوصیت خود سـازمان دهـی خصوصیت یکتای دیگر در شبکه های سنسوری همکاری سنسورها با یکدیگر می باشد. سنسـورها دارای یک پردازنده هستند و به جای ارسال داده های خام به گـره هـای دیگـر از پردازنـده خـود بـرای اجـرای محاسبات محلی  ساده استفاده می کنند و تنها اطلاعات پردازش شده لازم را ارسال می نمایند.
خصوصیات شرح داده شده در بالا کاربردهای وسیعی برای شبکه های سنسـوری را تضـمین مـی کند. بعضی از این زمینه ها کاربردهای سلامتی، نظامی و خانگی هستند. به عنوان مثـال در کاربردهـای 2 نظامی خصوصیات شبکه در استقرار سریع سنسورها در محیط، خود سازمان  دهی و تحمل پـذیری خطـا استفاده از شبکه های سنسوری برای فرمان هـای نظـامی، سیسـتم هـای کنتـرل، برقـراری ارتبـاط، انجـام محاسبات، نظارت، شناسایی و ردیابی را امید بخش کرده است. در کاربردهای سلامتی، سنسورها می تواند برای نظارت بر حال بیماران و یا کمک به بیماران ناتوان استقرار یابند. بعضی دیگر از کاربردهـای تجـاری شامل مدیریت لیست اموال، نظارت بر کیفیت تولیدات و یا جستجوی مناطق حادثه دیده می باشد. تحقق این کاربردها و کاربردهای دیگر شبکه های سنسوری نیازمند تکنیک های شبکه های بیسیم ad-hoc می باشد. اگر چه پروتکل ها و الگوریتم های بسیاری برای شبکه های بیسیم سنتی و ad- hoc  پیشنهاد شده است، برای خصوصیات یکتای شبکه های حسگر مناسب نمی باشند. برای بیشتر مشـخص شدن این نکته در ادامه به بیان تفاوتهای بین این شبکه ها می پردازیم.
• تعداد گره های حسگر در یک شبکه سنسوری می تواند چنـدین برابـر گـره هـای موجـود در شبکه هایad-hoc باشد.
• گره های حسگر در شبکه های سنسوری با چگالی بالا استقرار می یابند.
• امکان خرابی گره های حسگر در شبکه های سنسوری وجود دارد.
• توپولوژی در یک شبکه حسگر به تناوب تغییر می کند.
• گره های حسگر در شبکه های سنسـوری عمومـاً از روش هـای ارتبـاطی broadcast بـرای 1 ارتباط با گره های دیگر استفاده می کنند در حالی که در شـبکه هـای ad-hoc از ارتبـاط نقطـه بـه نقطـه استفاده می شود.
• گره های حسگر دارای توان، قدرت محاسباتی و حافظه محدودی می باشند.
• در یک شبکه حسگر ممکن است به دلیل تعداد زیاد گره ها و سربار بالا گره هـا دارای شناسـه عمومی نباشند.

تعداد صفحه :90

ادامه مطلب...
پایان نامه روش تصمیم­ گیری دسته ­جمعی جهت بهبود عملکرد الگوریتم نزدیک­ترین همسایه

دانلود متن کامل پایان نامه مقطع کارشناسی ارشد رشته کامپیوتر 

گرایش : هوش مصنوعی

عنوان : روش تصمیم­ گیری دسته ­جمعی جهت بهبود عملکرد الگوریتم نزدیک­ترین همسایه

تعداد صفحات : 63

چکیده

نتایج آزمایشات نشان داده است که ترکیب چندین دسته ­بند می­ تواند کارایی الگوریتم­ های متنوع را بالا ببرد. روش­های تصمیم­ گیری دسته­ جمعی بسیاری ارائه شده­اند که با استفاده از آن­ها، خطای روش­های مختلف دسته­ بندی کاهش یافته است. با این حال، این گونه روش­ها نتوانسته ­اند کارایی الگوریتم نزدیک­ترین همسایه را افزایش دهند. در این پایان­ نامه یک روش تصمیم­گیری دسته­ جمعی ارائه شده است تا با استفاده از ترکیب وزن­ دار چندین دسته­ بند، کارایی را بهبود بدهد. در این روش هر کدام از این دسته­بند­ها یک دسته­بند نزدیک­ترین همسایه است که تنها از زیر مجموعه­ای از مجموعه ویژگی­ها نمونه­ ها استفاده می­کند. در ادامه، الگوریتم به هر کدام از آن­ها یک وزن اختصاص می­دهد و در نهایت از یک مکانیسم رای­گیری وزنی برای تعیین خروجی مدل دسته­جمعی استفاده می کند.

 

  • مقدمه

در دنیای امروزی حجم اطلاعات دیجیتالی به صورت روز افزونی در حال افزایش است. در همین راستا، به جهت مدیریت و بررسی علمی این اطلاعات، نیاز به پردازش هوشمندانه و خودکار این اطلاعات بیش از پیش احساس می شود.

یکی از مهم ترین این پردازش ها که در فناوری اطلاعات و ارتباطات مورد نیاز است، دسته ­بندی خودکار این اطلاعات می باشد. دسته بندی در مسائل متنوعی در فناوری اطلاعات به کار گرفته می شود، در مسائلی مانند امنیت اطلاعات، شناسایی نفوذگری در شبکه، دسته بندی کاربران بر اساس اطلاعات شخصی، پردازش تصویر و در واقع شناسایی هر گونه الگو بر اساس نمونه­ ها و اطلاعات پیشین این پردازش می تواند دسته­ی نمونه­ های جدید که به مجموعه اطلاعات اضافه می شود را پیش بینی نماید. از این رو در هوش مصنوعی توجه خاصی به توسعه انواع روش­های دسته ­بندی هوشمند و خودکار شده است.

 روش­های دسته ­بندی

دسته­ بندی یکی از مهم­ترین شاخه‌های یادگیری ماشین است. دسته­ بندی به پیش­بینی برچسب دسته نمونه بدون برچسب، بر اساس مجموعه نمونه­ های آموزشی برچسب­دار (که قبلا به با کمک یک کارشناس دسته­ بندی  شده ­اند) گفته می­شود. درواقع دسته­ بندی روشی است که هدف آن، گروه­ بندی اشیا به تعدادی دسته یا گروه می­باشد. در روش‌های دسته­بندی، با استفاده از اطلاعات بدست آمده از مجموعه نمونه­ های آموزشی، از فضای ویژگی­ها به مجموعه برچسب دسته­ ها نگاشتی بدست می آید که بر اساس آن، نمونه­ های بدون برچسب به یکی از دسته­ ها نسبت داده می­شود.

در مسائل دسته­بندی، هر نمونه توسط یک بردار ویژگی به صورت X=<x1 , x2 ,… xm> معرفی می­شود که نشان دهنده­ی مجموعه مقادیر ویژگی­های نمونه­ی­ مربوطه است. بر اساس این بردار، نمونه­ی ­ X دارای m خصوصیت یا ویژگی است. این ویژگی­ها می­توانند مقادیر عدد صحیح، اعشاری ویا مقادیر نامی به خود اختصاص بدهند. همچنین این نمونه دارای یک برچسب C است که معرف دسته­ای­ است که نمونه­ی­ X به آن تعلق دارد.

تفاوت روش­ها دسته­بندی در چگونگی طراحی نگاشت است. در بعضی از آن­ها با استفاده از داده­های آموزشی مدلی ایجاد می­شود که بر اساس آن فضای ویژگی­ها به قسمت­های مختلف تقسیم می­شود که در آن، هر قسمت نشان دهنده­ی یک دسته است. در این گونه روش­های دسته­بندی از مدل برای پیش­بینی دسته­ی­ نمونه بدون برچسب استفاده شده و از نمونه ­­های آموزشی به طور مستقیم استفاده نمی شود. یک نمونه از این دسته­بندها، دسته­بندهای احتمالی می­باشد. این گونه الگوریتم ­ها، از استنتاج آماری برای پیدا کردن بهترین دسته استفاده می­کنند؛ برخلاف سایر دسته­بند­ها که فقط بهترین کلاس را مشخص می­کنند الگوریتم­های احتمالی به ازای هر دسته موجود یک احتمال را به عنوان تعلق نمونه به آن مشخص می­کنند و کلاس برنده، بر اساس بیشترین احتمال انتخاب می­شود. روش­های احتمالی در یادگیری ماشین معمولا با نام الگوریتم­های آماری نیز شناخته می­شوند. در گروهی دیگر از روش­های دسته بندی، نمونه براساس خود مجموعه نمونه­ها و بدون ساختن مدل، به پیش­بینی دسته­ی نمونه مورد نظر می­پردازد. به این گونه الگوریتم های دسته­بندی، نمونه- بنیاد گفته می­شود.

تاکنون الگوریتم­های متفاوتی به عنوان دسته ­بند ارائه شده­اند. از جمله­ ی­ آن­ها می­توان به الگوریتم نزدیک ترین همسایه­ ها ، دسته­ بند بیز، ماشین بردار پشتیبان و شبکه عصبی اشاره کرد.

  • ارزیابی دسته­ بند

اولین موضوعی که در مورد هر الگوریتم مورد توجه قرار می­گیرد، کارایی و دقت آن الگوریتم است. در هوش مصنوعی، معیار­های متفاوتی وجود دارند که در مسائل مختلف و زیر شاخه­های این علم استفاده می­شود. در مورد کارایی یک دسته­بند­، به عنوان یکی از مسائل اصلی هوش مصنوعی، روش­های متنوعی وجود دارد که در این قسمت بررسی شده­اند.

معیار کارایی نظر­گرفته شده برای یک دسته­بند، ارتباط مستقیمی با کاربرد و ضمینه کار خاص آن دسته­بند دارد. بنابراین در مسائل متفاوت، ممکن است معیار­های مختلفی برای اندازه­گیری کارایی الگوریتم در نظر­گرفته شود. همچنین همان طور که مشخص است، یک دسته­بند که بتواند برای همه مسائل موجود بهترین جواب را ارائه دهد، وجود ندارد.

در بررسی آماری کارایی یک دسته­بند، از یک مجموعه که شامل تعداد مشخصی نمونه­ی­ آموزشی دارای برچسب است استفاده می­شود. برای این کار، قسمتی از این نمونه­ ها و یا تمام مجموعه،­ به عنوان مجموعه آموزشی، در اختیار دسته­بند برای آموزش قرار می­گیرد. پس از آموزش، دسته بند به وسیله ­ی­ زیر­مجموعه­ ای­ از نمونه­ها، به عنوان نمونه­های­ آزمایشی، محک زده می­شود. نمونه­ ها­ی موجود در مجموعه­ ی­ آزمایشی، بسته به نوع آزمون کارایی، می­تواند عضو مجموعه آموزشی بوده و یا متفاوت با آن باشند.

نرخ دسته­بندی یا صحت پرکاربردترین و ساده ­ترین معیار اندازه­گیری کارایی هر دسته­بند است. این معیار برابر است با نسبت تعداد نمونه­های درست دسته­ بندی شده به تعداد کل نمونه ­ها. براساس این تعریف، نرخ خطای دسته­ بندی از رابطه زیر بدست می­آید

 مقادیر دقت و بازخوانی نیز معیارهای مناسبی برای ارزیابی دسته­ بندها می­باشند. که اخیرا برای ارزیابی رقابت بین اشتباه-مثبت و درست-مثبت استفاده می­شود. در ادامه این معیار­ها معرفی می­شود.

  • معیاردقت : احتمال مثبت بودن نمونه­هایی که مثبت اعلام شده ­اند.

                  معیار بازخوانی : احتمال مثبت اعلام کردن نمونه ­های دسته مثبت.

   معیار اختصاص: احتمال منفی اعلام کردن  نمونه­ های دسته منفی.

که در این معیارها، دسته مثبت، دسته مورد بررسی است و دسته منفی به سایر دسته ­ها گفته می­شود.

  • تصدیق متقابل

یک روش برای ارزیابی آماری دسته­بند، تصدق متقابل می­باشد. در این تکنیک برای ارزیابی کارایی دسته­بند، نمونه­ها را به صورت تصادفی به دو گروه که مکمل یکدیگر هستند، تقسیم می­کنند. با یک گروه سیستم را آموزش داده و با گروه دیگر سیستم آموزش دیده را مورد آزمایش قرار می­دهند. با این کار از تطبیق بیش از حد مدل بر روی داده­های آموزشی جلوگیری می­شود و نتایج بدست آمده از ارزیابی، دارای درجه اطمینان بیشتر خواهد بود. برای اطمینان بیشتر از نتایج، تصدیق متقابل در چندین مرحله صورت تکرار شده و در هر مرحله، از تقسیم­بندی متفاوتی برای نمونه­ها استفاده می­شود. در پایان از نتایج تمامی تکرار آزمایش­ها میانگین­گیری صورت می­گیرد.

در ادامه روش­های مختلف تطبیق متقابل توضیح داده می­شود.

  • تصدیق زیر گروه تصادفی: در این روش، نمونه­ ها به صورت تصادفی به دو گروه آموزشی و آزمایشی تقسیم می­شوند. سپس دسته­ بند به وسیله­ی­ نمونه­ های آموزشی، آموزش داده می­شود و با استفاده از مجموعه دیگر آزمایش شده و کارایی محاسبه می­شود. این عملیات چندین بار انجام می­گیرد و در نهایت میانگین آن­ها به عنوان کارایی دسته­بند ارائه می­شود. با توجه به تصادفی انتخاب شدن مجموعه­ های آموزشی و آزمایشی، مهم­ترین مشکل این روش امکان عدم انتخاب بعضی از نمونه­ها به عنوان عضو یکی از دو گروه و یا انتخاب بیش از یک بار بعضی از نمونه­ها می­باشد.
  • تصدیق متقابل k قسمت: در روش ابتدا مجموعه نمونه­ ها به K دسته تقسیم می­شوند. در هر مرحله نمونه­های k-1 دسته به عنوان مجموعه آموزشی در نظر گرفته می­شود و با استفاده از یک دسته دیگر کارایی سیستم دسته­بند ارزیابی می­شود. در نهایت کارایی سیستم برابر با میانگین کارایی در همه مراحل می­شود. در این روش از همه نمونه­ها برای آموزش و آزمایش استفاده می­شود.
  • تصدیق یکی در مقابل بقیه: یک روش دیگر، تصدیق یکی در مقابل بقیه است. در این روش، هر نمونه یک بار به عنوان نمونه آزمایشی انتخاب می­شود و از سایر نمونه­­ها برای آموزش استفاده می­شوند. این روش بر روی تمامی نمونه­ها انجام می­شود. در پایان، کارایی الگوریتم برابر نسبت تعداد نمونه­های درست دسته­بندی شده به کل است.
    • الگوریتم نزدیک­ترین همسایه

یکی از الگوریتم­های معروف دسته­بندی، الگوریتم نزدیک همسایه است؛ با این که از معرفی آن چندین دهه می­گذرد، این روش همچنان محبوب بوده و کاربرد بسیاری در مسائل مختلف دارد. دلیل این موضوع سادگی پیاده­سازی و کارایی بالا این روش است. به علاوه، این الگوریتم را به سادگی می­توان در مسائل مختلف به کار برد. الگوریتم نزدیک­ترین همسایه از یک قانون بسیار ساده در عمل دسته­بندی استفاده می­کند. نمونه­هایی که شباهت بیشتری با یکدیگر دارند(در فضای ویژگی­ها در نزدیکی یکدیگر قرار گرفته­اند)، به احتمال بالا در یک دسته قرار دارند. بر طبق این، در الگوریتم نزدیک­ترین­ همسایه، برای بدست آوردن دسته­ ی­ نمونه­ ی­ پرس­و­جو شده، بر اساس یک معیار شباهت(تفاوت)، نزدیک­ترین­ نمونه، از مجموعه­ی­ نمونه­ های آموزشی تعیین می­شود. سپس الگوریتم دسته­ی­ این نمونه را به عنوان دسته­ی­ نمونه­ی پرس­و­جو شده اعلام می­کند.

به عنوان مثال، شکل 1 نحوه بدست آوردن دسته ­ی نمونه­ ی­ پرس­وجو شده را توسط الگوریتم نزدیک­ترین­ همسایه، در یک فضای ویژگی دو بعدی و در مسئله ­ای­ با سه دسته نمایش می­دهد. در این مثال، از معیار فاصله اقلیدسی برای بدست آوردن نزدیک­ترین همسایه استفاده شده است.

 

ادامه مطلب...