آموزش زبان با داستان انگلیسی
 
دانلود پایان نامه بررسی روشهای خوشه بندی توزیعی

سمینار برای دریافت درجه کارشناسی ارشد “M.Sc” مهندسی کامپیوتر – نرم افزار

عنوان :بررسی روشهای خوشه بندی توزیعی

تعداد صفحات : 82

چکیده
چگونگی سازماندهی و ادغام نتایج پرس وجوی بازیابی شده از منابع مختلف، یکی از موضوعات کلیدی در بازیابی اطلاعات توزیعی است. برخی از پژوهش ها و آزمایشات پیشین توصیه میکنند که مرور اسـنادی که به صورت خوشه بیان میشوند به نسبت اسنادی که تنها در یـک لیـست مطـرح مـی شـوند کـارآیی بیشتری دارند. ارائهی نتایج بازیابی به صورت خوشه مبتنیبر فرضیه ی خوشه است. بر طبق این فرضـیه، وضعیت اسناد درون یک خوشه ارتباط مشابهی با پرس وجوی مطرح شده دارند.
خوشه بندی میتواند به عنوان فرآیند بخشبندی یک مجموعه از الگوها به گـروههـای معنـادار همگـن و منفصل بهنام خوشه ها تعریف شود. در خوشه بندی دادههـای توزیـع شـده، مجموعـه ی داده هـا در میـان چندین سایت توزیع شدهاند.
خوشـه بنـدی در حـوزههـای کـاربردی مـدرن مثـل تعـاون در خریـد و فـروش ، بیولـوژی مولکـولی و چندرسانهای وظیفهای مهم بر دوش دارد. در بسیاری از این حـوزه هـا ، اساسـا اطلاعـات از سـایتهـای مختلفی گرفته میشود. برای اقتباس اطلاعات از این داده ها ، آنها به صورت یک مجموعـه درآمـدهانـد و خوشه بندی میشوند.
در سالهای اخیر، پیشنهاداتی برای اکتشاف دانش و کاوش داده ها، و به ویژه برای خوشه بندی گـسترش یافته اما تنها تعداد کمی از آنها برای منابع داده ای توزیع شده اسـت. در ایـن تحقیـق، یـک مـروری بـر الگوریتمهای خوشه بندی توزیعی مطرح شدهاست.

مقدمه
امروزه حتی با گسترش وب، کاربران برای یافتن نیازهای خود با منابع اطلاعاتی بسیاری مواجه هـستند.
چگونگی یافتن سریع نیازهای کاربر از این اقیانوس اطلاعات، یک مسئله ی مهم است. اگـر چـه راه حـل استفاده از موتور های جستجو در پایگاه داده های یکتا ظاهرا برای آن کارآمد است ، اما در عمل ایـن راه حل برای جمع آوری همه ی اطلاعات مورد نیاز ، به خـصوص اطلاعـات مـرتبط بـا منـابع مخفـی وب ،ممکن است مشکلاتی را به دنبال داشته باشد.
کشف دانش در پایگاه داده، کاوش داده ها نامیده میشود و ابزاری ارزشمند برای گزینش اطلاعات مفیـد از هر پایگاه داده است. این ابزار قابلیت محاسباتی بالایی دارد و میتواند به توزیع و موازیسازی داده هـا بپردازد. برای مسائل مربوط به کاوش داده هـا ، لازم اسـت تـا بخـشبنـدی هوشـمندانه ای از داده هـا را به دست آوریم. بدین طریق ما می توانیم دادهها را به صورت جداگانه بررسی کنیم. به منظـور کمـک بـه قانونمند کردن مساله، معیار اصلی برای بخشبندی هوشمندانه میتواند این باشد که دادههای درون هر بخش تا آن جاییکه احتمال دارد ، با هم مشابه باشند، در حالی که دادههای درون بخشهای مختلف بـا یکدیگر هیچ شباهتی نداشته باشند. این معیار همان چیزی است که در الگوریتمهای خوشه بندی مـورد استفاده قرار میگیرد و به ما اجازه میدهد تا برای دستیابی به کـل پایگـاه داده، بـه مـوازی سـازی ایـن مساله بپردازیم.
در فصل اول این تحقیق، مفاهیم توزیع شدگی بهطور خلاصه مورد بررسی قرار میگیرد. سپس در فـصل دوم، به بحث در مورد خوشه بندی توزیعی پرداخته میشود. در فصل سوم، الگـوریتمهـای خوشـه بنـدی مورد بررسی و مطالعه قرار گرفته و به دنبال آن برخی از کاربردهای خوشه بندی در فصل چهـارم مطـرح میشوند. در نهایت، در فصل پنجم یک نتیجه گیری کوتاهی از این مباحث به عمل میآید.

مقدمه 1-1
یک سیستم توزیع شده، از یک مجموعه از کامپیوترهای مستقل تشکیل شده است که کـاربران، آنهـا را به صورت یک سیستم یکپارچه می بینند. چند مطلب از تعریف فوق مشخص می شود. اول اینکه در یک سیستم توزیـع شـده، تعـدادی کـامپیوتر وجود دارد. مطلب دیگر اینکه کاربران سیستم توزیع شده، تصور می کنند که با یک سیستم واحـد کـار می کنند. از مجموع این دو نکته می توان فهمید که اجزای داخل یک سیستم توزیع شده باید به شکلی با همدیگر تعامل داشته باشند که بتوانند برای کاربر خود این تصور را ایجاد کنند که با یک سیستم کار می کند. اینکه چگونه چنین تعاملی ایجاد شود یک مسأله ی م هم در مبحث سیستم های توزیـع شـده است.
در واقع هیچ اجباری در مورد نوع کامپیوترهای داخل سیـستم توزیـع شـده، همچنـین در مـورد روش اتصال بین آنها وجود ندارد. یعنی اینکه نباید این محدودیت ها را که اجزای این سیـستم هـا یـا اتـصال بین آنها از نوع خاصی باشند، برای سیستم های توزیع شده در نظر گرفت. از طرفی کاربر این سیستمها نباید هیچ اطلاع و نگرانی در مورد تفاوت های بین کامپیوترهای مختلف موجود در یک سیـستم توزیـع شده و روشی که با هم ارتباط برقرار می کنند، همچنین سازمان داخلی سیستم، داشته باشد . ایـن یـک ویژگی حیاتی برای سیستم های توزیع شده است که به آن شـفافیت مـی گوینـد . سیـستمی کـه ایـن ویژگی را نداشته باشد، طبق قسمت دوم تعریف فوق یک سیستم توزیع شده خوانده نمی شود.
ویژگی دیگر سیستم های توزیع شده این است که این سیستم ها طبق قوانین اسـتانداردی کـه فرمـت،محتوا و معنی پیام های فرستاده شده و دریافت شده را مشخص می کنند، ارتباط برقرار می کننـد . بـه این ویژگی باز بودن می گویند. این قوانین به طور رسمی در قالب پروتکل ها تدوین می شوند . پیروی از این پروتکل ها باعث می شود اجزای متنوع و متفاوت موجود در سیستم های توزیع شـده کـه احتمـالاً مربوط به عرضه کنندگان متفاوت هستند، بتوانند با هم کار کنند.

 

ادامه مطلب...