دانشگاه آزاد اسلامی
واحد تهران جنوب
دانشکده تحصیلات تکمیلی
سمینار برای دریافت درجه کارشناسی ارشد “M.Sc”
مهندسی کامپیوتر – نرم افزار
عنوان :
مروری بر داده کاوی با رویکرد وب سرویس کاوی
برای رعایت حریم خصوصی اسامی استاد راهنما و نگارنده درج نمی شود
تکه هایی از متن به عنوان نمونه :
(ممکن است هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل است)
چکیده
واژه داده کاوی برای توصیف مجموعه فعالیتهای وسیعی مورد استفاده قرار می گیرد. دنیای مدرون امروز،
دنیای اطلاعات است و ما با حجم بسیار وسیعی از داده ها سرکار داریم. برای رسیدن به اطلاعات باید این داده
ها تحلیل و پردازش شوند تا اطلاعات از آنها استخراج شود .
توسعه سریع و افزایش قابلیتهای و کاهش هزینه های ذخیره سازی منجر به ذخیره بسیار وسیع داده با هزینه
ذخیره سازی پائینی شده است. وجود داده های زیادی بر روی وب سایتها، پایگاه داده ها، مالتی مدیا، وب
سرویسها و … اخیرا استفاده از داده کاوی را از این منابع مد نظر قرار داده است. کاوش اطلاعات مفید که دانش
مناسب را از پایگاه داده های وسیع استخراج می کند، به یکی از زمینه های مهم تحقیقاتی تبدیل شده است .
وب کاوی یکی از زمینه های مهم تحقیقاتی در زمینه داده کاوی برای تعداد وسیعی از سرویسهای وب
جهان گستر در سالهای اخیر تبدیل شده است. وب جهان گستر بصورت گسترده ای هم در زمینه ترافیک و هم
در زمینه اندازه و پیچیدگی وب سایتها در حال گسترش است. این پیچیدگی، نیاز ما را به تحلیل استفاده وب
سایت، چگونگی ساختار وب و محتوای منابع وب وادار ساخته است .
تکنولوژی وب سرویس باعث افزایش نقش وب سرویسها در برنامه های اینترنتی بطور کلی و در زمینه
تجاری به طور خاص شده است. از زمانی که وب سرویسها نقش مهم و فزاینده ای در تکنولوژی اطلاعات پیدا
کرده اند، از سیستمهای سرویسگرا انتظار رشد و پیچیدگی روزافرون می رود. مانند تقاضای سیستمهای برای
یک مطلب دیگر :
ابزارهای که اجازه تحلیل و نظارت بر سیستمهای سرویسگرا استفاده شده را می دهند .روشهای مختلفی برای داده کاوی و فرایند کاوی از وب سرویسها و تعاملات بین آنها برای تحلیل تعاملات
وب سرویسها بین استفاده کننده گان و مهیا کننده گان و کشف ترکیب سرویهاست وجود دارد.
مقدمه
اخیرا توانایی های فنی بشر در تولید و جمع آوری دادهها به سرعت افزایش یافته است عواملی نظیر استفاده
گسترده از کامپیوتر در کسب و کار، علوم، خدمات دولتی و پیشرفت در وسائل جمع آوری داده، از اسکن کردن
متون و تصاویر تا سیستمهای سنجش از دور ماهواره ای، در این تغییرات نقش مهمی داشته اند.
حجم بسیار بالای سایتهای طراحی شده و موجود در بستر وب؛ تنوع و حجم بالای اطلاعات موجود در آنها،
تکنیکها و توزیع شدگی منابع به معظلی بزرگ در استفاده از این منابع تبدیل شده است. در واقع مشکل از
مختلف و با حجم زیاد. مشکل اصلی دربدست آوردن دانش موجود در آنها و اینکه دانش مورد نیاز ما در چه
منابعی و به چه صورتی واقع شده است؛ می باشد .
این رشد انفجاری در دادههای ذخیره شده، نیاز مبرم به وجود تکنولوژی های جدید و ابزارهای خودکاری را
ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل
کند: داده کاوی به عنوان یک راه حل برای این مسائل مطرح می شود.
بطورغیر رسمی داده کاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی می کنند، که
این دانش به صورت ضمنی در پایگاه داده های عظیم، انباره داده1، صفحات وب، منابع توزیع شده و دیگر
مخازن بزرگ اطلاعات، ذخیره شده است. داده کاوی تکنیکی است که بطور همزمان از چندین رشته علمی
نظیر: تکنولوژی پایگاه داده، هوش مصنوعی، یادگیری ماشین، شبکه های عصبی، آمار، شناسایی الگو، سیستم
های مبتنی بر دانش2، حصول دانش3، بازیابی اطلاعات4، محاسبات سرعت بالا5 و بازنمایی بصری داده 6 بهره
می برد.
داده کاوی در اواخر دهه 1980 پدیدار گشته، در دهه 1990 گامهای بلندی در این شاخه از علم برداشته
شد و انتظار می رود در این قرن به رشد و پیشرفت خود ادامه دهد.
کشف دانش از منابع داده فرایند شناسایی درست، ساده، مفید، و نهایتا الگوها و مدلهای قابل فهم در داده ها
می باشد. داده کاوی، مرحله ای از فرایند کشف دانش می باشد و شامل الگوریتمهای مخصوص داده کاوی
است، بطوریکه، تحت محدودیتهای مؤثر محاسباتی قابل قبول، الگوها و یا مدلها را در داده کشف می کند. به
بیان ساده تر، داده کاوی به فرایند استخراج دانش ناشناخته، درست، و بالقوه مفید از داده اطلاق می شود.
تعریف دیگر اینست که، داده کاوی گونه ای از تکنیکها برای شناسایی اطلاعات و یا دانش تصمیم گیری از
قطعات داده می باشد، به نحوی که با استخراج آنها، در حوزه های تصمیم گیری، پیش بینی، پیشگویی، و
تخمین مورد استفاده قرار گیرند. داده ها اغلب حجیم ، اما بدون ارزش می باشند، داده به تنهایی قابل استفاده
نیست، بلکه دانش نهفته در داده ها قابل استفاده می باشد. به این دلیل اغلب به داده کاوی، تحلیل داده ای
ثانویه7 . گفته می شود
داده کاوی از منابع توزیع شده متفاوت تر از داده کاوی از منایع متمرکز است. مشکل داده کاوی از منابع
توزیع شده (مانند وب) در محتویات غیر ساخت یافته و یا شبه ساخت یافته این منابع است. منابع توزیع شده،
برخلاف منابع متمرکز، دارای یک ساختار استاندارد مناسب نیستند و از سبک و شیوه نگارشی متنوع محتوائی
نسبت به آنچه که در مجموعه منابع متمرکز وجود دارد، پیروی می کنند .
فصل اول این سمیناریک مرور سریع بر معرفی داده کاوی؛ مدلها و روشهای موجود در آن پرداخته است،
فصل دوم مدل ها و الگوریتم های داده کاوی به صورت اجمالی برسی شده؛ در فصل سوم مدل وب کاوی مطرح
شده است در این فصل تکنیکها و الگوریتمهای مختلف وب کاوی برسی شده است، در این بخش الگوریتمهای
داده کاوی از وب نیز معرفی شده است در فصل چهارم وب سرویس و معماری وب سرویس و XML و چگونگی
داده کاوی از وب سرویسها مطرح شده است. در فصل چهارم یکسری ایده ها و سوالاتی در رابطه با وب سرویس