مبانی یادگیری ماشین از دانشگاه کالیفرنیا
آیا می خواهید پردازش داده ها را در مقیاس های بزرگ بیاموزید؟
آیا نیاز به استفاده از مدل های پیش بینی دارید اما با شیوه استفاده از نرم افزارهای مناسب و جدید روز در این زمینه آشنا نیستید؟
این دوره شما را با کاربا نرم افزار های جدید و پیشرفته در زمینه یادگیری ماشین مانند KNIME و SPARK آشنا می نماید و قادر به شرح و بکارگیری تکنیک های خوشه بندی و الگوریتم های طبقه بندی جدید خواهید بود.
مدرسان این دوره
دکتری کامپیوتر و مدیر مرکز پیشبینی و تجزیه و تحلیل ابرکامپیوتر ها از دانشگاه کالیفرنیا: Natasha Balac
دکتری مدلسازی با کامپیوتراز دانشگاه کالیفرنیا : Paul Rodriguez
عناوین این بخش:
درس اول: یادگیری ماشین و داده های بزرگ
درس دوم: داده کاوه در یادگیری ماشین
درس سوم: آغاز به کار با KNIME
درس چهارم: کار با داده های نمونه
یک اتوماتای یادگیر را میتوان بصورت یک شئ مجرد که دارای تعداد متناهی عمل است، در نظر گرفت. اتوماتای یادگیر با انتخاب یک عمل از مجموعه عمل¬های خود و اِعمال آن بر محیط، عمل میکند. عمل مذکور توسط یک محیط تصادفی ارزیابی میشود و اتوماتا از پاسخ محیط برای انتخاب عمل بعدی خود استفاده میکند. در طی این فرایند اتوماتا یاد میگیرد که عمل بهینه را انتخاب نماید. نحوه استفاده از پاسخ محیط به عمل انتخابی اتوماتا که در جهت انتخاب عمل بعدی اتوماتا استفاده میشود، توسط الگوریتم یادگیری اتوماتا مشخص میگردد. یک اتوماتای یادگیر از دو قسمت اصلی تشکیل شده است:
1- یک اتوماتای تصادفی با تعداد محدودی عمل و یک محیط تصادفی که اتوماتا با آن در ارتباط است.
2- الگوریتم یادگیری که اتوماتا با استفاده از آن عمل بهینه را یاد میگیرد.
فهرست :
تعریف یادگیری
تاریخچه اتوماتای یادگیر
تقسیم بندی اتوماتاها
محیط Enviroment
رابطه بین اتوماتای یادگیر و محیط
مدل های محیط
معیارهای رفتار اتوماتای یادگیر
الگوریتم یادگیری
انواع اتوماتاهای یادگیر
انواع اتوماتاهای یادگیر با ساختار ثابت
اتوماتای یادگیر با ساختار متغیر
ویژگیهای اتوماتاهای یادگیر
محدودیت ها اتوماتاهای یادگیر
اتوماتای یادگیر توزیع شده
Procedia Computer Science 65 ( 2015 ) 778 – 786
(International Conference on Communication, Management and Information Technology (ICCMIT 2015)
Data Mining and Fusion Techniques for WSNs as a Source of the Big Data
Mohamed Mostafa Fouada,b,e,f, Nour E. Oweisb,e, Tarek Gaberb,c,e,f, Maamoun Ahmedd, Vaclav Snaselb
Abstract :
The wide adoption of the Wireless Senor Networks (WSNs) applications around the world has increased the amount of the sensor data which contribute to the complexity of Big Data. This has emerged the need to the use of in-network data processing techniques which are very crucial for the success of the big data framework. This article gives overview and discussion about the state-of-theart of the data mining and data fusion techniques designed for the WSNs. It discusses how these techniques can prepare the sensor data inside the network (in-network) before any further processing as big data. This is very important for both of the WSNs and the big data framework. For the WSNs, the in-network pre-processing techniques could lead to saving in their limited resources. For the big data side, receiving a clean, non-redundant and relevant data would reduce the excessive data volume, thus an overload reduction will be obtained at the big data processing platforms and the discovery of values from these data will be accelerated. c 2014 The Authors. Published by Elsevier B.V. Peer-review under responsibility of Universal Society for Applied Research. Keywords: Wireless Sensor Networks; Big Data; Data Mining; Data Fusion, Machine learning;
تکنیک های داده کاوی و تلفیق( ترکیبی) برای WSN ها به عنوان منبعی از کلان داده ها
چکیده:
میزان تطبیق پذیری بالای شبکات حسگری بی سیم[1] در دنیا باعث افزایش میزان حجم داده های حسگری شده است که منجر به ایجاد پیچیدگی در کلان داده ها[2] میشود. این پدیده باعث شده است تا نیاز به استفاده از تکنیک های پردازش داده های درون شبکه ای حس شود که این تکنیک ها برای بروز موفقیت در چارچوب[3] کلان داده ها ضروری هستند. در این مقاله درباره ی نوآوری تکنیک های داده کاوی و تلفیق داده هایی که به طور ویژه برای شبکات حسگر بی سیم بوده اند, بحث و بررسی میشود. این تحقیق این مطلب را بررسی میکند که چطور این تکنیک ها می توانند داده های حسگری درون شبکه را آماده کننده (قبل از اینکه هر گونه پردازشی به عنوان کلان داده روی آنها صورت بگیرد.) این مسئله هم برای WSN مهم است و هم برای چارچوب کلان داده ها. برای WSN, تکنیک های پیش پردازشی درون شبکه ای می تواند به منزله ی راهی برای صرفه جوی در منابع محدودشان باشد. واز دیدگاه کلان داده ها, دریافت داده های تمیز(پالایش شده), بدون افزونگی و داده های مرتبط باعث کاهش حجم داده های اجرایی شود و از این رو در پلت فرم های پردازش کلان داده ها کاهش سرباری به وجود می آید و در کشف و یافتن[4] مقادیر در این داده ها, شتاب به وجود می آید.
کلمات کلیدی: شبکه های حسگر بی سیم؛ اطلاعات بزرگ؛ داده کاوی؛ داده های تلفیقی، یادگیری ماشین
[1] WSNs
[2] Big data
[3] Frame work
[4] Discovery
1- مقایسه کارایی طبقه بندی های مختلف متن برای عقیده کاوی در نقد کالا
2-کمی سازی گرایش احساسی نظرات متنی فارسی مشتریان بر روی کالای مشتریان بر روی ویژگی های کالا
3- مقایسه کارایی طبقه بندی های مختلف متن برای عقیده کاوی در نقد کالا
4-افزایش هوش تجاری براساس تحلیل عقاید در نقدهای فارسی
چکیده :
با گسترش تجارت الکترونیک و سیستمهای مدیریت درخواست مشتری، روزانه حجم عظیمی از دادههای متنی توسط کاربران بهطور مستقیم و غیرمستقیم تولید میشود. این دادههای متنی ارزش اطالعاتی بسیار باالیی دارند و واضح و بدیهی است که بررسی تمامی آنها بهطور دستی توسط انسان سخت و دشوار و در برخی موارد غیرممکن است. از طرفی خریداران یک محصول و حتی مدیران نیاز دارند تا اطالعات جامع و کارآمدی که حاصل تمامی نظرات داده شده است را مشاهده نمایند تا بتوانند در کوتاهترین زمان تصمیم درستی در خصوص کمیت و کیفیت در راستای گسترش خرید و یا فروش آن محصول اتخاذ نمایند. بررسی نتایج نشان میدهد که 11 %کاربران اینترنت قبل از خرید یک محصول یا خدمات راجع به آن جستجو نمودهاند و دیگر نظرات را مطالعه کردهاند. لذا در دهه اخیر، حوزه تحلیل احساست، نگاه بسیاری از محققان حوزه صنعت و دانشگاه را به خود معطوف کرده است اما متأسفانه بسیاری از این پژوهشها مختص زبان انگلیسی بوده و کارهای بسیار کمی در زبان فارسی صورت پذیرفته است. در این مقاله به ارائه چارچوبی خواهیم پرداخت که میتواند با استفاده از متون نقد کاربران در زبان فارسی قطبیت آن را پیشبینی نموده و ویژگیهای مورد نقد را استخراج نماید. در این راستای، ابتدا در مرحله پیشپردازش دادهها با جداسازی کلمات و جمالت، و ریشهیابی کلمات، اطالعات موردنیاز از نقدها استخراج شده و در گام بعدی با استفاده از مدل SVM نظرات و عقیده کاربران در مورد یک محصول و ویژگیهای آن طبقهبندی نمودیم. در پایان نیز مدل آموزش داده شده توانست با سرعت و دقت باالیی قطبیت نقدهای نوشته شده کاربران را بهدرستی پیشبینی نماید.
واژگان کلیدی: هوش تجاری، تحلیل احساسات، عقیده کاوی، پردازش زبان طبیعی، مدل SVM
5-مروری بر رویکردهای ارائه شده در نظرکاوی
چکیده:
به طور کلی، عقیده کاوی و تجزیه و تحلیل احساسات کمک می کند تا شرکت ها و ارائه دهندگان خدمات عقاید و احساسات مشتریان و کاربران خود را بدانند و بر اساس نیازهای مشتریان و کاربران محصوالت و خدمات خود را ارائه دهند. رایت در ]21 ] ادعا می کند که "برای بسیاری از کسب و کار ها، عقیده کاوی آنالین، یک نوع ارز مجازی است که می تواند باعث شکست یا موفقیت یک محصول در بازار شود.". از طرفی این حوزه یکی از برترین عالیق دانشمندانی مانند روانشناسان اجتماعی را تشکیل می دهد، طوری که در برخی منابع عقیده کاوی را باز شدن پنجره ای به روی تفکر روانی و واکنش آنالین جوامع می دانند. این مسئله به مطالعه و درک اذهان عمومی در جوامع در زمان های خاص )در مورد موضوعات خاص موجود در جامعه( کمک می کند. به عنوان مثال، عقیده کاوی می تواند برای تحلیلگران سیاسی در پیش بینی نتایج انتخابات استفاده داشته باشد.
کلمات کلیدی:عقیده ، عقیده کاوی ، آنتولوژی ، آنتروپی ، یادگیری ماشین ، احساسات ، شبکه عصبی ، زبان شناسی
1-شناسایی و تحلیل واژگان عمومی در منابع وب: رویکردی نو به بسط عبارات جستوجو با استفاده از زبان طبیعی در موتورهای کاوش (همایش انجمن کتابداری و اطلاع رسانی ایران)
چکیده: بازیابی اطلاعات دقیق و مرتبط همواره از اهمیت ویژه ای در پژوهش های حوزه بازیابی اطلاعات برخوردار بوده است. مقاله حاضر رویکردی جدید را در این زمینه معرفی و تجربه کرده است. بسط جستجو با استفاده از واژه های عمومی که همراه کلیدواژه های موضوعی در منابع و متون موجود در وب ظاهر میشوند می تواند موجب افزایش میزان دقت و ربط د رنتایج بازیابی در موتور های کاوش شود. به این منظور پژوهشی در دو مرحله انجام گرفت. در مرحله نخست، تعداد 800 صفحه وب با استفاده از روش تحلیل محتوا مورد بررسی قرار گرفت و واژه های عمومی همراه هر کلید وازه موضوعی شناسایی شد (جمعا 4264 مورد). نتایج تحلیل آماری نشان داد که 14.5 % از واژه های عمومی میان دو حوزه مشترک هستند، یعنی عمومی مطلق به شمار می آیند، 85.5 % واژه های عمومی وابسته به وزه عمومی می باشند. 65 % واژه های عمومی پیش و 35% از آنها پس از کلیدوازه های موضوعی در متون ظاهر می شوند. همچین از نظر نوع واژه ها 62.4 % غیر موضوعی 37.6% نیمه موضوعی به شمار می آید.
کلید واژه ها: بسط جستوجو، بازیابی اطلاعات در وب، زبان جستوجو، واژگان عمومی، موتور های کاوش
2-تعیین احساس از روی متن فارسی
چکیده: در بسیاری از کاربرد های تبدیل متن به گفتار بیهتر است تا مشخصات گفتار تولید شده هر چه بیشتر شبیه انسان باشد.برای این کار باید متنی که توسط سیستم ادا میشود. از لحاظ معنایی بررسی شود. یکی از مهمترین این ویژگی های معنایی احساس حاکم بر متن است. در زمینه تعیین احساس از روی متن کار های مختلفی در زبان انگلیسی صورت گرفته است. اما کمتر کسی اقدام به کار بر روی پیکره های فارسی کرده است. در این مقاله پیکره ای شامل 3702 جملخ از 6 کلاس احساس خوشحالیف عصبانیت، خنثی، ناراحتی، تنفر و ترس تهییه شده است. و روش های گوناگونی جهت تعیین احساس از روی یک جمله متنی به زبان فارسی به کار گرفته شده است. با بررسی نتایج بدست آمده متوجه میشویم که عملکرد برنامه در صورت استفاده از رویکرد مبتنی بر پیکره مطلوب است و دارای حداکثر دقت 78/85% و زمان بسیار کوتاه آموزش می باشد.
کلید واژه ها: پردازش زبان طبیعی، مدل زبانی، تحلیل معنایی، یادگیری ماشین، complement naive bayes
3-نگرشی جدید به تحلیل عبارت های اسمی هم مرجع
چکیده: پردازش زبان طبیعی شامل وظایفی همچون استخراج اطلاعات ، خلاصه سازی متن، پرشس و پاسخ می باشد که همگی نیاز دارند تا تمام اطلاعاتی که در مورد یک موجودیت در متن وجود دارد را شناسایی نماید. بنابراین وجود سیستمی که بتواند موضوع تحلیل عبارت های اسمی هم مرجع را بررسی نماید . کمک شایانی به انجام موفقیت آمیز این وظایف خواهد نمود. ما در این مقاله سعی داریم تا به طور دقیق فرایند تحلیل مرجع مشترک را بررسی نماییم. در همین راستا نیز فرآیند مشابه دیگری تحت عنوان تحلیل پیشایند را نیز مطالعه خواهیم نمود. امید داریم تا با بررسی این فرآیند و مقایسه ی شباهت ها و تفاوت ها ی آنها، به نگرشی جدید در مورد تحلیل عبارت های اسمی هم مرجع برسیم.
کلمات کلیدی: پردازش زبان طبیعی، استخراج اطلاعات، تحلیل مرجع مشترک، تحلیل پیشایند
4- ایجاد و انتشار زیر ساخت وب معنایی برای قرآن کریم
چکیده: زبان شناسی رایانه ای در سال های اخیر به یکی از دقدقه های اساسی محققان و پژوهشگران حوزه کامپیوتر و زبان شناسی تبدیل شده است. استفاده از رایانه و ابزار های هوشمند باعث شده است که بتوان بسیاری از کارهای مرتبط با پردازش متن را با سرعت بالا و دقت قابل توجهی انجام داد. پردازش زبان طبیعی در حوزه متن به پردازش پیکره های متنی در واقع نمادی از زبان هستند که با هدف خاصی تولید گردیده است می توان با تحلیل آنها به استخراج اجزا قواعد و ساز و کار زبان پی برد و در مرحله بعد با فناوری و غنی سازی متون و یا بکار گیری فناوری های رایانه ای محیط پژوهشی مناسبی را در ارائه محتوای این متون به گونه ای کارآمد ایجاد نمود.
کلید وازه ها: پردازش زبان طبیعی، پیکره، وب معنایی، قرآن کریم، RDF
5-بررسی روشهای متن کاوی درحوزه یادگیری الکترونیکی به منظور ارائه مدلی جهت استخراج اطلاعات
چکیده:متن کاوی آشکار کردن اطلاعات پنهان با استفاده از روشی است که در یک طرف توانایی مقابله با تعداد زیادی کلمات و ساختارهایی در زبان طبیعی را نشان می دهد و از طرف دیگر اجازه مدیرت ابهام و شک را میدهد. متن کاوی حوزهی مهم در پژوهش است که کشف طلاعات ناشناخته را،بهوسیله استخراج خودکار طلاعات از منابع مختلف متنی ممکن میسازد. مقدار بسیارزیاد اطلاعاتی که درمتونبهصورت ساختن یافته ذخیره شدهاست، برای امکان پردازش به وسیله متن کاوی، به صورت دنباله های سادهی رشتهای تبدیل میشوند.بنابراین،روشهاوالگوریتم های به خصوصی برای پردازش واستخراج الگوهای مفیدمورد نیاز است. علاوه بر این، متن کاوی عموماً به استخراج اطلاعات و دانش مورد نظر از متون ساخت نایافته میپردازد. روش تحقیق در اینکار بدین صورت است که ابتدا به بررسی پژوهش های انجام شده در حوزه متن کاوی با تأکید بر روش ها و کاربردهای آن در آموزش الکترونیکی پرداخته شد. درطی این مطالعات، پژوهش های مرتبط در حوزه آموزش الکترونیکی طبقه بندی گردیدند. پس از طبقه بندی پژوهش ها، مسائل و راهکارهای مرتبط با مسائل مطرح شده در آن کارها، استخراجشدند. در همین راستا، در این مقاله ابتدا به تعریف متنکاوی پرداخته می شود . سپس فرایند متن کاوی و حوزه های کاربرد متن کاوی در آموزش الکترونیکی مورد بررسی قرار میگیرند. در ادامه روشهای متنکاوی معرفی شده، و تک تک این روشها در حوزه آموزش الکترونیکی مطرح میگردد. در انتها ضمن استنتاج نکات مهم مطالعات انجام شده، مدلی جهت استخراج اطلاعات برای بهره برداری از روش های متن کاوی در یادگیری الکترونیکی پیشنهاد میشود. 6-ارزیابی سیستماتیک متون دانشجویان در کلاس های مجازی آنلاینچکیده: عدم تعاملات و ارتباط مستقیم اساتید و دانشجویان منجر به عدم تمرکز ایشان در کلاس های مجازی می شود .از آنجا که ارزیابی همواره ابزار مناسبی برای ایجاد تمرکز و مشارکت دانشجویان بوده است منطقی است که به دنبال ابزاری جهت برآورد میزان مشارکت دانشجویان در کلاس های آنلاینباشیم. در این مقاله سعی داریم با استفاده از روش های متن کاوی ، پردازش زبان طبیعی و ترجمه ماشینی به الگوریتمی جهت ارزیابی متون وارد شده از سوی دانشجویان و تخصیص امتیاز به هر متن دست یابیم و بتوانیم پس از پایان کلاس با محاسبه، ثبت و اعلام برآورد امتیازات هر دانشجو به یک ارزیابی از میزان مشارکت مفید دانشجو درکلاس های آنلاین دست یابیم. 7-مروری بر روش های خلاصه سازی خودکار متون چکیده : امروزه پردازش زبان طبیعی در زمینه های گوناگون نظیرخلاصه سازهای خودکار ومترجم های ماشینی1،توجه زیادی را به خود جلب نموده اند .در زبان فارسی هم مانند سایرزبانهای دیگر دنیا تلاش هایی در زمینه ساخت ابزارهای خلاصه سازی صورت گرفته است .تمرکز محققان بر ارایه روشهایی متمرکز است که بتواند خلاصه هایی پر محتوا، سلیس و روان نسبت به روشهای خلاصه سازی پیشین ارایهدهند. خلاصه سازی یک مهارت نگارشی به شمار میرود، که هدف از ایجاد سیستم خلاصه سازاتوماتیک تقلید کلیه مراحل است.که توسط عامل انسانی انجام میشود، بدین صورت که متن به طور کامل خوانده و فهمیده شود و با تشخیص و تفکیک قسمتپ های مهم و غیرمهم متن، نسخه خلاصه شده متن اصلی تولید گردد .هدف از خلاصه سازی خودکار سند، تولید یک نسخه مختصرتر از سند اصلی توسطیکبرنامهرایانه ای به نحوی که ویژگی ها و نکات اصلی سند اولیه حفظ شود . بنابر تعریف ارائه شده در استاندارد 212 ISO خلاصه " یک بازگویی مختصر از سند " می باشد . روش های تولید خلاصه را با توجه به انواع دیدگاه های مختلف خلاصه سازی می توان به چندین دسته تقسیم بندی نمود، به عنوان مثال روش تولید خلاصه تک سندی و چند سندی، تک زبانه و چند زبانه، مبتنی بر تعامل با کاربر و غیر مبتنی برتعامل با کاربر...یکن با توجه به اهمیت فاکتور خروجی تولید خلاصه در این مقاله به بررسی روش های تولید خلاصه گزینشی ( استخراجی )و چکیده ای (مفهومی) پرداخته می شود. 8-بررسی انواع منابع دارای ساختار و منابع بدون ساختار و پیش پردازش های ابهام زدایی مفهوم کلمات در پردازش زبان طبیعی چکیده: دانش مهمترین بخش ابهام زدایی مفهوم کلمات است. این دانش ها می توانند در شکل های گوناگون و به صورت یک مجموعهاز متون باشند که در آن مفهوم کلمه برچسب گزاری شده است. پایگاه دانش یک مجموعه از متن، برچسب ها و توضیحات در جهت تشخیص مفهوم کلمه است. مانند فرهنگ لغت قابل خواندن توسط ماشین ، شبکه معنایی، اصطلاحنامه و آنتولوژی. تقریبا از تمام این منابع در ابهام زدایی مفهوم کلمات استفاده می شود. کلیه منابع به دو دسته منابع دارای ساختار و منابع بدون ساختار تقسیم می شوند. جمله ورودی، یک متن بدون ساختار از اطلاعات است. برای کسب مفهوم صحیح کلمات باید بر روی آن پیش پردازش های ی انجام شود تا بتوانیم بستری را فراهم نماییم که بتوان بهترین مفهوم را بدست آورد. در این مقاله،منابع دارای ساختار و منابع بدون ساختار و پیش پردازش های ابهام زدایی مفهوم کلمات در پردازش زبان ط بیعی را مورد بررسی قرار می دهیم که بر اساس بررسی های انجام شده، استفاده از وردنت پیشنهاد می شود که یک منبع ضروری برای ابهام زدایی مفهوم کلمات است و یک منبع دارای ساختار می باشد. کلمات کلیدی:اصطلاحنامه، فرهنگ لغت های قابل خواندن توسط ماشین، آنتولوژی، وردنت، Corpora 9-مروری برجدیدترین تکنیک های جست وجوی معنایی در قرآنچکیده: در دنیای اطلاعاتی امروز جست و جوی معنایی در قرآن، به عنوان یکی از غنی ترین پیکره های متنی از اهمیت ویژه ای برخودار است. این کتاب مقدس، راهنمای مسلمانان در حوزه های مختلف دانش مانند: طبیعت ، شریعت ، تاریخ می باشد. با توجه به سبک منحصر به فرد قرآن و پراکندگی موضوعات و به سبب آن پراکندگی مفاهیم، نیاز مند توجهی خاص جهت جست و جو ی مفاهیم و معانی در آیات آن است. امروزه مطالعات بسیاری در زمینه ی ایجاد ساختاری مناسب جهت بازیابی آیات قرآن و تسهیل کاربران در جست و جو ی معنایی در آن انجام شده است . از جمله تکنیک های جست و جو ی معنایی که در حوزه ی قرآن استفاده شده است، آنتولوژی، شبکه ی واژگان و متدهای بازیابی اطلاعات بین زبانی می باشند . هدف این مقاله بررسی تحقیقات انجام شده در این حوزه است . در این راستا ابتدا تکنیک های نامبرده شرح داده می شو ن د سپس پژوهش هایی که این متدها را ه کار بسته اند معرفی می گرد ن د و در نهایت مقایسه ای بین کارهای انجام شده ارائه خواهد شد. کلمات کلیدی: آنتولوژی، جست وجوی معنایی، گروه مترادف ها، بازیابی اطلاعات بین زبانی