Procedia Computer Science 65 ( 2015 ) 778 – 786
(International Conference on Communication, Management and Information Technology (ICCMIT 2015)
Data Mining and Fusion Techniques for WSNs as a Source of the Big Data
Mohamed Mostafa Fouada,b,e,f, Nour E. Oweisb,e, Tarek Gaberb,c,e,f, Maamoun Ahmedd, Vaclav Snaselb
Abstract :
The wide adoption of the Wireless Senor Networks (WSNs) applications around the world has increased the amount of the sensor data which contribute to the complexity of Big Data. This has emerged the need to the use of in-network data processing techniques which are very crucial for the success of the big data framework. This article gives overview and discussion about the state-of-theart of the data mining and data fusion techniques designed for the WSNs. It discusses how these techniques can prepare the sensor data inside the network (in-network) before any further processing as big data. This is very important for both of the WSNs and the big data framework. For the WSNs, the in-network pre-processing techniques could lead to saving in their limited resources. For the big data side, receiving a clean, non-redundant and relevant data would reduce the excessive data volume, thus an overload reduction will be obtained at the big data processing platforms and the discovery of values from these data will be accelerated. c 2014 The Authors. Published by Elsevier B.V. Peer-review under responsibility of Universal Society for Applied Research. Keywords: Wireless Sensor Networks; Big Data; Data Mining; Data Fusion, Machine learning;
تکنیک های داده کاوی و تلفیق( ترکیبی) برای WSN ها به عنوان منبعی از کلان داده ها
چکیده:
میزان تطبیق پذیری بالای شبکات حسگری بی سیم[1] در دنیا باعث افزایش میزان حجم داده های حسگری شده است که منجر به ایجاد پیچیدگی در کلان داده ها[2] میشود. این پدیده باعث شده است تا نیاز به استفاده از تکنیک های پردازش داده های درون شبکه ای حس شود که این تکنیک ها برای بروز موفقیت در چارچوب[3] کلان داده ها ضروری هستند. در این مقاله درباره ی نوآوری تکنیک های داده کاوی و تلفیق داده هایی که به طور ویژه برای شبکات حسگر بی سیم بوده اند, بحث و بررسی میشود. این تحقیق این مطلب را بررسی میکند که چطور این تکنیک ها می توانند داده های حسگری درون شبکه را آماده کننده (قبل از اینکه هر گونه پردازشی به عنوان کلان داده روی آنها صورت بگیرد.) این مسئله هم برای WSN مهم است و هم برای چارچوب کلان داده ها. برای WSN, تکنیک های پیش پردازشی درون شبکه ای می تواند به منزله ی راهی برای صرفه جوی در منابع محدودشان باشد. واز دیدگاه کلان داده ها, دریافت داده های تمیز(پالایش شده), بدون افزونگی و داده های مرتبط باعث کاهش حجم داده های اجرایی شود و از این رو در پلت فرم های پردازش کلان داده ها کاهش سرباری به وجود می آید و در کشف و یافتن[4] مقادیر در این داده ها, شتاب به وجود می آید.
کلمات کلیدی: شبکه های حسگر بی سیم؛ اطلاعات بزرگ؛ داده کاوی؛ داده های تلفیقی، یادگیری ماشین
[1] WSNs
[2] Big data
[3] Frame work
[4] Discovery
تا به امروز نرم افزارهای تجاری و آموزشی فراوانی برای داده کاوی در حوزه های مختلف داده ها به دنیای علم و فناوری عرضه شده اند. هریک از آنها با توجه به نوع اصلی داده هایی که مورد کاوش قرار میدهند، روی الگوریتمهای خاصی متمرکز شده اند. مقایسه دقیق و علمی این ابزارها باید از جنبه های متفاوت و متعددی مانند تنوع انواع و فرمت داده های ورودی، حجم ممکن برای پردازش داده ها، الگـوریتمهای پیاده سـازی شده، روشهای ارزیابی نتایج، روشهای مصـور سـازی، روشهای پیش پردازش داده ها، واسطهای کاربر پسند، پلتفرمهای سازگار برای اجرا،قیمت و در دسترس بودن نرم افزار صورت گیرد. از آن میان، نرم افزار Weka با داشتن امکانات بسیار گسترده،امکان مقایسه خروجی روشهای مختلف با هم، راهنمای خوب، واسط گرافیگی کارا، سازگاری با سایر برنامه های ویندوزی، و از همه مهمتر وجود کتابی بسیار جامع و مرتبط با آن [Data Mining, witten et Al. 2005 ] ، معرفی میشود.
1- معرفی نرم افزار Weka
میزکارWeka ، مجموعهای از الگوریتمهای روز یادگیری ماشینی و ابزارهای پیش پردازش دادهها میباشد. این نرمافزار به گونهای طراحی شده است که میتوان به سرعت، روشهای موجود را به صورت انعطافپذیری روی مجموعههای جدید داده، آزمایش نمود. این نرمافزار، پشتیبانیهای ارزشمندی را برای کل فرآیند داده کاوی های تجربی فراهم میکند. این پشتیبانیها، آماده سازی دادههای ورودی، ارزیابی آماری چارچوبهای یادگیری و نمایش گرافیکی دادههای ورودی و نتایج یادگیری را در بر میگیرند. همچنین، هماهنگ با دامنه وسیع الگوریتمهای یادگیری، این نرمافزار شامل ابزارهای متنوع پیش پردازش دادههاست. این جعبه ابزار متنوع و جامع، از طریق یک واسط متداول در دسترس است، به نحوی که کاربر میتواند روشهای متفاوت را در آن با یکدیگر مقایسه کند و روشهایی را که برای مسایل مدنظر مناسبتر هستند، تشخیص دهد.
این سیستم به زبان جاوا نوشته شده و بر اساس لیسانس عمومی و فراگیر GNU انتشار یافته است.Weka تقریباً روی هر پلت فرمی اجرا میشود و نیز تحت سیستم عاملهای لینوکس، ویندوز، و مکینتاش، و حتی روی یک منشی دیجیتالی شخصی، آزمایش شده است.
این نرم افزار، یک واسط همگون برای بسیاری از الگوریتمهای یادگیری متفاوت، فراهم کرده است که از طریق آن روشهای پیش پردازش، پس از پردازش و ارزیابی نتایج طرح های یادگیری روی همه مجموعه های داده موجود، قابل اعمال است.
نرم افزار Weka ، پیاده سازی الگوریتمهای مختلف یادگیری را فراهم میکند و به آسانی میتوان آنها را به مجموعه های داده خود اعمال کرد.
همچنین، این نرم افزار شامل مجموعه متنوعی از ابزارهای تبدیل مجموعههای داده ها، همانند الگوریتمهای گسسته سازی میباشد. در این محیط میتوان یک مجموعه داده را پیش پردازش کرد، آن را به یک طرح یادگیری وارد نمود، و دستهبندی حاصله و کارآییاش را مورد تحلیل قرار داد.( همه این کارها، بدون نیاز به نوشتن هیچ قطعه برنامهای میسر است.)
این محیط، شامل روشهایی برای همه مسایل استاندارد داده کاوی مانند رگرسیون، ردهبندی، خوشهبندی، کاوش قواعد انجمنی و انتخاب ویژگی میباشد. با در نظر گرفتن اینکه، دادهها بخش مکمل کار هستند، بسیاری از ابزارهای پیش پردازش دادهها و مصورسازی آنها فراهم گشته است. همه الگوریتم ها، ورودیهای خود را به صورت یک جدول رابطهای به فرمت ARFF دریافت میکنند. این فرمت دادهها، میتواند از یک فایل خوانده شده یا به وسیله یک درخواست از پایگاه دادهای تولید گردد.
یکی از راههای به کارگیری Weka ، اعمال یک روش یادگیری به یک مجموعه داده و تحلیل خروجی آن برای شناخت چیزهای بیشتری راجع به آن اطلاعات میباشد. راه دیگر استفاده از مدل یادگیری شده برای تولید پیشبینیهایی در مورد نمونههای جدید است. سومین راه، اعمال یادگیرندههای مختلف و مقایسه کارآیی آنها به منظور انتخاب یکی از آنها برای تخمین میباشد. روشهای یادگیری Classifier نامیده میشوند و در واسط تعاملی Weka ، میتوان هر یک از آنها را از منو انتخاب نمود. بسیاری از classifier ها پارامترهای قابل تنظیم دارند که میتوان از طریق صفحه ویژگیها یا object editor به آنها دسترسی داشت. یک واحد ارزیابی مشترک، برای اندازهگیری کارآیی همه classifier به کار میرود.
پیاده سازیهای چارچوبهای یادگیری واقعی، منابع بسیار ارزشمندی هستند که Weka فراهم می کند. ابزارهایی که برای پیش پردازش دادهها استفاده میشوند Filter نامیده میشوند. همانند classifier ها، میتوان filter ها را از منوی مربوطه انتخاب کرده و آنها را با نیازمندیهای خود، سازگار نمود. در ادامه، به روش به کارگیری فیلترها اشاره میشود.
علاوه بر موارد فوق، Weka شامل پیاده سازی الگوریتمهایی برای یادگیری قواعد انجمنی، خوشهبندی دادهها در جایی که هیچ دستهای تعریف نشده است، و انتخاب ویژگیهای مرتبط در دادهها میباشد.
تعداد صفحات :80
فرمت فایل : Word