-5- مقدمه
به عنوان یک نتیجه از انفجار اطلاعات مداوم با بسیاری از سازمانها غرق در دادهها شدند و در نتیجه شکاف داده یا ناتوانی برای پردازش این اطلاعات و استفاده از آن به طور موثر با یک سرعت مهیج در حال افزایش است. محاسبه داده متمرکز یک مثال محاسباتی جدید را معرفی مینماید (کوزس، اندرسون، البرت، گورتون، گراسیو 2009) که میتوان شکاف دادهها را با استفاده از پردازش موازی قابل مقایسه مورد خطاب قرار دهد و به دولت و سازمانهای تجاری و محیطهای تحقیق اجازه دهد تا مقادیر عظیمی از دادهها را پیش ببرد و نظرات قبلی کاربردهای اجرایی غیر عملی و اجرا نشدنی است. محاسبات کلود فرصتی برای سازماندهی کردن با منابع درونی محدود شده ارائه میدهد تا کاربردها محاسباتی دادهها فشرده مقیاس بالا در یک حالت اثربخش اجرا شود. درگیریهای اساسی از محاسبات داده فشرده در حال مدیریت و پیش برد حجم داده ها در حال رشد به طور تشریحی هستند، به طور چشمگیر چرخهها تحلیلی داده های وابسته در حال کاهش هستند که کاربردهای به موقع و عملی را و الگوریتمهای جدید در حال توسعه را پشتیبانی نمایند که میتوانند مقیاسگذاری کند تا مقدار عظیمی از دادهها را جستو جو و پیش ببرد.محققین در Lexis Nexis معقتند که جواب به این درگیرها مهاری نرمافزار و سخت افزار سیستمها کامپیوتری جامع است که برای پردازش موازی از کاربردها محاسباتی دادهها فشرده طراحی شده است. این فصل درگیریهایی از محاسبات دادههای فشرده را کاوش میکند و یک مقایسه جامع از معماریهای سیستم موجود از نظر تجاری ارائه میدهد که شامل: ابر کامپیوتر تحلیلی داده های Lexis Nexis(DAS) میشود که به گروه محاسباتی کارایی بالای Lexis Nexis(HPCC) و Hadoop، یک منشأ باز انجام براساس معماری میکریدیوس گوگل برمیگردد. محاسبات کلود بر توانایی تأکید میکند تا منابع محاسباتی را چنان ید بدون یک سرمایهگذاری صادقانه جامع در پیدایش نیاز است و هزینه های عملکرد مداوم همراه شده مقیاس گذاری نماید. (ناپر و بینیتنسی و 2009، ریس 2009، ولت والنسن پتر، 2009) خدمات محاسباتی کلود به طور معمولی به 3 مدل طبقهبندی میشود:
(1) پیدایش (زیر سازه) به عنوان یک خدمت (Iaas) خدمت شامل تهیهی نرم افزار و سخت افزار برای پردازش،ذخیره سازی داده ها، شبکهها و هر زیر ساخت مورد نیاز برای پیشرفت سیستمهای در حال اجرا میشود و کاربردهایی که به طور معمول در یک مرکز داده توسط کاربر مدیریت میشود نیازمند است. (2) پایگاهی به عنوان یک سرویس (Paas).سرویس شامل: زبانها و ابزار برنامهریزی فشرده میشود و یک پایگاه تحول کاربردی که توسط ارائه دهنده سرویس گروه بندی شده تا پیشرفت و تحویل کاربردی که توسط ارائه دهنده سرویس گروهبندی شده تا پیشرفت و تحویل کاربردهای کار بر نهایی را پشتیبانی نماید و (3) نرمافزاری به عنوان یک سرویس (Saas). کاربردهای نرم افزاری گروهبندی شده توسط ارائهدهنده سرویس برای جایگزینی کار به نهایی ارائه و مدیریت میشود تا این کاربردها را با کاربردهای براساس وب به کار اندازد (لنک، کلیفر، نیمیس، تای و سندهولم 2009، مل و گرانس، 2009، واکیورو، رودرو، سرینفر، کاکرس و لیندنر، 2009، ویگا، 2009) کاربردهای محاسباتی داده های فشرده با استفاده از مدل aas (اجرای شوند و به تهیه گروههای قابل مقایسه از پرداززش گره، برای محاسبات موازی دادهها اجازه دهد تا از معماری نرم افزاری متنوع استفاده ماید یا مدل Paas یک پردازش کامل را ارائه دهد و محیط پیشرفت کاربردی شامل هر دو جزء پایگاه و زیر ساختهایی از قبیل برنامه ریزی زبانها و افزارهای گسترش کاربردها می شود. محاسبات دادههای فشرده میتواند یک کلود عمومی اجرا شود پایگاه و زیر ساخت کلود به طور علوم از یک ارائه دهنده سرویس کلود موجود است از قبیل کلود محاسباتی الاستیک آمازون (EC2) و ریدیوس مپ الاستیک یا به عنوان کلود خصوصی (پایگاه و زیر ساخت کلود منحصراً برای یک سازمان خاص اجرا میشود و ممکن است به طور درونی یا ظاهری برای سازمان وجود داشته باشد) (مل و گرانس، 2009). اجراهای aas و Paas برای محاسبات فشردهی دادهها میتواند به طور دینامیک در محیطها پردازش مجازی شده براساس زمان بندی کاربرد و نیازمندیها پردازش داده ما تهیه شوند یا میتوانند به عنوان پیکر بندی دسترسی پذیری بالای پایدار اجرا شود. یک پیکربندی پایدار مزیت اجرایی دارد از آنجا که آن از زیر ساخت ما اختصاصی به جای سیرورهای مجازی شده مشترک با دیگر کاربردها استفاده میکنند.
1-1-5- کاربردهای محاسباتی فشردهی داده ها: روشهای پردازش موازی میتواند به طور کلی به عنوان یا محاسباتی فشرده یا دادههای فشرده طبقه بندی شوند (اسکلیکرن و تالیا 1998 و گورتن و گرینفیلد، اسزالای و ویلیامز 2008، جان استون، 1998) محاسبات فشرده قبلاً استفاده شد تا برنامههای کاربردی را که کران محاسباتی هستند توصیف نماید چنین کاربردهایی بسیاری از زمان اجرایشان را برای نیازها محاسباتی در مقابل I⁄O وقف مینمایند و به طور معمول به حجمهایی کوچکی از دادهها نیاز دارند. پردازش موازی از کاربردهای محاسبات فشرده و به طور معمول شامل الگوریتمها اختصاصی در حال موازی شدن با یک فرایند کاربردی و تجزیه فرآیندی کاربرد جامع درون کارها، جدا میشود که میتواند پس بر روی پایگاه محاسباتی مناسب به طور موازی اجرا شود تا کارایی بالاتر جامعه را نسبت به پردازش سیری اجرا نماید. در کابردهای محاسباتی فشرده عملکرد ما چند گانه به طور همزمان با هر آدرس دهی عملیات یک مسقت خاص از مشکل انجام میشود. این اغلب به عنوان تطابق نقشی یا تطابق کنترل به کار میرود. (Abbas,2004).
5- تکنولوژیهای داده فشرده برای محاسبات کلود
دادههای فشرده استفاده می شود تا کاربردهایی را که گروه I⁄O یا با یک نیاز برای پردازش حجمهای بزرگ از داده هستند را توصیف نماید (گورتون و همکاران 2008، ژان استون 1998، گوخاله و کوهن و یو و سیلر، 2008). چنین کاربردهایی بسیاری از زمان پردازش را به I⁄O و حرکت دادهها اختصاص میدهد. پردازش موازی از کاربردهای داده فشرده به طور معمول شامل قسمت بندی کردن یا بخش پذیری کردن داده ها درون بخشهای چندگانه میشود که میتواند به طور مستقل با استفاده از همان برنامه کاربردی قابل اجرا و موازی بروی یک پایگاه محاسباتی مناسب پرداش شود و پس دوباره نتایج تولید شده از دادههای خروجی کامل شده از برانمه اصلی به زبمان سمبلیک تبدیل میکند. (نیلند، پرنیس، گلوبرگ، میلس، 2000).
توزیع انبوه بزرگتر از داده، بسیار مفید در پرازش موازی از دادهها وجود دارد. گورتون و همکاران (2008) بیان کردند که پردازش داده انبوه به طور معمول بر مقیاس خطی بر طبق سایز داده نیازمند است و بسیار متمایل به موازی شدن مستقیم هستند. درگیریهای اساسی برای محاسبه دادههای فشرده بر طبق گورتون و همکاران (2008) در حال مدیریت و پیشبرد حجم داده های در حال رشد به طور تشریحی هستند و به طور چشمگیر چرخههای تحلیلی داده های وابسته را کاهش میدهند تا کاربردهای به موقع و عملی را و نیز الگوریتمهای جدید در حال توسعه را پشتیبانی نماید که میتواند مقیاس گذاری نماید تا مقادیر عظیمی از دادهها را جستجو و پیش ببرد. محاسبات کلود میتواند این درگیریها را با این قابلیت مورد خطاب قرار دهد که منابع محاسباتی جدید را تهیه و یا منابع موجود را گسترش میهند تا قابلیتهای محاسباتی موازی را ارائه دهد که مقیاس حجمهای داده در حال رشد را هماهنگ می نماید.(گروس من، 2009).
12-5- تطابق دادهها
معماران سیستم کامپیوتر میتوانند کاربردهای موازی دادهها را پشتیبانی نمایند که یک راهحل ذاتی برای مقیاس ترابایت و پتابایت نیازهای پرازش هستند (نیلند و همکاران 2000، راوی چاندران، پانتل و هووی 2004) بر طبق آگیچتین و گانتی (2004) موازی کردن یک تناوب جذاب برای پردازش میباشد که به شدت مجموعههای برگی از دادهها از قبیل بیلیونها اسناد بر روی وب را بررسی میکند (آگیچتین 2004). نیلند و همکاران تطابق دادهها را به عنوان یک محاسبه به کار گرفته شده به طور مستقل برای هر آیتم داده از یک مجموعه داده معنی میکند که اجازه درجهایی از تطابق را میدهد که با حجمی از دادهها مقیاس گذاری میشود.
با توجه به عقیده نیلند و همکاران (2000) دلیل بسیار مهم برای گسترش کاربردهای موازی دادهها پتانسیلی برای اجرای قابل مقایسه است و ممکن است در چندین ترتیب از مقدار بهود اجرا ناشی شود. مسئله کلیدی با کاربردهای در حال توسعه و استفاده از تطابق داده ها انتخاب الگوریتم و استراتژی برای تجزیه دادهها،تراز بار بروی گرههای پردازش، ارتباطات گذرنده بین گروهها و دقت جامع از نتایج هستند. (نیلند و همکاران، 2000، رنکوزوگولاری و دوارکاداس، 2001). نیلند و همکاران (2000) نیز متوجه شدند که گسترش کاربر و موازی داده میتواند شامل پیچیدگی برنامه نویسی اساسی شود تا مشکل را در زمینه ابزارهای برنامه نویسی موجود معنی کند و محدودیتهایی از معماری هدف را مورد خطاب قرار دهد. استخراج اطلاعات از و فهرست سازی از اسناد وب به طور معمول از پردازش دادههای فشرده است که میتواند منافع کارایی مهم را از اجراهای دادههای موازی مشتق کند از آنجائیکه وب و دیگر انواع مجموعههای اسناد میتواند به طور معمول به طور موازی پردازش شود (آگیچتین)
3-1-5- شکاف دادهها
رشد سریع از اینترنت و شبکه وسیع جهانی منتهی به مقادیر وسیع از اطلاعات موجود به صورت آنلاین میشود. به علاوه سازمانهای دولتی و بازرگانی مقادیر زیادی از هر دو اطلاعات ساخته یافته و غیر ساخت یافته ایجاد مینماید که نیاز دارد پردازش، تحلیل و به هم مرتبط شود. ونیتون سرف (Vinton cerf) از گوگل این را به عنوان یک نزول ناگهانی اطلاعات توصیف میکند و بیان میدارد که ما باید انرژی اینترنت را در حضور اطلاعات با کابلهای مجزا به کامپیوتر وصل کنیمکه آن اطلاعات ذخیره شده ما را رها نسازد (کرف، 2007)
یک گزارش هیئت دولت به ضمانت EMC مقدار اطلاعات که به طور رایج به شکل دیجیتال در سال2007 در 281 بیلیونها بایت ذخیره شده و نیز رشد مرکب کل در 57% تا اطلاعاتی در سازمانهای در حال رشد در یک سطح و سرعت سریعتر برآورد میکند (گانتر و همکاران 2007).
در مطالعه دیگری از انفجار اطلاعات آن برآورد شده بود که 95% از همه اطلاعات جاری در شکل بدون ساخت با نیازهای پردازش داده افزایش یافته وجود دارد که با اطلاعات ساخت یافته مقایسه میشود (لیمن و واریان2003). ذخیره سازی، مدیریت، دسترسی و پردازش از این مقدار وسیع از دادهها یک نیاز اساسی را معرفی مینماید و یک درگیری پهناور به منظور اینکه نیاها برای تحقیق، تحلیل، استخراج و تجسم کردن این داده ها به عنوان اطلاعات رضایت بخش نماید. (برمن 2008). در سال 2003 لیکیس نیکسیس این مسئله را به عنوان «شکاف داده» معین میکند توانایی جمع کردن اطلاعات دور از گنجایش سازماندهی پیش پا افتاده است تا از آن به طور موثر استفاده نماید. سازمانها کاربردهایی را بنا کردند تا ذخیره سازی که آنها در دسترس دارند پر نماید و ذخیره سازی بسازد که مناسب کاربردها و دادههایی است که آنها دارند. اما آیا سازمانها میتوانند چیزهای مفیدی با اطلاعاتی انجام دهند که آنها مجبورند استفاده کامل و نو از منابع داده بدون بهرهبرداری آنها داشته باشند بدست آورند؟
چنانچه داده های سازمانی رشد کند چگونه آیا شکاف داده مورد خطاب قرار میگیرد؟ محقیق در لیکسیز تکسیز معتقدند که جواب معماری نرم افزاری و سخت افزاری سیستمهای کامپیوتری قابل مقیاس گذاری است که برای کاربردهای محاسباتی دادههای فشرده طراحی شده که بتواند بیلیونها پردازش از ثبتها را در هر ثانیه مقیاس گذاری کند. (BORPS) .
توجه: اصلاح BORPS توسط seisint در سال 2002 معرفی شد. سیسینت توسط Lexis Nexis پیدا شده بود). چه چیزی مشخصههایی از سیستمهای محاسباتی دادههای فشرده و چه معماریهایی از زسیستم برای سازمانها در دسترسند تا خطر و سرمایه گذاری صادقانه را در زیر ساخت کاهش داد و به مدل توجه فوری اجازه داد؟ این فصل این مسائل را کاوش میکند و یک مقایسه از معماریهای سیستم موجود از نظر تجاری ارائه میدهد.
2-5- مشخههایی از سیستمهای محاسباتی دادههای فشرده
بنیاد علوم علمی معتقد است که محاسبات دادههای فشرده نیاز به یک مجموعه متفاوت بنیادی از اصولها نسبت به روشهای محاسباتی جاری دارد (NSF 2009). از طریق یک برنامه تأمین وجه در حوزه علم اطلاعات و کامپیوتر و مهندسی، NSF در حال جستجو افزایش فهم قابلیتها و محدودیتهایی از محاسبات دادههای فشرده است حوزههای کلیدی از کانون شامل:
روشهای برنامه نویسی موازی برای مورد خطاب قرار دادن پردازش موازی از داده بر روی سیستمهای دادههای فشرده
چکیدههای برنامه نویسی شامل مدلها، زبانها و الگوریتمها که اجازه یک بیان بدیهی از پرازش موازی داده میدهد.
طرحی از پایگاههای محاسباتی دادههای فشرده که سطح بالا از قابلیت اطمینان، راندمان، دسترس پذیری، مقیاس پذیری را ارائه میدهد.
تشخیص کاربردهایی که میتواند این مثال محاسباتی را بهرهبرداری کند و تعیین نماید که چگونه آن باید استنتاج شود تا کاربردهای دادههای فشرده پدیدار شده را حمایت نماید.
پروژههای ملی شمال غرب اقیانوس آرام محاسبات دادههای فشرده را به عنوان جمع آوری داده، مدیریت، تحلیل و فهم داده ها در حجمها و سرعتهایی که مرزهایی از تکنولوژیهای جاری را به جلو هل میدهد (کوزس و همکاران 2009، پنل 2008). آنها معتقدند که حجمهای داده در حال رشد به طور سریع را مورد خطاب قرار دهد و پیچیدگی نیاز به پیشرفتهای مهم در نرم افزار و سخت افزار و گسترش الگوریتم دارد که بتواند به سهولت با سایز داده مقیاس گذاری شود و تحلیلهای به موقع و قابل اجرا و نتایج پردازش را ارائه دهد. معماری HP cc توسط Lexis Nexis توسعه یافته تا چنین پیشروی در قابلیتها را معرفی نماید.
1-2-5- روش پردازش
پایگاههای محاسباتی دادههای فشرده جاری از یک روش پردازش موازی «تقسیم و غلبه کردن» استفاده میکند که در حال ترکیب پردازشگرهای چند گانه و دیسکها در گروههای محاسباتی بزرگ متصل شده با استفاده از شبکه ها و تعویضهای ارتباطات سرعت بالا هستند که به دادهها اجازه میدهد در میان منابع محاسباتی موجود جزءبندی شده باشد و به طور مستقل پیش رود تا کارائی و مقیاس پذیری را براساس مقدار دادهها انجام دهند (شکل 1-5).
بویا، یئو، ونوگوپال، بروبرگ و براندیک (2009) گروهها را به عنوان یک نوع سیستم موازی شده و توزیع شده معین مینماید که شامل یک مجموعه کامپیوترها میشود که به تنهایی متصل شدند و با یکدیگر به عنوان یک منبع محاسباتی جامع تنها کار میکند. این روش برای پردازش موازی اغلب به عنوان یک روش «صفر به اشتراک گذاشته شده» برمیگردد از آنجائیکه هر گروه شامل پردازشگر، حافظه محلی و منابع دیسک صفر به اشتراک گذاشته با دیگر گرهها در گروه میشود.
در محاسبه موازی این روش به طور مناسب برای مشکلات پردازش دادهها بررسی میشود که به طور ناهماهنگ موازی هستند، به طور مثال جائیکه آن نسبتاً آسان است تا مشکل را درون یک تعدادکارهای موازی جدا میشود و هیچ وابستگی یا ارتباطی وجود ندارد که بین کارها نسبت به مدیریت جامع از کارها نیاز باشد. این انواع از مشکلات پردازش داده به طور ذاتی مناسب با شکلهای متنوع از محاسبات توزیع شده هستند که شامل گروهها و رشتههای داده و محاسبات کلود میشود.
2-2-5- مشخصههای مشترک
چندین مشخصه مشترک مهم از سیستمهای محاسباتی داده های فشرده وجود دارد که آنها را از دیگر شکل های محاسبه تشخیص میدهد. اولین اصول مجموعه از داده و برنامهها یا الگوریتمها است که محاسبات را انجام میدهد. برای انجام کارایی بالا در محاسبات داده فشرده، آن مهم است که حرکت داده را به حداقل برساند (گری، 2008). در تباین مستقیم با دیگر انواع از محاسبات و ابر محاسبات از داده ذخیره شده در یک مخزن جدا استفاده میکند و یا به کار میبرد و دادهها را برای سیستم پردازش برای محاسبات انتقال میدهد و محاسبات دادههای فشرده از دادههای توزیع شده و سیستمهای فایل توزیع شده استفاده میکندکه در آن دادهها در مقابل یک گروه از گرههای پردازش قرار داشت و به جای حرکت داده برنامه یا الگوریتم به گرههایی یا داده انتقال یافته که نیاز به پردازش داشته باشد. این اصل «حرکت کد به داده» که درون معماری پردازش موازی دادهها طراحی شده بود توسط Seasint در سال 2003 اجرا شد و به شدت قابل اجرا است از آنجائیکه سایز برنامه معمولاً در مقایسه با مجموعه دادههای بزرگ پردازش شده توسط سیستمهای دادههای فشرده کوچک است و در بیشتر شبکههای کم ترافیک ناشی میشود از آنجائیکه دادهها میتواند به طور محلی به جای مقابل شبکه خوانده شود. این مشخصه اجازه پردازش الگوریتمها را میدهد تا بروی گرهها اجرا شود آنجا که اقامت دادهها در حال کاهش مازاد سیستم و افزایش اجرا هستند (گورکون و همکاران، 2008).
مشخصه مهم دوم از سیستمهای محاسبه فشرده درونی مدل برنامه نویسی به کار گرفته شده است. سیستمهای محاسبه فشرده دادهها یک روش مستقل ماشینی به کار میبرد که در آن کاربردها برحسب عملیات سطح بالا بر روی دادهها بیان میشود و سیستم زمان اجرا به طور شفاف زمان بندی، اجرا، تراز بار، ارتباطات و حرکت برنامهها و دادهها را در مقابل گروه محاسبه توزیع شده کنترل مینماید (بریانت 2008). چیکده برنامه نویسی و ابزارهای زبان اجازه پردازش میدهد تا برحسب جریانهای داده بیان میشود و تغییر شکلها زبانهای برنامه نویسی جریان داده جدید را هماهنگ میکند و کتابخانههای متصل به شبکه از الگوریتمهای دستکاریدادههای مشترک از قبیل مرتب نمودن را هماهنگ می:ند. ابر محاسبات قراردادی و سیستمهای محاسبه توزیع شده به طورمعمول مدلهای برنامه نویسی وابسته ماشینی را استفاده میکند که میتواند نیازمند کنترل برنامه نویس سطح پایین از پردازش باشد و ارتباطات گره از زبانهای برنامه نویسی موثر قراردادی استفاده میکند و نیز از پکیجهای نرم افزاری اختصاص یافته استفاده می نماید که پیچیدگی را به کار برنامه نویسی موازی اضافه نماید و بهرهوری برنامه نویس را کاهش میدهد.
یک مدل برنامه نویسی وابسته ماشینی نیز نیازمند میزان سازی مهم میباشد و تا حد زیادی به نقاط تنها از نقص، حساس میباشد. مشخصه سوم مهم از سیستمهای محاسبات دادههای فشرده تمرکز بر روی قابلیت اطمینان و دسترسپذیری است. سیستمهایی در مقیاس بزرگ با صدها یا هزاران گرههای پردازش به طور ذاتی نسبت به نقصهای سخت افزار، خطاهای ارتباطات و ویروسهای نرم افزاری حساس هستند. سیستمهای محاسبات دادههای فشرده طراحی شدند تا نشان دهنده نقص باشند. این شامل کپیهای اضافی از تمامی فایلهای دادهها بر روی دیسک و ذخیره سازی از نتایج پردازش میانجی بر روی دیسک، کشف اتوماتیکی از گرهها یا نقصهای پردازشگر و محاسبات دربارهی انتخابی از نتایج میشود. یک گروه پردازشگر برای محاسبات فشرده درونی پیکربندی شده است و به طور معمول میتواندعملیات را با یک تعداد کاهش یافته از گرهها ادامه دهد. یک نقص گره با بازیافت ناپیدا و اتوماتیک از پردازش ناقص به دنبال میآید. مشخصه نهایی مهم از سیستمهای محاسباتی فشرده درونی به طور ذاتی مقیاس پذیری از معماری نرم افزار و سخت افزار اساسی است. سیستمهای محاسباتی فشرده درونی میتواند به طور معمول در یک روش خطی مدرج شود تا واقعاً هر مقدار از داده را اصلا حنماید یا با نیازهای کارایی زمان حساس توسط اضافه کردن گرههای پردازش اضافی به یک پیکربندی سیستم برخورد نماید به منظور اینکه بیلیونها ثبت در هر ثانیه از میزان پردازش انجام شود. تعدادگرهها و کارهای پردازش برای کاربرد خاص تعیین شده که میتواند بسته به سخت افزار، نرم افزار، ارتباطات و معماری سیستم فایل توزیع شده متغیر باشد. این مقیاس پذیری اجازه بررسی را به مشکلات محاسبات میدهد تا به دلیل مقدار داده مورد نیاز یا مقدار زمان پردازش موردن یاز رام نشدنی باشد تا اکنون فرصتهای پیش آمده برای پیشرفتهای جدید درتحلیل دادهها و پردازش اطلاعات عملی و امکان پذیر باشد.
3-2-5- محاسبات شبکه
یک مثال مشابه محاسبات به عنوان محاسبات شبکه شناخته شده که به طور اولیه در محیطهای تحقیق محبوبیت به دست آورده است (آباس، 2004). یک شبکه محاسبات به طور معمول در طبیعت نامتجانس است (گرهها میتواند پردازشگر متفاوت، حافظه و منابع دیسک داشته باشد) و شامل کامپیوترهای مختلف چندگانه در سراسر سازمانها میشود و اغلب از نظر جغرافیایی از ارتباطات شبکه حوزه وسیع که معمولاً با پهنای باند نسبتاً کم است استفاده میشود. شبکهها به طور معمول استفاده میشوند تا مشکلات محاسبهای پیچیده را حل نمایند که محاسبات فشرده هستند و تنها به مقدار کوچکی از داده ها برای هر گره پردازش نیازمندند. تغییرات شناخته شده به عنوان شبکههای داده به مخزنهای مشترک داده اجازه میدهد که توسط یک شبکه در دسترس باشد و در پردازش کاربردی استفاده شود، هرچند پهنای باند کم از شبکههای داده تأثیر آنها را برای کاربردهای دادههای فشرده مقیاس بزرگ محدود میکند.
در مقابل سیستمهای محاسبات دادههای فشرده به طور معمول در طبیعت نامتجانس هستند (گرهها در گروه محاسبات پرداززشگر یکسان، حافظه و منابع دیسگ وارد) و از ارتباطات پهنای باند بالا بین گرهها از قبیل سویچهای اترنت گیگابایت استفاده میکند و در نزدیکی در یک مرکز داده با استفاده از سخت افزار چگالی عالی از قبیل سرورهای تیغهای که به طور قفسه سوار شده بسته میشود. سیستم فایل منطقی به طو رمعمول شامل تمامی دیسکهای موجود بر روی گرهها در گروه و فایل های دادهها میشود که در سراسر گرهها در مقابل مخزن دادههای مشترک جدا از قبیل یک شبکه حوزه مخزن توزیع میشود که نیاز دارد دادهها برای پردازش به سمت گرهها حرکت کنند. از نظر جغرافیایی سیستمهای شبکه توزیع شده بسیار مشکلند که مدیریت شوند و نسبت به سیستمهای محاسبات دادههای مشترک کمتر معتبر و کمتر این هستند که به طور معمول در محیطهای امن مرکز داده ها قرار دارد.
4-2-5- قابلیت اجرا محاسبات کلود
محاسبات کلود میتواند قالبهای زیادی به کار گیرد. بسیار کلود را به عنوان اینترنت یا وب تصور می کنند که اغلب در این حالت نمایش داده میشوند، اما یک تعریف بسیار کلی این است که محاسبات کلود از محل منابع محاسبات تغییر میکند و زیر ساخت کاربردهای محاسبات را برای شبکه ارائه میدهد. (واکورو و همکاران، 2009).
دسترس پذیری نرم افزار از طریق کلود یک سرویس میشود، پایگاههای استفاده و دسترس پذیری از طریق کلود گسترش مییابد و کاربردهای جدیدی را ارائه میدهد تا یک خدمت شود و سخت افزار و نرم افزار زیر ساخت و مرکز دادههای مجازی و محیطهای قابل دسترس را ایجاد مینماید که از طریق کلود یک خدمت میشود (ویس، 2007).
دیگر مشخصه ها معمولاً با محاسبات کلود همراه است که شامل کاهش در هزینههای همراه با مدیریت منابع سخت افزار و نرم افزار است (هایس 2008) توجه فوری دسترسی به کاربردهای نرم افزار و منابع محاسبات بنا به تقاضا میباشد (واکورو و همکاران، 2009) تأمین ذخیره دینامیک از زیرساخت و مقیاس پذیری از منابع سایز داده و نیازهای محاسبات را هماهنگ میکند که به طور مستقیم برای مشخصههایی از محاسبات دادههای فشرده قابل اجرا است (گروس من وگو 2009). بویا و همکاران (2009) تعریف جامع از یک کلود را ارائه میدهد: یک کلود یک نوع از سیستم توزیع شده و موازی است که شامل یک مجموعه از کامپیوترهای مجازی شده و اصتال شده درونی میباشد که به طور دینامیک تهیه شده و به عنوان یک یا چند منابع محاسبات متحد شده براساس توافقات سطح سرویس را معرفی می نماید که از طریق مذاکره بین ارائه دهنده سرویس و مصرف کننده ایجاد میشود.
مدل محاسبات کلود به طور مستقیم برای مشخصههای محاسبات دادههای فشرده قابل اجرا است که زیر ساختی به عنوان یک خدمت (Iaas) و پایگاه به عنوان یک خدمت (paas) هستند.
Iaas (زیر ساخت به عنوان یک خدمت) به طور معمول شامل یک مخزن بزرگی از منابع مجازی شده دارای توانایی پیکرسازی میشود که میتواند شامل سخت افزار، سیستم عملکرد، میان افزار و پایگاههای پیشرفت یا دیگر خدمات نرم افزار میشود که میتواند درجه دار باشد تا بارهای پردازش متنوع را تطبیق میکند (واکورو و همکاران، 2009). گروههای محاسبات به طور معمول برای پردازش دادههای درونی استفاده میشود که میتواند در این مدل ارائه شده باشد. محیطهای پردازش از قبیل مپاردیوس هوپ و Hpcc لیکیس نکسنیر است که شامل قابلیتهای پایگاه پیشرفت اجرایی به علاوه اجرای زیر ساخت اساسی پایگاه به عنوان یک مدل خدمت (paas) میشود.
کاربردها با یک درجه بالایی از تطابق دادهها و یک نیاز که مجموعه دادههای بسیار بزرگ را پیش میبرد و میتواند مزیت محاسبات کلود و صدها استفاده Iass و paas از کامپیوترهای تهیه شده برای یک مدت کوتاه به جای یک یا چند تعداد کوچک از کامپیوترها برای مدت طولانی به کار گرفته شود. (آرمبراست و همکاران، 2009)
برطبق آرمبرلست و همکاران در گزارش تحقیقاتی بر کلی دانشگاه کالیفرنیا (آرمبراست و همکاران، 2009)
این مدل پردازش به طور ویژه به خوبی با تحلیلهای داده و دیگر کاربردها مناسب شده که میتواند از پردازش دستهای موازی سود برد. هرچند تحلیل منافع و هزینه کاربر باید نیز شامل هزینه حرکت مجموعه دادههای بزرگ درون کلود به علاوه تسریع و هزینه پردازش کمتر ارائه شده توسط مدلهای Iass و Paas میشود.
3-5- معماریهای سیستم دادههای فشرده
یک تنوعی از معماریهای سیستم برای کاربردهای تحلیل دادهها در مقیاس بزرگ و دادههای فشرده اجرا می شود شامل سیستمهای مدیریتی پایگاه دادههای رابطهای توزیع شده و موازی میشود که به طور مهم پیوسته گروههای بی ارزش مشترک از گرههای پردازش برای بیش از دو دهه موجود میباشد (پاولو و همکاران، 2009). اینها شامل سیستمهای پایگاه دادهها از ترادتیا، نتیزا، ورتیکا و اگزادیتار اوراسل و دیگران میشود که پایگاههای دادههای موازی کارایی عالی را ارائه میدهد. اگرچه این سیستمها این توانایی را دارند تا کاربردهای موازی به کار گرفته شود و سوالات در زبان SQL بیان شود، آنها به طور معمول پایگاههای پردازش همه منظوره نیستند و معمولاً به عنوان یک برنامه کارهای زمینهایی اجرا می شود تا یک سیستم پردازش کاربردی نرم افزار نهایی را جدا نماید. اگرچه این روش منافعی را ارائه میدهد هنگامیکه دادهها به کار گرفته میشود به طور اولیه در طبیعت ساخته میشود و به آسانی درون محدودیتهایی از یک پایگاه داده رابطهایی آماده میشود و اغلب برای کاربردهای پردازش تراکنشها بهتر میباشد، بیشترین رشد دادهها با دادههایی به شکل غیر ساختار است (گانتز و همکاران 2007) و مثالهای پردازش جدید یا مدلهای دادههای بسیار انعطاف پذیر مورد نیاز میباشد. شرکتهای اینترنتی از قبیل گوگل، یاهو، مایکروسافت، فیس بوک و دیگران به یک روش پردازش جدید نیاز دارند تا به طور کارآمد با مقدار عظیمی از دادههای وب برای کاربردهایی از قبیل موتورهای جستجو و شبکه اجتماعی برخورد نماید. به علاوه بسیاری از سازمانهای دولتی و تجاری با دادههایی غوطه ور شدند که نمیتواند به طور موثر پردازش،پیوند یافته و با روشهای محاسبه سنتی تحلیل یافته شود. چندین راهحل پدیدار شد که شامل پیشگام شدن معماری Map Reduce توسط گوگل میشود و اکنون دسترسی به یک اجرای منشأ باز هادوپ نامیده میشود که توسط یاهو، فیس بوک و دیگران استفاده میشود. Lexis Nexis، رهبر صنعت تصدیق شده در خدمات اطلاعاتی نیز یک پایگاه مقیاس پذیر را برای محاسبه دادههای فشرده گسترش و اجرا کرد که توسط لیکسیس نکسیس و دیگر سازمانهای دولتی و تجاری استفاده میشود تا حجمهای زیادی از دادههای ساختار شده و غیر ساختار شده پیش ببرد. این روشها توضیح داده خواهد شد و برجسب ساختار کلیشان، مدل برنامهنویسی، سیستمهای فایل و قابلیت اجرا که بتواند در بخش بعدی محاسبه شود مقایسه گردد. روشهای مشابه با استفاده از گروههای محاسبات کالا شامل بخش/ حوزه (گرونس من و گو 2008، گروس من وگو، سابالاوژانگ 2009،گو، گروس من 2009) دامنه/ گیتی (چایکن و همکاران، 2008) دریاد لینک (یو، گوندا و ایسارد 2009) منیدر (لور و همکاران 2008) در دسته شبکهایی (لیو و اوربان 2008) میشود که اخیراً در ادبیات توصیف شده و نیز برای کاربردهای محاسبات کلود دادههای فشرده مناسب است و تناوبهای اضافی را معرفی مینماید.
1-3-5- Map Reduce گوگل
معماری مپ ردیوس و مدل برنامهنویسی پیشگام شده توسط گوگل یک مثالی از معماری سیستمهای پیشرفته است که برای پردازش و تحلیل پایگاه داده های بزرگ طراحی شده و به طور موفقیت آمیز توسط گوگل در بسیاری از کاربردها استفاده میشود تا مقدار عظیمی از دادههای خام وب را پردازش نماید (دین و گماوت 2004) معماری مپ ردیوس به برنامه نویسها اجازه میدهد تا از یک سبک برناهم نویسی نقشی استفاده ننمایند تا یک کار نقشه را ایجاد نمایند که جنت مقدار کلیدی همراه شده با دادههای ورودی را پردازش می کند تا یک مجموعه از جفت مقدار کلیدی میانه با همان کلید میانه تولید نماید (دین و گماوت 2004) با توجه به دین و گماووت (2004) برنامههای مپ ردیوس میتواند استفاده شود تا دادههای مشتق شده را از اسنادی از قبیل شاخصهای وارونه استخراج نماید و پردازش به طور خودکار توسط سیستم موازی میشود که بر روی گروههای زیادی از ماشینهای نوع مواد اولیه اجرا میشود، که تا حد زیادی با هزاران ماشین میزان پذیری است. از آنجائیکه سیستم به طور خودکار به جزئیات جزءبندی دادههای ورودی زمان بندی و کارهای اجرایی در سراسر یک گروه پردازش توجه میکند و مدیریت ارتباطات بین گرهها، برنامه نویسها بدون تجربه در بنرامه نویسی موازی میتواند به آسانی از محیط پردازش توزیع شده استفاده نماید.
مدل برنامه نویسی برای معماری مپ ردیوس یک چکیده ساد است که آنجا محاسبات یک مجموعه از جفت ارزش های کلیدی ورودی همراه با دادههای ورودی به کار میگیرد و یک مجموعه از جفتهای ارزش کلیدی خروجی تولید مینماید. مدل کلی برای این پردازش در شکل 2-5 نشان داده شده است.
در مرحله Map، داده های ورودی انشعابهای ورودی جزء بندی میشود و برای کارهای Map همراه با گرههای پردازش در گروه تعیین میشود. کار Map به طور معمول بر روی همان گره محتوی جزء تعیین شده از داده در همان گروه اجرا میشود. این کارهای Map محاسبات تعیین شده کاربر را بر روی هر جفت مقدار کلیدی ورودی از قسمت دادههای ورودی تعیین شده برای کار انجام میدهد و یک مجموعهایی از نتایج واسطه برای هر کلید تولید مینماید. مرحله ترکیب و فرمان Sort (دسته بندی) سپس دادههای واسطه تولید شده توسط هر کار Map را به کار می گیرد و این دادهها را با دادههای واسطه از دیگر گره ها دسته بندی میکند و این دادهها را درون مناطقی که توسط کارهای کاهشی پردازش شده باشد تقسیم میکند و این دادهها را چنانچه که برای گرهها نیاز باشد توزیع میکند در جائیکه کارهای کاهشی اجرا خواهد شد.
همه کارهای Map باید قبل از ترکیب و دسته بندی کامل شود و مراحل را کاهش دهد. تعدادکارهای کاهشی نیازی نیست با تعدادکارهای Map یکسان باشد. کارهای کاهشی اجراهای اضافی تعیین شده کاربر را بروی دادههای واسطه که احتمالاً ارزشهای پیوندی همراه با یک کلید وارد اجرا میشود تا یک مجموعه کوچکتر از ارزشها دادههای خروجی را تولید کند. برای فرایند پردازش دادههای بسیار پیچیده، فراخوانیهای چند گانه Map Reduce با یکدیگر در یک رشته پیوند مییابند.
شکل 3-5- معماری مپ ردیوس و پردازش مقدار کلیدی را با جزئیات بیشتر نشان میدهد. دادههای ورودی میتوانند شامل فایلهای ورودی چند گانه باشد. هر کار Map یک فایل خروجی میانه را برای هر منطقه کلیدی تولید خواهد کرد که براساس کارهای کاهشی تعیین میشود، R برای این فرایند یا پردازش تعیین میشود. (R ضریبهای (کلیدی) پارازیت تصویر روی یک صفحه نمایش). نقش کاهشی پس فایلهای واسطه را میکشد، دسته بندی و الحاق فایلها برای یک منطقه ویژه از همه کارهای Map صورت میگیرد. برای حداقل کردن مقدار دادههای انتقال یافته در سراسر شبکه، یک نقش ترکیب کننده اختیاری میتواند تعیین شود که بر روی همان گره اجرا میشود که یک کار Map انجام میشود. کد ترکیب کننده معمولاً همان کد نقش کاهنده است که پیوند جزئی را انجام داده و دادهها را برای جزء محلی کاهش میدهد و پس فایلهای واسطه را مینویسد که برای کارهای کاهشی توزیع شده باشد. خروجی نقش کاهشی (Reduce) همانند فایل خروجی نهایی نوشته شده است. در اجرای گوگل از Map Reduce، نقشها به شکل زبان برنامه نویسی c++ کدگذاری شده است.
معماری Map Reduce در زیر قرار گرفته و دارای چندین لایه، سیستم فایل گوگل است (GFS)
GFS طراحی شده بود تا یک سیستم فایل توزیع شده مقیاس پذیر و با کارایی عالی برای فایلهای دادههای خیلی بزرگ باشد و کاربردهای دادههای فشرده تحمل نقص را ارائه میدهد و بر روی گروههایی از سخت افزار کالا اجرا میگردد. (گماووت و گوبیوف و لئونگ 2003). GFS به فایلهای خیلی بزرگ نزدیک شده که در حال تقسیم کردن و دسته بندی آنها در سایز ثابت مقدارهایی از 64mb توسط حالت پیش فرض که توسط گرهها در گروه مدیریت میشود و سرورهای تکهایی نامیده میشود. هر GFS شامل یک گره اصلی تنهاست که در حال عمل کردن به عنوان یک سرور نام است و گرههای چند گانه در گروه به عنوان سرورهای تکهایی با استفاده از یک ماشین براساس سیستم عاملهای قوی و سرعت بالا جنس (گره در یک گروه) یک فرایند سرور سطح کاربر را اداره می نماید. تکهها در فایلهای Linux لینوکس واضح ذخیره میشوند که تنها آنچه نیاز است و بروی گرههای چند گانه تکرار میشود توسعه مییابد تا قابلیت دسترسی بالا را ارائه و اجرا را بهبود بخشد.
دوماً سرورهای نام پشتیبانی با پک آپ برای شاه گره ارائه میدهد. سایز تکه بزرگ نیاز برای برنامههای مشتریهای Map Reduce را کاهش میدهد تا با شاه گره متقابلاً عمل نماید و به سیستم فایل متادیتا اجازه میدهد تا در حافظه در شاه گره نگهداشته شود و در حال بهبود اجرا باشد و به بسیاری از عملکردها اجازه میدهد تا با یک خواندن تنها بر روی تکهایی از دادهها توسط مشتری مپ ردیوس اجرا شود. بطور کامل،تکههای ورودی برای عملکردهای مپ ردیوس سایز تکه GFS هستند. GFS ثابت کرده که تا حد زیادی برای محاسبات دادههای فشرده بروی فایلهای خیلی بزرگ موثر میباشد، اما برای فایلهای کوچک که میتواند باعث نقاط داغ شود کمتر موثر است، اگرچه کارهای زیاد Map Reduce دسترسی به همان فایل است. گوگل ابزارهای اضافی را با استفاده از مپ ردیوس و معماری GFS اجرا کرده تا بهرهوری برنامه نویس را بهبود بخشد و تحلیل داده و پردارش دادههای ساختار شده و غیرساختار شده را افزایش دهد. از آنجائیکه سیستم فایل GFS به طور اولیه نزدیک به پردازش ترتیبی فایلهای بزرگ است، گوگل یک سیستم ذخیره سازی توزیع شده با دسترس پذیری برای داده ساختار شده با کنترل دینامیک بر روی فرمت داده ها با قابلیت دسترسی تصادفی کلیددار انجام میدهد (چانگ و همکاران2006) نقشهای مدیریتی داده مثل ایجاد و حذف جدولها و نقشهای دستکاری داده توسط کلید سطری شامل عملکردهایی برای خواندن، نوشتن و اصلاح دادهها میشود. اطلاعات شاخص برای جدولهای بزرگ استفاده کردن از اطلاعات جدول ذخیره شده در ساختار شبیه به یک درخت B+ میباشد. کاربردهای مپ ردیوس میتواند با Big table (جدول بزرگ) استفاده شود تا دادهها را تغییر شکل داده و پیش ببرد و گوگل بسیاری از کاربردهای مقیاس بزرگ را اجرا میکند که از جدول بزرگ برای ذخیره سازی استفاده مینماید که شامل Google Earth میشود.
گوگل نیز یک زبان سطح عالی را برای اجرای تحلیل دادههای موازی انجام داده و از پردازش دادهها برای جستجو اطلاعات پنهان با استفاده از مپ ردیوس و معماری GFS استفاده میکند که SQW2all نامیده میشود و یک مدیریت گردش کار و زیر ساخت زمان بندی برای شغلهای saw2all است که صف کاری نامیده میشود (پیک دوروارد، گریس مر و کیونلاین 204). برطبق نظر پیک و همکاران (2004)، اگرچه C++ در شغلهای Map Reduce استاندارد شایسته جابجایی کارهای تحلیل داده است، آن بسیار مشکل است که از آن استفاده نماییم و نیازمند تلاش قابل ملاحظهایی توسط برنامه نویس میباشد. برای بسیاری از کاربردها با استفاده از saw2all اجرا میشود، این کد بسیار سادهتر و کوچکتر از معادل C++ توسط یک عامل از 10 یا بیشتر میباشد. یک برنامه saw2all عملکردهایی بروی یک ثبت تنها از داده تعریف میکند، این زبان اجازه بررسی ثبتهای ورودی چندگانه بطور همزمان را نمیدهد و یک ثبت ورودی نمیتواند پردازش دیگری را تحت تأثیر قرار دهد.
یک دستور ساقع به داده پردازش شده اجازه میدهد با یک اینترنت و کامپیوتر خارجی خروجی باشد که قابلیت دسترسی برای تمام فایلهای ثبتها و دادهها را ارائه میدهد تا با استفاده از برنامه saw2all پردازش شده باشد. این سیستم در یک باب دستهای اجرا میکند که در آن یک کاربر یک شغل را ارائه میدهد که برنامه saw2all را بر روی یک مجموعه ثابت شده از فایلها و داده ها اجرا میکند و خروجی در پایان یک اجرا جمع آوری مینماید. شغلهای saw2all میتواند زنجیرهای باشد تا فرایندهای بسیار پیچیده را حمایت کند. برنامههای saw2all درون یک کد میانی گردآوری میشوند که در طول زمان اجرا تفسیر شده است. چندین دلیل توسط پیک و همکاران بیان شده که چرا یک زبان جدید برای تحلیل دادهها و کاربردهای پردازش داده استفاده مبیشود تا اطلاعات پنهان را جستجو کند:
1) یک زبان برنامه نویس برای یک حوزه مشکل مخصوص ایجاد شده که برنامههای نتیجه را «واضحتر» و بسیار فرشده و بسیار پرمعنی میسازد 2) اجتماعها در زبان saw2all تعیین شده بنابراین برنامه نویس انجام نمیدهد و مجبور است یک کار Reduceاز برنامه مپ ردیوس استاندارد ارائه دهد 3) یک زبان برنامه نویس نزدیک به تحلیل داده روش بسیار طبیعی ارائه میدهد تا در مورد مسائل پردازش داده برای پایگاه دادههای توزیع شده بزرگ فکر کند، و 4) برنامهای saw2all به طور چشمگیر کوچکتر از معادل برنامههای c++ مپ ردیوس هستند و به طور چشمگیر آسانتر برنامه ریزی میشود.
گوگل به طور متداول دسترسی به معماری مپ ردیوس در محاسبه عمومی کلود در محیط Iaas و paas ندارد. گوگل هرچند موتور کاربردی گوگل را به عنوان یک محاسبه عمومی کلود در محیط paas ارائه میدهد (لنک و همکاران 2009، واکورو و همکاران 2009).
2-3-5- هادوپ Hadoop
هادوپ یک پروژه نرم افزاری منبع باز است که توسط موسسه نرم افزاری آپاچ ضمانت میشود (www.apache.org) به دنبال انتشار در سال 2004 گزارش تحقیق مپ ردیوس گوگل (دیمین و گماوات 2004) یک تلاشی را توصیف میکند که در رابطه با پروژه Nutch موجود یک اجرای منبع باز از معماری مپ ردیوس (وایت 2009) ایجاد مینماید. آن بعداً یک پروژه قبلی مستقل از Lucene میشود که توسط یاهو شامل شده است! بعدی توسعه دهنده تدارک برای هادوپ است که یک کارمند میشود و یک پروژه سطح بالا Apache رسمی در فوریه 2006 میشود. هادوپ اکنون شامل پروژههای قبلی به علاوه هسته پایه، مپ ردیوس و سیستم فایل توزیع شده HIDFS میشود. این پروژههای قبلی اضافی قابلیت پردازش کاربردی افزایش یافته را برای اجرای هادوپ پایه ارائه میدهد و به طور رایج شامل آورو، پیگ، HBase، زوکیپر، هایو و چوکوا میشود. اطلاعات زیادی میتواند در سایت وب Apache یافت شود.
معماری مپ ردیوس هادوپ به طور نقشی شبیه به اجرای گوگل به جز زبان برنامه نویسی پایه برای هادوپ است که جاوا به جای c++ است. این اجرا انتظار دارد بر روی گروههایی از پردازشگرهای کالا اجرا شود (شکل 4-5)
لینوکس Linux به عنوان عملکرد محیط سیستم استفاده شود، اما نیز میتواند بر روی یک سیستم تنها به عنوان محیط یادگیری اجرا شود. گروههای هادوپ نیز از مثال پردازش توزیع شده «صفر مشترک» مربوط به سیستمهای فردی با پردازشگر محلی، حافظه و منابع دیسک با استفاده از ارتباطات سرعت بالا استفاده میکند که در حال تعویض قابلیتها به طور معمول در پیکربندی قفسه سوار شده میباشد. این قابلیت انعطاف از پیکربندیهای هادوف به گروههای کوچک اجازه میدهد برای آزمایش و گسترش با استفاده از سیستمهای دسک تاپ یا هر سیستم اجرا کننده یونیکس / لینوکس ایجاد شود تا ی محیط JVM را ارائه دهد. هرچند گروههای تولید به طور معمول از پردازشگرهای قفسه سوار شده در یک محیط مرکز داده استفاده مینمایند.
معماری مپ ردیوس هادوپ شبیه اجرای گوگل است و تکههای ورودی سایز ثابت شده از دادههای ورودی ایجاد مینماید وتکههایی را برای کارهای Map تعیین مینماید. خروجی محلی از کارهای Map به گرههای Reduce کپی میشود آنجا که آن ذخیره شده و برای پردازش توسط کارهای ردیوس ترکیب میشود تا خروجی نهایی را چنانچه در شکل 5-5 نشان داده شده تولید نماید.
اجرای هوپ، زمان بندی پردازش دادههای توزیع شده و محیط اجرای و چهارچوبی برای شغلهای مپ ردیوس میباشد. یک شغل مپ ردیوس یک واحد از کار است که شامل دادههای ورودی همراه با برنامههای ردیوس و مپ و اطلاعات پیکربندی تعیین شده کاربر میباشد. چهارچوب هادوپ از یک معماری ارباب / برده با یک سرور مسلط تنها استفاده میشود که یک دنبال کننده شغل نامیده میشود و سرورهای برده دنبال کننده کار برای هر گره در گروه نامیده میشود. دنبا کننده شغل ارتباطات واسط بین کاربرها و چهارچوب است و با اجرای شغلهای مپ ردیوس متناسب است. کاربرها شغلها را برای دنبال کننده شغل ثبت میکند که آنها را در یک صف کارها گذاشته و آنها را بر روی یک پایه آمده برای اولین بار یا به کار گرفته شده برای اولین بار اجرا میکند. دنبال کنندههای شغل انتساب به کارهای Map و Reduceرا برای گرههای دنبال کننده کار مدیریت میکند که پس از این کارها را
دانلود مقاله فناوری دادههای فشرده برای محاسبات کلود cloud