فایلکو

مرجع دانلود فایل ,تحقیق , پروژه , پایان نامه , فایل فلش گوشی

فایلکو

مرجع دانلود فایل ,تحقیق , پروژه , پایان نامه , فایل فلش گوشی

10مقاله فارسی جدید درباره امنیت در رایانش ابری

اختصاصی از فایلکو 10مقاله فارسی جدید درباره امنیت در رایانش ابری دانلود با لینک مستقیم و پر سرعت .
10مقاله فارسی جدید  درباره امنیت در رایانش ابری

 

10مقاله فارسی جدید  درباره امنیت در رایانش ابری  جهت استفاده و بهره برداری قرار داده شده است ./

 

فرمت مقالات : PDF/

 

عناوین مقالات :

  • حریم خصوصی و امنیت داده در رایانش ابری
  • افزایش امنیت رایانش ابری همراه با امنیت ذخیرهسازی دادهها با استفاده از AES . سال انتشار 2015
  • امنیت موبایل در رایانش ابری . سال انتشار 2016
  • مجازی سازی راهکاری جهت افزایش امنیت در رایانش ابری . سال انتشار 2016
  • روشی نوین برای برقراری امنیت دادهها در رایانش ابری با استفاده از ترکیب الگوریتم فاخته و بهینه سازی ازدحام ذرات . سال انتشار 2016
  • بررسی و تحلیل چالشهای امنیت در رایانش ابری و ارائه راهکار. سال انتشار 2016
  • بررسی امنیت و چالش های رایانش ابری. سال انتشار 2015
  • مروری بر چالشها و راهکارها در امنیت رایانش ابری. سال انتشار 2015
  • مطالعه و بررسی زیرساختی امنیت در رایانش ابری از طریق روش های تجمیع مجازی سازی و خط مشی های کنترلی . سال انتشار 2013
  • پیاده سازی موازی رمزنگاری هومومرفیک somewhat با استفاده از تکنیک موازی سازی OpenMp  جهت بالابردن امنیت در رایانش ابری . . سال انتشار 2016

 

تماس با ما برای راهنمایی یا ترجمه با آدرس ایمیل:

magale.computer@gmail.com

 

 

شماره تماس ما در نرم افزار تلگرام:

تماس با ما+98 9337843121 

 

 تماس با ماکانال تلگرام‌  @maghalecomputer

 

 توجه: اگر کارت بانکی شما رمز دوم ندارد، در خرید الکترونیکی به مشکل برخورد کردید و یا به هر دلیلی تمایل به پرداخت الکترونیکی ندارید با ما تماس بگیرید تا راههای دیگری برای پرداخت به شما پیشنهاد کنیم.


دانلود با لینک مستقیم


10مقاله فارسی جدید درباره امنیت در رایانش ابری

خودکارسازی آزمون نرم¬افزاری محاسبات ابری (Automated Software Testing the Cloud commputing) - فایل Word

اختصاصی از فایلکو خودکارسازی آزمون نرم¬افزاری محاسبات ابری (Automated Software Testing the Cloud commputing) - فایل Word دانلود با لینک مستقیم و پر سرعت .

محاسبات امروزی بازتاب دهنده دو واقعیت متضاد است، از یک سو قیمت تمام شده برای هر قطعه به خاطر پیشرفت صنعت رایانه به سرعت رو به کاهش است، از سوی دیگر بدنبال فراگیر شدن محاسبات در سازمان­ها و در نتیجه افزایش پیچیدگی در مدیریت زیرساخت­های اطلاعاتی توزیع شده و ناهمگن، انجام محاسبات بیش از پیش هزینه بر شده است.

تعاریف رسمی متفاوتی در­خصوص محاسبات ابری می‌توان یافت موسسه استاندارد و فناوری ملی آمریکا یا NIST[1]، محاسبات ابری را اینچنین تعریف می‌کند : "مدلی برای ایجاد سهولت در درخواست دسترسی به شبکه به منظور اشتراک گذاردن مجموعه­ای از منابع محاسباتی با قابلیت پیکر­ه­بندی شدن (مانند شبکه­ها، سرورها، سیستم­های­ ذخیره­سازی و سرویس­ها) که سریعاً و با صرف کمترین عملیات مدیریتی و تعامل با فراهم­آورنده خدمات، قابل دسترس می­باشند"[2].

در[3] رسالت محاسبات ابری، برآورده شدن تمامی کارکردهای خدمات فناوری اطلاعات بیان شده­است. با درک سازمان­ها از سرمایه­گذاری ناکارا در حوزه­IT، از هم اکنون عزم راسخ آنها در حرکت به سمت محاسبات ابری قابل مشاهده است. پژوهش صورت گرفته بر روی شش مرکز داده[2] بیانگر این است که اکثر سرورها تنها از 10-30% توان محاسباتی خود و رایانه­های رومیزی نیز تنها از 5% توان خود بهره می­برند[4]. محرک بعدی سازمان­ها به سمت محاسبات ابری را می‌توان در تحقیقی که اخیراً توسط گارتنر صورت گرفته یافت، این تحقیق نشان از صرف حدود دو سوم از بودجه استخدام کارکنان حوزه فناوری اطلاعات سازمان در جهت استخدام کارکنان بخش پشتیبانی و نگهداری آن هم درست زمانی که صحبت از جهانی­سازی و رقابت سنگین است، می‌دهد[3].

محاسبات ابری دربرگیرنده دو ویژگی اصلی در فناوری اطلاعات است، 1)اثربخشی IT، که به وسیله آن قدرت رایانه­های پیشرفته به واسطه برخورداری از منابع سخت­افزاری و نرم‌افزاری با قابلیت مقیاس­پذیری بالا، کاراتر می‌شود. 2)کسب و کار چابک[3]، که از این طریق می‌توان ازIT  به عنوان یک ابزار رقابتی با قابلیت توسعه سریع، استفاده از پردازش دسته­ای موازی[4] و نرم‌افزارهای هوشمند با قابلیت مستقل از سکو در زمینه تحلیل کسب و کار به صورت محاوره­ای، بهره برد. همچنین ایده محاسبات ابری دربرگیرنده مفهوم محاسبات سبز است. به کمک محاسبات سبز، نه تنها از منابع محاسباتی به صورت کارا و مفید استفاده می‌شود بلکه رایانه­ها می‌توانند در نقاط جغرافیایی که از هزینه نیروی الکتروسیته پایین سود می­برند، راه­اندازی شوند و همزمان از نیروی محاسباتی آنها از راه دور، بهره گرفت. در ضمن اصطلاح کسب وکار چابک، به این نکته اشاره دارد که محاسبات ابری تنها شامل محاسبات ارزان نیست و اشاره به قابلیت کسب وکارها در استفاده از ابزارهای محاسباتی به شیوه­ای سریع و مقیاس­پذیر بدون نیاز به سرمایه­گذاری­های گسترده دارد[4]. مهمترین موضوعاتی که در محاسبات ابری پوشش داده می‌شود عبارتند از 1)استفاده کارا از منابع 2)مجازی­سازی منابع فیزیکی 3)انتزاع در معماری 4)مقیاس­پذیری به صورت پویا 5)خودیاوری[5] ساده و خودکار منابع 6)در دسترس بودن[6] 7)مدل هزینه عملیاتی.


[1] National Institute of Standards and Technology

[2]  Data Center

[3]Business Agility

[4]  Paralle Batch Process

[5] Self-Service

[6]  Ubiquity


دانلود با لینک مستقیم


خودکارسازی آزمون نرم¬افزاری محاسبات ابری (Automated Software Testing the Cloud commputing) - فایل Word

Resource Optimization and Security for Cloud Services, Wiley, 2014, کتاب

اختصاصی از فایلکو Resource Optimization and Security for Cloud Services, Wiley, 2014, کتاب دانلود با لینک مستقیم و پر سرعت .

Resource Optimization and Security for Cloud Services, Wiley, 2014, کتاب


Resource Optimization and Security for Cloud Services, Wiley, 2014, کتاب

Resource Optimization and Security for Cloud Services, Wiley, 2014

مطالب

Chapter 1. Introduction . . . . . . . . . . . . . . . . . . 1
1.1. Motivation . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. The problems . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Summary of contributions . . . . . . . . . . . . . . 9
1.4. The organization of this book . . . . . . . . . . . . 11
Chapter 2. Current Approaches for Resource
Optimization and Security . . . . . . . . . . . . . . . . 13
2.1. Service availability . . . . . . . . . . . . . . . . . . 14
2.2. Trustworthiness . . . . . . . . . . . . . . . . . . . . 16
2.3. Performance . . . . . . . . . . . . . . . . . . . . . . 18
2.4. The resource optimization problem subject
to an SLA . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5. Public-key cryptography-based
authentication . . . . . . . . . . . . . . . . . . . . . 22
Chapter 3. Single Class Customers . . . . . . . . . . 27
3.1. The percentile of response time . . . . . . . . . . . 28
3.2. A resource optimization problem for service
models with single-class customers . . . . . . . . 29
3.3. Approaches for the resource optimization . . . . 31
vi Resource Optimization and Security for Cloud Services
3.4. Numerical validations . . . . . . . . . . . . . . . . 38
3.5. The balanced condition . . . . . . . . . . . . . . . . 43
3.6. Services Performance Modeling and Analysis
in a Simple Scenario of Cloud Computing . . . . 49
3.6.1. Overview . . . . . . . . . . . . . . . . . . . . . . 50
3.6.2. A computer service performance model . . . 54
3.6.3. A numerical validation . . . . . . . . . . . . . . 62
3.6.4. Discussions . . . . . . . . . . . . . . . . . . . . . 65
3.7. Concluding remarks . . . . . . . . . . . . . . . . . . 66
Chapter 4. Multiple-Class Customers . . . . . . . . . 69
4.1. The SLA performance metric in the case of
multiple class customers . . . . . . . . . . . . . . . 70
4.2. The resource optimization problem for multiple
customer services . . . . . . . . . . . . . . . . . . . 71
4.2.1. Resource optimization problem for multiple
class customers . . . . . . . . . . . . . . . . . . 72
4.3. Approaches for resource optimization . . . . . . 72
4.3.1. The LSTs of response time distributions for
two priority customers . . . . . . . . . . . . . . 72
4.3.2. Algorithms for the resource optimization
problem . . . . . . . . . . . . . . . . . . . . . . . 77
4.4. Numerical validations . . . . . . . . . . . . . . . . 86
4.5. Concluding remarks . . . . . . . . . . . . . . . . . . 93
Chapter 5. A Trustworthy Service Model . . . . . . 95
5.1. The trust-based resource optimization
problem . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.2. A framework for solving the trust-based
resource provisioning problem . . . . . . . . . . . 99
5.3. The calculation of SLA metrics . . . . . . . . . . . 104
5.3.1. The trustworthiness of resource sites . . . . . 104
5.3.2. The percentile response time . . . . . . . . . . 108
5.3.3. The service availability . . . . . . . . . . . . . 110
5.4. An approach for solving the trust-based
resource provisioning problem . . . . . . . . . . . 111

5.4.1. Single-class customers . . . . . . . . . . . . . . 112
5.4.2. Multiple priority customers . . . . . . . . . . . 120
5.5. Numerical examples . . . . . . . . . . . . . . . . . 130
5.5.1. Single-class customers . . . . . . . . . . . . . . 130
5.5.2. Multiple priority customers . . . . . . . . . . . 134
5.6. Concluding remarks . . . . . . . . . . . . . . . . . . 138
Chapter 6. Performance Analysis of Public-Key
Cryptography-Based Group Authentication . . . . 141
6.1. Public-key cryptography-based
authentication . . . . . . . . . . . . . . . . . . . . . 142
6.2. PKCROSS and PKTAPP . . . . . . . . . . . . . . 144
6.2.1. Protocol analysis . . . . . . . . . . . . . . . . . 145
6.2.2. The calculation of the response time via
queuing networks . . . . . . . . . . . . . . . . . 150
6.3. A new group authentication technique using
public-key cryptography . . . . . . . . . . . . . . . 156
6.3.1. A single remote realm . . . . . . . . . . . . . . 156
6.3.2. Multiple remote realms . . . . . . . . . . . . . 161
6.4. Performance evaluation of the new
proposed technique . . . . . . . . . . . . . . . . . . 163
6.4.1. The operations of encryption
and decryption . . . . . . . . . . . . . . . . . . . 163
6.4.2. The calculation of the response
time via a queuing network . . . . . . . . . . . 167
6.4.3. Discussions . . . . . . . . . . . . . . . . . . . . . 170
6.5. Concluding remarks . . . . . . . . . . . . . . . . . . 171
Chapter 7. Summary and Future Work . . . . . . . . 173
7.1. Research summary of the book . . . . . . . . . . . 173
7.2. Future research directions . . . . . . . . . . . . . . 176
Bibliography . . . . . . . . . . . . . . . . . . . . . . . . . . 181
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193


دانلود با لینک مستقیم


Resource Optimization and Security for Cloud Services, Wiley, 2014, کتاب

مقاله فارسی در زمینه بررسی مدل های زمانبندی در محاسبات ابری -- Cloud Computing Scheduling

اختصاصی از فایلکو مقاله فارسی در زمینه بررسی مدل های زمانبندی در محاسبات ابری -- Cloud Computing Scheduling دانلود با لینک مستقیم و پر سرعت .

مقاله فارسی در زمینه بررسی مدل های زمانبندی در محاسبات ابری -- Cloud Computing Scheduling


مقاله فارسی در زمینه بررسی مدل های زمانبندی در محاسبات ابری -- Cloud Computing Scheduling

در این مقاله در زمینه روشهای مختلف زمابندی کارها یا وظایف (Task Scheduling) در سیستم های محاسبات ابری (Cloud Computing) بحث شده است و کارایی آنها اندازه گیری شده است. به مدل های Buffer Pool  و  Ecomer در این مقاله اشاره شده است.

 

 

 

پس از خرید از درگاه امن بانکی لینک دانلود در اختیار شما قرار میگیرد و همچنین به آدرس ایمیل شما فرستاده میشود.

 

تماس با ما برای راهنمایی، درخواست مقالات و پایان نامه ها و یا ترجمه با آدرس ایمیل:

ArticleEbookFinder@gmail.com

 

شماره تماس ما در نرم افزار واتس آپ:

آیکون نرم افزار واتس آپ+98 921 764 6825

شماره تماس ما در نرم افزار تلگرام:

تماس با ما+98 921 764 6825 

 

 

توجه: اگر کارت بانکی شما رمز دوم ندارد، در خرید الکترونیکی به مشکل برخورد کردید و یا به هر دلیلی تمایل به پرداخت الکترونیکی ندارید با ما تماس بگیرید تا راههای دیگری برای پرداخت به شما پیشنهاد کنیم.


دانلود با لینک مستقیم


مقاله فارسی در زمینه بررسی مدل های زمانبندی در محاسبات ابری -- Cloud Computing Scheduling

دانلود مقاله فناوری داده‌های فشرده برای محاسبات کلود cloud

اختصاصی از فایلکو دانلود مقاله فناوری داده‌های فشرده برای محاسبات کلود cloud دانلود با لینک مستقیم و پر سرعت .

 

 -5- مقدمه
به عنوان یک نتیجه از انفجار اطلاعات مداوم با بسیاری از سازمان‌ها غرق در داده‌ها شدند و در نتیجه شکاف داده یا ناتوانی برای پردازش این اطلاعات و استفاده از آن به طور موثر با یک سرعت مهیج در حال افزایش است. محاسبه داده متمرکز یک مثال محاسباتی جدید را معرفی می‌نماید (کوزس، اندرسون، البرت، گورتون، گراسیو 2009) که می‌توان شکاف داده‌ها را با استفاده از پردازش موازی قابل مقایسه مورد خطاب قرار دهد و به دولت و سازمان‌های تجاری و محیط‌های تحقیق اجازه دهد تا مقادیر عظیمی از داده‌ها را پیش ببرد و نظرات قبلی کاربردهای اجرایی غیر عملی و اجرا نشدنی است. محاسبات کلود فرصتی برای سازماندهی کردن با منابع درونی محدود شده ارائه می‌دهد تا کاربردها محاسباتی داده‌ها فشرده مقیاس بالا در یک حالت اثربخش اجرا شود. درگیری‌های اساسی از محاسبات داده فشرده در حال مدیریت و پیش برد حجم داده ها در حال رشد به طور تشریحی هستند، به طور چشم‌گیر چرخه‌ها تحلیلی داده های وابسته در حال کاهش هستند که کاربردهای به موقع و عملی را و الگوریتم‌های جدید در حال توسعه را پشتیبانی نمایند که می‌توانند مقیاس‌گذاری کند تا مقدار عظیمی از داده‌ها را جست‌و جو و پیش ببرد.محققین در Lexis Nexis معقتند که جواب به این درگیر‌ها مهاری نرم‌افزار و سخت افزار سیستم‌ها کامپیوتری جامع است که برای پردازش موازی از کاربردها محاسباتی داده‌ها فشرده طراحی شده است. این فصل درگیری‌هایی از محاسبات داده‌های فشرده را کاوش می‌کند و یک مقایسه جامع از معماری‌های سیستم موجود از نظر تجاری ارائه می‌دهد که شامل: ابر کامپیوتر تحلیلی داده های Lexis Nexis(DAS) می‌شود که به گروه محاسباتی کارایی بالای Lexis Nexis(HPCC) و Hadoop، یک منشأ باز انجام براساس معماری میکریدیوس گوگل برمی‌گردد. محاسبات کلود بر توانایی تأکید می‌کند تا منابع محاسباتی را چنان ید بدون یک سرمایه‌گذاری صادقانه جامع در پیدایش نیاز است و هزینه های عملکرد مداوم همراه شده مقیاس گذاری نماید. (ناپر و بینیتنسی و 2009، ریس 2009، ولت والنسن پتر، 2009) خدمات محاسباتی کلود به طور معمولی به 3 مدل طبقه‌بندی می‌شود:
(1) پیدایش (زیر سازه) به عنوان یک خدمت (Iaas) خدمت شامل تهیه‌ی نرم افزار و سخت افزار برای پردازش،‌ذخیره سازی داده ها، شبکه‌ها و هر زیر ساخت مورد نیاز برای پیشرفت سیستم‌های در حال اجرا می‌شود و کاربردهایی که به طور معمول در یک مرکز داده توسط کاربر مدیریت می‌شود نیازمند است. (2) پایگاهی به عنوان یک سرویس (Paas).سرویس شامل: زبانها و ابزار برنامه‌ریزی فشرده می‌شود و یک پایگاه تحول کاربردی که توسط ارائه دهنده سرویس گروه بندی شده تا پیشرفت و تحویل کاربردی که توسط ارائه دهنده سرویس گروه‌بندی شده تا پیشرفت و تحویل کاربردهای کار بر نهایی را پشتیبانی نماید و (3) نرم‌‌افزاری به عنوان یک سرویس (Saas). کاربردهای نرم افزاری گروه‌بندی شده توسط ارائه‌دهنده سرویس برای جایگزینی کار به نهایی ارائه و مدیریت می‌شود تا این کاربردها را با کاربردهای براساس وب به کار اندازد (لنک، کلیفر، نیمیس، تای و سندهولم 2009، مل و گرانس، 2009، واکیورو، رودرو، سرینفر، کاکرس و لیندنر، 2009، ویگا، 2009) کاربردهای محاسباتی داده های فشرده با استفاده از مدل aas (اجرای شوند و به تهیه گروه‌های قابل مقایسه از پرداززش گره، برای محاسبات موازی داده‌ها اجازه‌ دهد تا از معماری نرم افزاری متنوع استفاده ماید یا مدل Paas یک پردازش کامل را ارائه دهد و محیط پیشرفت کاربردی شامل هر دو جزء پایگاه و زیر ساخت‌هایی از قبیل برنامه ریزی زبانها و افزارهای گسترش کاربردها می شود. محاسبات داده‌های فشرده می‌تواند یک کلود عمومی اجرا شود پایگاه و زیر ساخت کلود به طور علوم از یک ارائه دهنده سرویس کلود موجود است از قبیل کلود محاسباتی الاستیک آمازون (EC2) و ریدیوس مپ الاستیک یا به عنوان کلود خصوصی (پایگاه و زیر ساخت کلود منحصراً برای یک سازمان خاص اجرا می‌شود و ممکن است به طور درونی یا ظاهری برای سازمان وجود داشته باشد) (مل و گرانس، 2009). اجراهای aas و Paas برای محاسبات فشرده‌ی داده‌ها می‌تواند به طور دینامیک در محیط‌ها پردازش مجازی شده براساس زمان بندی کاربرد و نیاز‌مندیها پردازش داده ما تهیه شوند یا می‌توانند به عنوان پیکر بندی دسترسی پذیری بالای پایدار اجرا شود. یک پیکربندی پایدار مزیت اجرایی دارد از آنجا که آن از زیر ساخت ما اختصاصی به جای سیرورهای مجازی شده مشترک با دیگر کاربردها استفاده می‌کنند.
1-1-5- کاربردهای محاسباتی فشرده‌ی داده ها: روش‌های پردازش موازی می‌تواند به طور کلی به عنوان یا محاسباتی فشرده یا داده‌های فشرده طبقه بندی شوند (اسکلیکرن و تالیا 1998 و گورتن و گرینفیلد، اسزالای و ویلیامز 2008، جان استون، 1998) محاسبات فشرده قبلاً استفاده شد تا برنامه‌های کاربردی را که کران محاسباتی هستند توصیف نماید چنین کاربردهایی بسیاری از زمان اجرایشان را برای نیازها محاسباتی در مقابل I⁄O وقف می‌نمایند و به طور معمول به حجم‌هایی کوچکی از داده‌ها نیاز دارند. پردازش موازی از کاربردهای محاسبات فشرده و به طور معمول شامل الگوریتم‌ها اختصاصی در حال موازی شدن با یک فرایند کاربردی و تجزیه فرآیندی کاربرد جامع درون کارها، جدا می‌شود که می‌تواند پس بر روی پایگاه محاسباتی مناسب به طور موازی اجرا شود تا کارایی بالاتر جامعه را نسبت به پردازش سیری اجرا نماید. در کابردهای محاسباتی فشرده عملکرد ما چند گانه به طور همزمان با هر آدرس دهی عملیات یک مسقت خاص از مشکل انجام می‌شود. این اغلب به عنوان تطابق نقشی یا تطابق کنترل به کار می‌رود. (Abbas,2004).
5- تکنولوژی‌های داده فشرده برای محاسبات کلود
داده‌های فشرده استفاده می شود تا کاربردهایی را که گروه I⁄O یا با یک نیاز برای پردازش حجم‌های بزرگ از داده هستند را توصیف نماید (گورتون و همکاران 2008، ژان استون 1998، گوخاله و کوهن و یو و سیلر، 2008). چنین کاربردهایی بسیاری از زمان پردازش را به I⁄O و حرکت داده‌ها اختصاص می‌دهد. پردازش موازی از کاربردهای داده فشرده به طور معمول شامل قسمت بندی کردن یا بخش پذیری کردن داده ها درون بخش‌های چندگانه می‌شود که می‌تواند به طور مستقل با استفاده از همان برنامه کاربردی قابل اجرا و موازی بروی یک پایگاه محاسباتی مناسب پرداش شود و پس دوباره نتایج تولید شده از داده‌های خروجی کامل شده از برانمه اصلی به زبمان سمبلیک تبدیل می‌کند. (نیلند، پرنیس، گلوبرگ، میلس، 2000).
توزیع انبوه بزرگتر از داده، بسیار مفید در پرازش موازی از داده‌ها وجود دارد. گورتون و همکاران (2008) بیان کردند که پردازش داده انبوه به طور معمول بر مقیاس خطی بر طبق سایز داده نیازمند است و بسیار متمایل به موازی شدن مستقیم هستند. درگیری‌های اساسی برای محاسبه داده‌های فشرده بر طبق گورتون و همکاران (2008) در حال مدیریت و پیشبرد حجم داده های در حال رشد به طور تشریحی هستند و به طور چشم‌گیر چرخه‌های تحلیلی داده های وابسته را کاهش می‌دهند تا کاربردهای به موقع و عملی را و نیز الگوریتم‌های جدید در حال توسعه را پشتیبانی نماید که می‌تواند مقیاس گذاری نماید تا مقادیر عظیمی از داده‌ها را جستجو و پیش ببرد. محاسبات کلود می‌تواند این درگیری‌ها را با این قابلیت مورد خطاب قرار دهد که منابع محاسباتی جدید را تهیه و یا منابع موجود را گسترش می‌هند تا قابلیت‌های محاسباتی موازی را ارائه دهد که مقیاس حجم‌های داده در حال رشد را هماهنگ می نماید.(گروس من، 2009).
12-5- تطابق داده‌ها
معماران سیستم کامپیوتر می‌توانند کاربردهای موازی داده‌ها را پشتیبانی نمایند که یک راه‌حل ذاتی برای مقیاس ترابایت و پتابایت نیازهای پرازش هستند (نیلند و همکاران 2000، راوی چاندران، پانتل و هووی 2004) بر طبق آگیچتین و گانتی (2004) موازی کردن یک تناوب جذاب برای پردازش می‌باشد که به شدت مجموعه‌های برگی از داده‌ها از قبیل بیلیون‌ها اسناد بر روی وب را بررسی می‌کند (آگیچتین 2004). نیلند و همکاران تطابق داده‌ها را به عنوان یک محاسبه به کار گرفته شده به طور مستقل برای هر آیتم داده از یک مجموعه داده معنی می‌کند که اجازه درجه‌ایی از تطابق را می‌دهد که با حجمی از داده‌ها مقیاس گذاری می‌شود.
با توجه به عقیده نیلند و همکاران (2000) دلیل بسیار مهم برای گسترش کاربردهای موازی داده‌ها پتانسیلی برای اجرای قابل مقایسه است و ممکن است در چندین ترتیب از مقدار بهود اجرا ناشی شود. مسئله کلیدی با کاربردهای در حال توسعه و استفاده از تطابق داده ها انتخاب الگوریتم و استراتژی برای تجزیه داده‌ها،‌تراز بار بروی گره‌های پردازش، ارتباطات گذرنده بین گروه‌ها و دقت جامع از نتایج هستند. (نیلند و همکاران، 2000، رنکوزوگولاری و دوارکاداس، 2001). نیلند و همکاران (2000) نیز متوجه شدند که گسترش کاربر و موازی داده می‌تواند شامل پیچیدگی برنامه نویسی اساسی شود تا مشکل را در زمینه ابزارهای برنامه نویسی موجود معنی کند و محدودیت‌هایی از معماری هدف را مورد خطاب قرار دهد. استخراج اطلاعات از و فهرست سازی از اسناد وب به طور معمول از پردازش داده‌های فشرده است که می‌تواند منافع کارایی مهم را از اجراهای داده‌های موازی مشتق کند از آنجائیکه وب و دیگر انواع مجموعه‌های اسناد می‌تواند به طور معمول به طور موازی پردازش شود (آگیچتین)
3-1-5- شکاف داده‌ها
رشد سریع از اینترنت و شبکه وسیع جهانی منتهی به مقادیر وسیع از اطلاعات موجود به صورت آنلاین می‌شود. به علاوه سازمان‌های دولتی و بازرگانی مقادیر زیادی از هر دو اطلاعات ساخته یافته و غیر ساخت یافته ایجاد می‌نماید که نیاز دارد پردازش، تحلیل و به هم مرتبط شود. ونیتون سرف (Vinton cerf) از گوگل این را به عنوان یک نزول ناگهانی اطلاعات توصیف می‌کند و بیان می‌دارد که ما باید انرژی اینترنت را در حضور اطلاعات با کابل‌های مجزا به کامپیوتر وصل کنیمکه آن اطلاعات ذخیره شده ما را رها نسازد (کرف، 2007)
یک گزارش هیئت دولت به ضمانت EMC مقدار اطلاعات که به طور رایج به شکل دیجیتال در سال2007 در 281 بیلیون‌ها بایت ذخیره شده و نیز رشد مرکب کل در 57% تا اطلاعاتی در سازمان‌های در حال رشد در یک سطح و سرعت سریعتر برآورد می‌کند (گانتر و همکاران 2007).
در مطالعه دیگری از انفجار اطلاعات آن برآورد شده بود که 95% از همه اطلاعات جاری در شکل بدون ساخت با نیازهای پردازش داده افزایش یافته وجود دارد که با اطلاعات ساخت یافته مقایسه می‌شود (لیمن و واریان2003). ذخیره سازی، مدیریت، دسترسی و پردازش از این مقدار وسیع از داده‌ها یک نیاز اساسی را معرفی می‌نماید و یک درگیری پهناور به منظور اینکه نیاها برای تحقیق، تحلیل، استخراج و تجسم کردن این داده ها به عنوان اطلاعات رضایت بخش نماید. (برمن 2008). در سال 2003 لیکیس نیکسیس این مسئله را به عنوان «شکاف داده» معین می‌کند توانایی جمع کردن اطلاعات دور از گنجایش سازماندهی پیش پا افتاده است تا از آن به طور موثر استفاده نماید. سازمان‌ها کاربردهایی را بنا کردند تا ذخیره سازی که آنها در دسترس دارند پر نماید و ذخیره سازی بسازد که مناسب کاربردها و داده‌هایی است که آنها دارند. اما آیا سازمان‌ها می‌توانند چیزهای مفیدی با اطلاعاتی انجام دهند که آنها مجبورند استفاده کامل و نو از منابع داده بدون بهره‌برداری آنها داشته باشند بدست آورند؟
چنانچه داده های سازمانی رشد کند چگونه آیا شکاف داده مورد خطاب قرار می‌گیرد؟ محقیق در لیکسیز تکسیز معتقدند که جواب معماری نرم افزاری و سخت افزاری سیستم‌های کامپیوتری قابل مقیاس گذاری است که برای کاربردهای محاسباتی داده‌های فشرده طراحی شده که بتواند بیلیون‌ها پردازش از ثبت‌ها را در هر ثانیه مقیاس گذاری کند. (BORPS) .
توجه: اصلاح BORPS توسط seisint در سال 2002 معرفی شد. سیسینت توسط Lexis Nexis پیدا شده بود). چه چیزی مشخصه‌هایی از سیستم‌های محاسباتی داده‌های فشرده و چه معماری‌هایی از زسیستم برای سازمان‌ها در دسترسند تا خطر و سرمایه گذاری صادقانه را در زیر ساخت کاهش داد و به مدل توجه فوری اجازه داد؟ این فصل این مسائل را کاوش می‌کند و یک مقایسه از معماری‌های سیستم موجود از نظر تجاری ارائه می‌دهد.
2-5- مشخه‌هایی از سیستم‌های محاسباتی داده‌های فشرده
بنیاد علوم علمی معتقد است که محاسبات داده‌های فشرده نیاز به یک مجموعه متفاوت بنیادی از اصول‌ها نسبت به روش‌های محاسباتی جاری دارد (NSF 2009). از طریق یک برنامه تأمین وجه در حوزه علم اطلاعات و کامپیوتر و مهندسی، NSF در حال جستجو افزایش فهم قابلیت‌ها و محدودیت‌هایی از محاسبات داده‌های فشرده است حوزه‌های کلیدی از کانون شامل:
روش‌های برنامه نویسی موازی برای مورد خطاب قرار دادن پردازش موازی از داده بر روی سیستم‌های داده‌های فشرده
چکیده‌های برنامه نویسی شامل مدل‌ها، زبان‌ها و الگوریتم‌ها که اجازه یک بیان بدیهی از پرازش موازی داده می‌دهد.
طرحی از پایگاه‌های محاسباتی داده‌های فشرده که سطح بالا از قابلیت اطمینان، راندمان، دسترس پذیری، مقیاس پذیری را ارائه می‌دهد.
تشخیص کاربردهایی که می‌تواند این مثال محاسباتی را بهره‌برداری کند و تعیین نماید که چگونه آن باید استنتاج شود تا کاربردهای داده‌های فشرده پدیدار شده را حمایت نماید.
پروژه‌های ملی شمال غرب اقیانوس آرام محاسبات داده‌های فشرده را به عنوان جمع آوری داده، مدیریت، تحلیل و فهم داده ها در حجم‌ها و سرعت‌هایی که مرزهایی از تکنولوژی‌های جاری را به جلو هل می‌دهد (کوزس و همکاران 2009، پنل 2008). آنها معتقدند که حجم‌های داده در حال رشد به طور سریع را مورد خطاب قرار دهد و پیچیدگی نیاز به پیشرفت‌های مهم در نرم افزار و سخت افزار و گسترش الگوریتم دارد که بتواند به سهولت با سایز داده مقیاس گذاری شود و تحلیل‌های به موقع و قابل اجرا و نتایج پردازش را ارائه دهد. معماری HP cc توسط Lexis Nexis توسعه یافته تا چنین پیشروی در قابلیت‌ها را معرفی نماید.
1-2-5- روش پردازش
پایگاه‌های محاسباتی داده‌های فشرده جاری از یک روش پردازش موازی «تقسیم و غلبه کردن» استفاده می‌کند که در حال ترکیب پردازشگرهای چند گانه و دیسک‌ها در گروه‌های محاسباتی بزرگ متصل شده با استفاده از شبکه ها و تعویض‌های ارتباطات سرعت بالا هستند که به داده‌ها اجازه می‌دهد در میان منابع محاسباتی موجود جزءبندی شده باشد و به طور مستقل پیش رود تا کارائی و مقیاس پذیری را براساس مقدار داده‌ها انجام دهند (شکل 1-5).
بویا، یئو، ونوگوپال، بروبرگ و براندیک (2009) گروهها را به عنوان یک نوع سیستم موازی شده و توزیع شده معین می‌نماید که شامل یک مجموعه کامپیوترها می‌شود که به تنهایی متصل شدند و با یکدیگر به عنوان یک منبع محاسباتی جامع تنها کار می‌کند. این روش برای پردازش موازی اغلب به عنوان یک روش «صفر به اشتراک گذاشته شده» برمی‌گردد از آنجائیکه هر گروه شامل پردازشگر، حافظه محلی و منابع دیسک صفر به اشتراک گذاشته با دیگر گره‌ها در گروه می‌شود.
در محاسبه موازی این روش به طور مناسب برای مشکلات پردازش داده‌ها بررسی می‌شود که به طور ناهماهنگ موازی هستند، به طور مثال جائیکه آن نسبتاً آسان است تا مشکل را درون یک تعدادکارهای موازی جدا می‌شود و هیچ وابستگی یا ارتباطی وجود ندارد که بین کارها نسبت به مدیریت جامع از کارها نیاز باشد. این انواع از مشکلات پردازش داده به طور ذاتی مناسب با شکل‌های متنوع از محاسبات توزیع شده هستند که شامل گروهها و رشته‌های داده و محاسبات کلود می‌شود.
2-2-5- مشخصه‌های مشترک
چندین مشخصه مشترک مهم از سیستم‌های محاسباتی داده های فشرده وجود دارد که آنها را از دیگر شکل های محاسبه تشخیص می‌دهد. اولین اصول مجموعه از داده و برنامه‌ها یا الگوریتم‌ها است که محاسبات را انجام می‌دهد. برای انجام کارایی بالا در محاسبات داده فشرده، آن مهم است که حرکت داده را به حداقل برساند (گری، 2008). در تباین مستقیم با دیگر انواع از محاسبات و ابر محاسبات از داده ذخیره شده در یک مخزن جدا استفاده می‌کند و یا به کار می‌برد و داده‌ها را برای سیستم پردازش برای محاسبات انتقال می‌دهد و محاسبات داده‌های فشرده از داده‌های توزیع شده و سیستم‌های فایل توزیع شده استفاده می‌کندکه در آن داده‌ها در مقابل یک گروه از گره‌های پردازش قرار داشت و به جای حرکت داده برنامه یا الگوریتم به گره‌هایی یا داده انتقال یافته که نیاز به پردازش داشته باشد. این اصل «حرکت کد به داده» که درون معماری پردازش موازی داده‌ها طراحی شده بود توسط Seasint در سال 2003 اجرا شد و به شدت قابل اجرا است از آنجائیکه سایز برنامه معمولاً در مقایسه با مجموعه داده‌های بزرگ پردازش شده توسط سیستم‌های داده‌های فشرده کوچک است و در بیشتر شبکه‌های کم ترافیک ناشی می‌شود از آنجائیکه داده‌ها می‌تواند به طور محلی به جای مقابل شبکه خوانده شود. این مشخصه اجازه پردازش الگوریتم‌ها را می‌دهد تا بروی گره‌ها اجرا شود آنجا که اقامت داده‌ها در حال کاهش مازاد سیستم و افزایش اجرا هستند (گورکون و همکاران، 2008).
مشخصه مهم دوم از سیستم‌های محاسبه فشرده درونی مدل برنامه نویسی به کار گرفته شده است. سیستم‌های محاسبه فشرده داده‌ها یک روش مستقل ماشینی به کار می‌برد که در آن کاربردها برحسب عملیات سطح بالا بر روی داده‌ها بیان می‌شود و سیستم زمان اجرا به طور شفاف زمان بندی، اجرا، تراز بار، ارتباطات و حرکت برنامه‌ها و داده‌ها را در مقابل گروه محاسبه توزیع شده کنترل می‌نماید (بریانت 2008). چیکده برنامه نویسی و ابزارهای زبان اجازه پردازش می‌دهد تا برحسب جریان‌های داده بیان می‌شود و تغییر شکل‌ها زبان‌های برنامه نویسی جریان داده جدید را هماهنگ می‌کند و کتابخانه‌های متصل به شبکه از الگوریتم‌های دستکاریداده‌های مشترک از قبیل مرتب نمودن را هماهنگ می‌:ند. ابر محاسبات قراردادی و سیستم‌های محاسبه توزیع شده به طورمعمول مدل‌های برنامه نویسی وابسته ماشینی را استفاده می‌کند که می‌تواند نیازمند کنترل برنامه نویس سطح پایین از پردازش باشد و ارتباطات گره از زبان‌های برنامه نویسی موثر قراردادی استفاده می‌کند و نیز از پکیج‌های نرم افزاری اختصاص یافته استفاده می نماید که پیچیدگی را به کار برنامه نویسی موازی اضافه نماید و بهره‌وری برنامه نویس را کاهش می‌دهد.
یک مدل برنامه نویسی وابسته ماشینی نیز نیازمند میزان سازی مهم می‌باشد و تا حد زیادی به نقاط تنها از نقص، حساس می‌باشد. مشخصه سوم مهم از سیستم‌های محاسبات داده‌های فشرده تمرکز بر روی قابلیت اطمینان و دسترس‌پذیری است. سیستم‌هایی در مقیاس بزرگ با صدها یا هزاران گره‌های پردازش به طور ذاتی نسبت به نقص‌های سخت افزار، خطاهای ارتباطات و ویروس‌های نرم افزاری حساس هستند. سیستم‌های محاسبات داده‌های فشرده طراحی شدند تا نشان دهنده نقص باشند. این شامل کپی‌های اضافی از تمامی فایل‌های داده‌ها بر روی دیسک و ذخیره سازی از نتایج پردازش میانجی بر روی دیسک، کشف اتوماتیکی از گره‌ها یا نقص‌های پردازشگر و محاسبات درباره‌ی انتخابی از نتایج می‌شود. یک گروه پردازش‌گر برای محاسبات فشرده درونی پیکربندی شده است و به طور معمول می‌تواندعملیات را با یک تعداد کاهش یافته از گره‌ها ادامه دهد. یک نقص گره با بازیافت ناپیدا و اتوماتیک از پردازش ناقص به دنبال می‌آید. مشخصه نهایی مهم از سیستم‌های محاسباتی فشرده درونی به طور ذاتی مقیاس پذیری از معماری نرم افزار و سخت افزار اساسی است. سیستم‌های محاسباتی فشرده درونی می‌تواند به طور معمول در یک روش خطی مدرج شود تا واقعاً هر مقدار از داده را اصلا حنماید یا با نیازهای کارایی زمان حساس توسط اضافه کردن گره‌های پردازش اضافی به یک پیکربندی سیستم برخورد نماید به منظور اینکه بیلیون‌ها ثبت در هر ثانیه از میزان پردازش انجام شود. تعدادگره‌ها و کارهای پردازش برای کاربرد خاص تعیین شده که می‌تواند بسته به سخت افزار، نرم افزار، ارتباطات و معماری سیستم فایل توزیع شده متغیر باشد. این مقیاس پذیری اجازه بررسی را به مشکلات محاسبات می‌دهد تا به دلیل مقدار داده مورد نیاز یا مقدار زمان پردازش موردن یاز رام نشدنی باشد تا اکنون فرصت‌های پیش آمده برای پیشرفت‌های جدید درتحلیل داده‌ها و پردازش اطلاعات عملی و امکان پذیر باشد.
3-2-5- محاسبات شبکه
یک مثال مشابه محاسبات به عنوان محاسبات شبکه شناخته شده که به طور اولیه در محیط‌های تحقیق محبوبیت به دست آورده است (آباس، 2004). یک شبکه محاسبات به طور معمول در طبیعت نامتجانس است (گره‌ها می‌تواند پردازشگر متفاوت، حافظه و منابع دیسک داشته باشد) و شامل کامپیوترهای مختلف چندگانه در سراسر سازمان‌ها می‌شود و اغلب از نظر جغرافیایی از ارتباطات شبکه حوزه وسیع که معمولاً با پهنای باند نسبتاً کم است استفاده می‌شود. شبکه‌ها به طور معمول استفاده می‌شوند تا مشکلات محاسبه‌ای پیچیده را حل نمایند که محاسبات فشرده هستند و تنها به مقدار کوچکی از داده ها برای هر گره پردازش نیازمندند. تغییرات شناخته شده به عنوان شبکه‌های داده به مخزن‌های مشترک داده اجازه می‌دهد که توسط یک شبکه در دسترس باشد و در پردازش کاربردی استفاده شود، هرچند پهنای باند کم از شبکه‌های داده تأثیر آنها را برای کاربردهای داده‌های فشرده مقیاس بزرگ محدود می‌کند.
در مقابل سیستم‌های محاسبات داده‌های فشرده به طور معمول در طبیعت نامتجانس هستند (گره‌ها در گروه محاسبات پرداززشگر یکسان، حافظه و منابع دیسگ وارد) و از ارتباطات پهنای باند بالا بین گره‌ها از قبیل سویچ‌های اترنت گیگابایت استفاده می‌کند و در نزدیکی در یک مرکز داده با استفاده از سخت افزار چگالی عالی از قبیل سرورهای تیغه‌ای که به طور قفسه سوار شده بسته می‌شود. سیستم فایل منطقی به طو رمعمول شامل تمامی دیسک‌های موجود بر روی گره‌ها در گروه و فایل های داده‌ها می‌شود که در سراسر گره‌ها در مقابل مخزن داده‌های مشترک جدا از قبیل یک شبکه حوزه مخزن توزیع می‌شود که نیاز دارد داده‌ها برای پردازش به سمت گره‌ها حرکت کنند. از نظر جغرافیایی سیستم‌های شبکه توزیع شده بسیار مشکلند که مدیریت شوند و نسبت به سیستم‌های محاسبات داده‌های مشترک کمتر معتبر و کمتر این هستند که به طور معمول در محیط‌های امن مرکز داده ها قرار دارد.
4-2-5- قابلیت اجرا محاسبات کلود
محاسبات کلود می‌تواند قالب‌های زیادی به کار گیرد. بسیار کلود را به عنوان اینترنت یا وب تصور می کنند که اغلب در این حالت نمایش داده می‌شوند، اما یک تعریف بسیار کلی این است که محاسبات کلود از محل منابع محاسبات تغییر می‌کند و زیر ساخت کاربردهای محاسبات را برای شبکه ارائه می‌دهد. (واکورو و همکاران، 2009).
دسترس پذیری نرم افزار از طریق کلود یک سرویس می‌شود، پایگاههای استفاده و دسترس پذیری از طریق کلود گسترش می‌یابد و کاربردهای جدیدی را ارائه می‌دهد تا یک خدمت شود و سخت افزار و نرم افزار زیر ساخت و مرکز داده‌های مجازی و محیط‌های قابل دسترس را ایجاد می‌نماید که از طریق کلود یک خدمت می‌شود (ویس، 2007).
دیگر مشخصه ها معمولاً با محاسبات کلود همراه است که شامل کاهش در هزینه‌های همراه با مدیریت منابع سخت افزار و نرم افزار است (هایس 2008) توجه فوری دسترسی به کاربردهای نرم افزار و منابع محاسبات بنا به تقاضا می‌باشد (واکورو و همکاران، 2009) تأمین ذخیره دینامیک از زیرساخت و مقیاس پذیری از منابع سایز داده و نیازهای محاسبات را هماهنگ می‌کند که به طور مستقیم برای مشخصه‌هایی از محاسبات داده‌های فشرده قابل اجرا است (گروس من وگو 2009). بویا و همکاران (2009) تعریف جامع از یک کلود را ارائه می‌دهد: یک کلود یک نوع از سیستم توزیع شده و موازی است که شامل یک مجموعه از کامپیوترهای مجازی شده و اصتال شده درونی می‌باشد که به طور دینامیک تهیه شده و به عنوان یک یا چند منابع محاسبات متحد شده براساس توافقات سطح سرویس را معرفی می نماید که از طریق مذاکره بین ارائه دهنده سرویس و مصرف کننده ایجاد می‌شود.
مدل محاسبات کلود به طور مستقیم برای مشخصه‌های محاسبات داده‌های فشرده قابل اجرا است که زیر ساختی به عنوان یک خدمت (Iaas) و پایگاه به عنوان یک خدمت (paas) هستند.
Iaas (زیر ساخت به عنوان یک خدمت) به طور معمول شامل یک مخزن بزرگی از منابع مجازی شده دارای توانایی پیکرسازی می‌شود که می‌تواند شامل سخت افزار، سیستم عملکرد، میان افزار و پایگاه‌های پیشرفت یا دیگر خدمات نرم افزار می‌شود که می‌تواند درجه دار باشد تا بارهای پردازش متنوع را تطبیق می‌کند (واکورو و همکاران، 2009). گروه‌های محاسبات به طور معمول برای پردازش داده‌های درونی استفاده می‌شود که می‌تواند در این مدل ارائه شده باشد. محیط‌های پردازش از قبیل مپاردیوس هوپ و Hpcc لیکیس نکسنیر است که شامل قابلیت‌های پایگاه پیشرفت اجرایی به علاوه اجرای زیر ساخت اساسی پایگاه به عنوان یک مدل خدمت (paas) می‌شود.
کاربردها با یک درجه بالایی از تطابق داده‌ها و یک نیاز که مجموعه داده‌های بسیار بزرگ را پیش می‌برد و می‌تواند مزیت محاسبات کلود و صدها استفاده Iass و paas از کامپیوترهای تهیه شده برای یک مدت کوتاه به جای یک یا چند تعداد کوچک از کامپیوترها برای مدت طولانی به کار گرفته شود. (آرمبراست و همکاران، 2009)
برطبق آرمبرلست و همکاران در گزارش تحقیقاتی بر کلی دانشگاه کالیفرنیا (آرمبراست و همکاران، 2009)
این مدل پردازش به طور ویژه به خوبی با تحلیل‌های داده و دیگر کاربردها مناسب شده که می‌تواند از پردازش دسته‌ای موازی سود برد. هرچند تحلیل منافع و هزینه کاربر باید نیز شامل هزینه حرکت مجموعه داده‌های بزرگ درون کلود به علاوه تسریع و هزینه پردازش کمتر ارائه شده توسط مدل‌های Iass و Paas می‌شود.
3-5- معماری‌های سیستم داده‌های فشرده
یک تنوعی از معماری‌های سیستم برای کاربردهای تحلیل داده‌ها در مقیاس بزرگ و داده‌های فشرده اجرا می شود شامل سیستم‌های مدیریتی پایگاه داده‌های رابطه‌ای توزیع شده و موازی می‌شود که به طور مهم پیوسته گروههای بی ارزش مشترک از گره‌های پردازش برای بیش از دو دهه موجود می‌باشد (پاولو و همکاران، 2009). این‌ها شامل سیستم‌های پایگاه داده‌ها از ترادتیا، نتیزا، ورتیکا و اگزادیتار اوراسل و دیگران می‌شود که پایگاه‌های داده‌های موازی کارایی عالی را ارائه می‌دهد. اگرچه این سیستم‌ها این توانایی را دارند تا کاربردهای موازی به کار گرفته شود و سوالات در زبان SQL بیان شود، آنها به طور معمول پایگاه‌های پردازش همه منظوره نیستند و معمولاً به عنوان یک برنامه کارهای زمینه‌ایی اجرا می شود تا یک سیستم پردازش کاربردی نرم افزار نهایی را جدا نماید. اگرچه این روش منافعی را ارائه می‌دهد هنگامیکه داده‌ها به کار گرفته می‌شود به طور اولیه در طبیعت ساخته می‌شود و به آسانی درون محدودیت‌هایی از یک پایگاه داده رابطه‌ایی آماده می‌شود و اغلب برای کاربردهای پردازش تراکنشها بهتر می‌باشد، بیشترین رشد داده‌ها با داده‌هایی به شکل غیر ساختار است (گانتز و همکاران 2007) و مثال‌های پردازش جدید یا مدل‌های داده‌های بسیار انعطاف پذیر مورد نیاز می‌باشد. شرکت‌های اینترنتی از قبیل گوگل، یاهو، مایکروسافت، فیس بوک و دیگران به یک روش پردازش جدید نیاز دارند تا به طور کارآمد با مقدار عظیمی از داده‌های وب برای کاربردهایی از قبیل موتورهای جستجو و شبکه اجتماعی برخورد نماید. به علاوه بسیاری از سازمان‌های دولتی و تجاری با داده‌هایی غوطه ور شدند که نمی‌تواند به طور موثر پردازش،‌پیوند یافته و با روش‌های محاسبه سنتی تحلیل یافته شود. چندین راه‌حل پدیدار شد که شامل پیشگام شدن معماری Map Reduce توسط گوگل می‌شود و اکنون دسترسی به یک اجرای منشأ باز هادوپ نامیده می‌شود که توسط یاهو، فیس بوک و دیگران استفاده می‌شود. Lexis Nexis، رهبر صنعت تصدیق شده در خدمات اطلاعاتی نیز یک پایگاه مقیاس پذیر را برای محاسبه داده‌های فشرده گسترش و اجرا کرد که توسط لیکسیس نکسیس و دیگر سازمان‌های دولتی و تجاری استفاده می‌شود تا حجم‌های زیادی از داده‌های ساختار شده و غیر ساختار شده پیش ببرد. این روش‌ها توضیح داده خواهد شد و برجسب ساختار کلی‌شان، مدل برنامه‌نویسی، سیستم‌های فایل و قابلیت اجرا که بتواند در بخش بعدی محاسبه شود مقایسه گردد. روش‌های مشابه با استفاده از گروه‌های محاسبات کالا شامل بخش/ حوزه (گرونس من و گو 2008، گروس من وگو، سابالاوژانگ 2009،گو، گروس من 2009) دامنه/ گیتی (چایکن و همکاران، 2008) دریاد لینک (یو، گوندا و ایسارد 2009) منیدر (لور و همکاران 2008) در دسته شبکه‌ایی (لیو و اوربان 2008) می‌شود که اخیراً در ادبیات توصیف شده و نیز برای کاربردهای محاسبات کلود داده‌های فشرده مناسب است و تناوب‌های اضافی را معرفی می‌نماید.
1-3-5- Map Reduce گوگل
معماری مپ ردیوس و مدل برنامه‌نویسی پیشگام شده توسط گوگل یک مثالی از معماری سیستم‌های پیشرفته است که برای پردازش و تحلیل پایگاه داده های بزرگ طراحی شده و به طور موفقیت آمیز توسط گوگل در بسیاری از کاربردها استفاده می‌شود تا مقدار عظیمی از داده‌های خام وب را پردازش نماید (دین و گماوت 2004) معماری مپ ردیوس به برنامه نویس‌ها اجازه می‌دهد تا از یک سبک برناهم نویسی نقشی استفاده ننمایند تا یک کار نقشه را ایجاد نمایند که جنت مقدار کلیدی همراه شده با داده‌های ورودی را پردازش می کند تا یک مجموعه از جفت مقدار کلیدی میانه با همان کلید میانه تولید نماید (دین و گماوت 2004) با توجه به دین و گماووت (2004) برنامه‌های مپ ردیوس می‌تواند استفاده شود تا داده‌های مشتق شده را از اسنادی از قبیل شاخص‌های وارونه استخراج نماید و پردازش به طور خودکار توسط سیستم موازی می‌شود که بر روی گروههای زیادی از ماشین‌های نوع مواد اولیه اجرا می‌شود، که تا حد زیادی با هزاران ماشین میزان پذیری است. از آنجائیکه سیستم به طور خودکار به جزئیات جزء‌بندی داده‌های ورودی زمان بندی و کارهای اجرایی در سراسر یک گروه پردازش توجه می‌کند و مدیریت ارتباطات بین گره‌ها، برنامه ‌نویس‌ها بدون تجربه در بنرامه نویسی موازی می‌تواند به آسانی از محیط پردازش توزیع شده استفاده نماید.
مدل برنامه نویسی برای معماری مپ ردیوس یک چکیده ساد است که آنجا محاسبات یک مجموعه از جفت ارزش های کلیدی ورودی همراه با داده‌های ورودی به کار می‌گیرد و یک مجموعه از جفت‌های ارزش کلیدی خروجی تولید می‌نماید. مدل کلی برای این پردازش در شکل 2-5 نشان داده شده است.
در مرحله Map، داده های ورودی انشعاب‌های ورودی جزء بندی می‌شود و برای کارهای Map همراه با گره‌های پردازش در گروه تعیین می‌شود. کار Map به طور معمول بر روی همان گره محتوی جزء تعیین شده از داده در همان گروه اجرا می‌شود. این کارهای Map محاسبات تعیین شده کاربر را بر روی هر جفت مقدار کلیدی ورودی از قسمت داده‌های ورودی تعیین شده برای کار انجام می‌دهد و یک مجموعه‌ایی از نتایج واسطه برای هر کلید تولید می‌نماید. مرحله ترکیب و فرمان Sort (دسته بندی) سپس داده‌های واسطه تولید شده توسط هر کار Map را به کار می گیرد و این داده‌ها را با داده‌های واسطه از دیگر گره ها دسته بندی می‌کند و این داده‌ها را درون مناطقی که توسط کارهای کاهشی پردازش شده باشد تقسیم می‌کند و این داده‌ها را چنانچه که برای گره‌ها نیاز باشد توزیع می‌کند در جائیکه کارهای کاهشی اجرا خواهد شد.
همه کارهای Map باید قبل از ترکیب و دسته بندی کامل شود و مراحل را کاهش دهد. تعدادکارهای کاهشی نیازی نیست با تعدادکارهای Map یکسان باشد. کارهای کاهشی اجراهای اضافی تعیین شده کاربر را بروی داده‌های واسطه که احتمالاً ارزش‌های پیوندی همراه با یک کلید وارد اجرا می‌شود تا یک مجموعه کوچکتر از ارزش‌ها داده‌های خروجی را تولید کند. برای فرایند پردازش داده‌های بسیار پیچیده، فراخوانی‌های چند گانه Map Reduce با یکدیگر در یک رشته پیوند می‌یابند.
شکل 3-5- معماری مپ ردیوس و پردازش مقدار کلیدی را با جزئیات بیشتر نشان می‌دهد. داده‌های ورودی می‌توانند شامل فایل‌های ورودی چند گانه باشد. هر کار Map یک فایل خروجی میانه را برای هر منطقه کلیدی تولید خواهد کرد که براساس کارهای کاهشی تعیین می‌شود، R برای این فرایند یا پردازش تعیین می‌شود. (R ضریب‌های (کلیدی) پارازیت تصویر روی یک صفحه نمایش). نقش کاهشی پس فایل‌های واسطه را می‌کشد، دسته بندی و الحاق فایل‌ها برای یک منطقه ویژه از همه کارهای Map صورت می‌گیرد. برای حداقل کردن مقدار داده‌های انتقال یافته در سراسر شبکه، یک نقش ترکیب کننده اختیاری می‌تواند تعیین شود که بر روی همان گره اجرا می‌شود که یک کار Map انجام می‌شود. کد ترکیب کننده معمولاً همان کد نقش کاهنده است که پیوند جزئی را انجام داده و داده‌ها را برای جزء محلی کاهش می‌دهد و پس فایل‌های واسطه را می‌نویسد که برای کارهای کاهشی توزیع شده باشد. خروجی نقش کاهشی (Reduce) همانند فایل خروجی نهایی نوشته شده است. در اجرای گوگل از Map Reduce، نقش‌ها به شکل زبان برنامه نویسی c++ کدگذاری شده است.
معماری Map Reduce در زیر قرار گرفته و دارای چندین لایه، سیستم فایل گوگل است (GFS)
GFS طراحی شده بود تا یک سیستم فایل توزیع شده مقیاس پذیر و با کارایی عالی برای فایل‌های داده‌های خیلی بزرگ باشد و کاربردهای داده‌های فشرده تحمل نقص را ارائه می‌دهد و بر روی گروههایی از سخت افزار کالا اجرا می‌گردد. (گماووت و گوبیوف و لئونگ 2003). GFS به فایل‌های خیلی بزرگ نزدیک شده که در حال تقسیم کردن و دسته بندی آنها در سایز ثابت مقدارهایی از 64mb توسط حالت پیش فرض که توسط گره‌ها در گروه مدیریت می‌شود و سرورهای تکه‌ایی نامیده می‌شود. هر GFS شامل یک گره اصلی تنهاست که در حال عمل کردن به عنوان یک سرور نام است و گره‌های چند گانه در گروه به عنوان سرورهای تکه‌ایی با استفاده از یک ماشین براساس سیستم عاملهای قوی و سرعت بالا جنس (گره در یک گروه) یک فرایند سرور سطح کاربر را اداره می نماید. تکه‌ها در فایل‌های Linux لینوکس واضح ذخیره می‌شوند که تنها آنچه نیاز است و بروی گره‌های چند گانه تکرار می‌شود توسعه می‌یابد تا قابلیت دسترسی بالا را ارائه و اجرا را بهبود بخشد.
دوماً سرورهای نام پشتیبانی با پک آپ برای شاه گره ارائه می‌دهد. سایز تکه بزرگ نیاز برای برنامه‌های مشتری‌های Map Reduce را کاهش می‌دهد تا با شاه گره متقابلاً عمل نماید و به سیستم فایل متادیتا اجازه می‌دهد تا در حافظه در شاه گره نگهداشته شود و در حال بهبود اجرا باشد و به بسیاری از عملکردها اجازه می‌دهد تا با یک خواندن تنها بر روی تکه‌ایی از داده‌ها توسط مشتری مپ ردیوس اجرا شود. بطور کامل،‌تکه‌های ورودی برای عملکردهای مپ ردیوس سایز تکه GFS هستند. GFS ثابت کرده که تا حد زیادی برای محاسبات داده‌های فشرده بروی فایل‌های خیلی بزرگ موثر می‌باشد، اما برای فایل‌های کوچک که می‌تواند باعث نقاط داغ شود کمتر موثر است، اگرچه کارهای زیاد Map Reduce دسترسی به همان فایل است. گوگل ابزارهای اضافی را با استفاده از مپ ردیوس و معماری GFS اجرا کرده تا بهره‌وری برنامه نویس را بهبود بخشد و تحلیل داده و پردارش داده‌های ساختار شده و غیرساختار شده را افزایش دهد. از آنجائیکه سیستم فایل GFS به طور اولیه نزدیک به پردازش ترتیبی فایل‌های بزرگ است، گوگل یک سیستم ذخیره سازی توزیع شده با دسترس پذیری برای داده ساختار شده با کنترل دینامیک بر روی فرمت داده ها با قابلیت دسترسی تصادفی کلیددار انجام می‌دهد (چانگ و همکاران2006) نقش‌های مدیریتی داده مثل ایجاد و حذف جدول‌ها و نقش‌های دستکاری داده توسط کلید سطری شامل عملکردهایی برای خواندن، نوشتن و اصلاح داده‌ها می‌شود. اطلاعات شاخص برای جدول‌های بزرگ استفاده کردن از اطلاعات جدول ذخیره شده در ساختار شبیه به یک درخت B+ می‌باشد. کاربردهای مپ ردیوس می‌تواند با Big table (جدول بزرگ) استفاده شود تا داده‌ها را تغییر شکل داده و پیش ببرد و گوگل بسیاری از کاربردهای مقیاس بزرگ را اجرا می‌کند که از جدول بزرگ برای ذخیره سازی استفاده می‌نماید که شامل Google Earth می‌شود.
گوگل نیز یک زبان سطح عالی را برای اجرای تحلیل داده‌های موازی انجام داده و از پردازش داده‌ها برای جستجو اطلاعات پنهان با استفاده از مپ ردیوس و معماری GFS استفاده می‌کند که SQW2all نامیده می‌شود و یک مدیریت گردش کار و زیر ساخت زمان بندی برای شغل‌های saw2all است که صف کاری نامیده می‌شود (پیک دوروارد، گریس مر و کیونلاین 204). برطبق نظر پیک و همکاران (2004)، اگرچه C++ در شغل‌های Map Reduce استاندارد شایسته جابجایی کارهای تحلیل داده است، آن بسیار مشکل است که از آن استفاده نماییم و نیازمند تلاش قابل ملاحظه‌ایی توسط برنامه نویس می‌باشد. برای بسیاری از کاربردها با استفاده از saw2all اجرا می‌شود، این کد بسیار ساده‌تر و کوچکتر از معادل C++ توسط یک عامل از 10 یا بیشتر می‌باشد. یک برنامه saw2all عملکردهایی بروی یک ثبت تنها از داده تعریف می‌کند، این زبان اجازه بررسی ثبت‌های ورودی چندگانه بطور همزمان را نمی‌دهد و یک ثبت ورودی نمی‌تواند پردازش دیگری را تحت تأثیر قرار دهد.
یک دستور ساقع به داده پردازش شده اجازه می‌دهد با یک اینترنت و کامپیوتر خارجی خروجی باشد که قابلیت دسترسی برای تمام فایل‌های ثبت‌ها و داده‌ها را ارائه می‌دهد تا با استفاده از برنامه saw2all پردازش شده باشد. این سیستم در یک باب دسته‌ای اجرا می‌کند که در آن یک کاربر یک شغل را ارائه می‌دهد که برنامه saw2all را بر روی یک مجموعه ثابت شده از فایل‌ها و داده ها اجرا می‌کند و خروجی در پایان یک اجرا جمع آوری می‌نماید. شغل‌های saw2all می‌تواند زنجیره‌ای باشد تا فرایندهای بسیار پیچیده را حمایت کند. برنامه‌های saw2all درون یک کد میانی گردآوری می‌شوند که در طول زمان اجرا تفسیر شده است. چندین دلیل توسط پیک و همکاران بیان شده که چرا یک زبان جدید برای تحلیل داده‌ها و کاربردهای پردازش داده استفاده مبی‌شود تا اطلاعات پنهان را جستجو کند:
1) یک زبان برنامه نویس برای یک حوزه مشکل مخصوص ایجاد شده که برنامه‌های نتیجه را «واضح‌تر» و بسیار فرشده و بسیار پرمعنی می‌سازد 2) اجتماع‌ها در زبان saw2all تعیین شده بنابراین برنامه نویس انجام نمی‌دهد و مجبور است یک کار Reduceاز برنامه مپ ردیوس استاندارد ارائه دهد 3) یک زبان برنامه نویس نزدیک به تحلیل داده روش بسیار طبیعی ارائه می‌دهد تا در مورد مسائل پردازش داده برای پایگاه داده‌های توزیع شده بزرگ فکر کند، و 4) برنامه‌ای saw2all به طور چشمگیر کوچکتر از معادل برنامه‌های c++ مپ ردیوس هستند و به طور چشمگیر آسانتر برنامه ریزی می‌شود.
گوگل به طور متداول دسترسی به معماری مپ ردیوس در محاسبه عمومی کلود در محیط Iaas و paas ندارد. گوگل هرچند موتور کاربردی گوگل را به عنوان یک محاسبه عمومی کلود در محیط paas ارائه می‌دهد (لنک و همکاران 2009، واکورو و همکاران 2009).
2-3-5- هادوپ Hadoop
هادوپ یک پروژه نرم افزاری منبع باز است که توسط موسسه نرم افزاری آپاچ ضمانت می‌شود (www.apache.org) به دنبال انتشار در سال 2004 گزارش تحقیق مپ ردیوس گوگل (دیمین و گماوات 2004) یک تلاشی را توصیف می‌کند که در رابطه با پروژه Nutch موجود یک اجرای منبع باز از معماری مپ ردیوس (وایت 2009) ایجاد می‌نماید. آن بعداً یک پروژه قبلی مستقل از Lucene می‌شود که توسط یاهو شامل شده است! بعدی توسعه دهنده تدارک برای هادوپ است که یک کارمند می‌شود و یک پروژه سطح بالا Apache رسمی در فوریه 2006 می‌شود. هادوپ اکنون شامل پروژه‌های قبلی به علاوه هسته پایه، مپ ردیوس و سیستم فایل توزیع شده HIDFS می‌شود. این پروژه‌های قبلی اضافی قابلیت پردازش کاربردی افزایش یافته را برای اجرای هادوپ پایه ارائه می‌دهد و به طور رایج شامل آورو، پیگ، HBase، زوکیپر، هایو و چوکوا می‌شود. اطلاعات زیادی می‌تواند در سایت وب Apache یافت شود.
معماری مپ ردیوس هادوپ به طور نقشی شبیه به اجرای گوگل به جز زبان برنامه نویسی پایه برای هادوپ است که جاوا به جای c++ است. این اجرا انتظار دارد بر روی گروههایی از پردازشگرهای کالا اجرا شود (شکل 4-5)
لینوکس Linux به عنوان عملکرد محیط سیستم استفاده شود، اما نیز می‌تواند بر روی یک سیستم تنها به عنوان محیط یادگیری اجرا شود. گروههای هادوپ نیز از مثال پردازش توزیع شده «صفر مشترک» مربوط به سیستم‌های فردی با پردازشگر محلی، حافظه و منابع دیسک با استفاده از ارتباطات سرعت بالا استفاده می‌کند که در حال تعویض قابلیت‌ها به طور معمول در پیکربندی قفسه سوار شده می‌باشد. این قابلیت انعطاف از پیکربندی‌های هادوف به گروه‌های کوچک اجازه می‌دهد برای آزمایش و گسترش با استفاده از سیستم‌های دسک تاپ یا هر سیستم اجرا کننده یونیکس / لینوکس ایجاد شود تا ی محیط JVM را ارائه دهد. هرچند گروههای تولید به طور معمول از پردازشگرهای قفسه سوار شده در یک محیط مرکز داده استفاده می‌نمایند.
معماری مپ ردیوس هادوپ شبیه اجرای گوگل است و تکه‌های ورودی سایز ثابت شده از داده‌های ورودی ایجاد می‌نماید وتکه‌هایی را برای کارهای Map تعیین می‌نماید. خروجی محلی از کارهای Map به گره‌های Reduce کپی می‌شود آنجا که آن ذخیره شده و برای پردازش توسط کارهای ردیوس ترکیب می‌شود تا خروجی نهایی را چنانچه در شکل 5-5 نشان داده شده تولید نماید.
اجرای هوپ، زمان بندی پردازش داده‌های توزیع شده و محیط اجرای و چهارچوبی برای شغل‌های مپ ردیوس می‌باشد. یک شغل مپ ردیوس یک واحد از کار است که شامل داده‌های ورودی همراه با برنامه‌های ردیوس و مپ و اطلاعات پیکربندی تعیین شده کاربر می‌باشد. چهارچوب هادوپ از یک معماری ارباب / برده با یک سرور مسلط تنها استفاده می‌شود که یک دنبال کننده شغل نامیده می‌شود و سرورهای برده دنبال کننده کار برای هر گره در گروه نامیده می‌شود. دنبا کننده شغل ارتباطات واسط بین کاربرها و چهارچوب است و با اجرای شغل‌های مپ ردیوس متناسب است. کاربرها شغل‌ها را برای دنبال کننده شغل ثبت می‌کند که آنها را در یک صف کارها گذاشته و آنها را بر روی یک پایه آمده برای اولین بار یا به کار گرفته شده برای اولین بار اجرا می‌کند. دنبال کننده‌های شغل انتساب به کارهای Map و Reduceرا برای گره‌های دنبال کننده کار مدیریت می‌کند که پس از این کارها را

دانلود با لینک مستقیم


دانلود مقاله فناوری داده‌های فشرده برای محاسبات کلود cloud