Big Data یا کلانداده چیست ؟
کلانداده یا Big Data به حجمهایی از داده گفته میشود که در مقایسه با دادههای نسل قبلی با روشهای متداول قابل مدیریت و پردازش نباشند. مشکلات به وجود آمده در مدیریت و پردازش حجمهای عظیم اطلاعات شامل جمعآوری، آنالیز، نگهداری، انتقال، جستجو و به روزرسانی میشوند.
به عنوان نمونه یک کلاندادهی شناختهشده، اطلاعات موجود در پایگاه دادهی گوگل است که در هنگام جستجو میبایست در کسری از ثانیه مورد جستجو قرار گیرد. برآورد شده بیش از یک میلیارد سایت اینترنتی وجود دارند که در واحد زمان دهها سایت جدید و هزاران مطلب جدید به آن افزوده میشوند.
موتور جستجوی گوگل باید بتواند با سرعت متناسب، اطلاعات جدید را Index کند و همیشه نتایج جستجوی روزآمدی را از میان این حجم عظیم اطلاعات، در زمان قابل پذیرش به کاربران خود ارائه دهد.
ابزارها و دانش لازم برای مدیریت و پردازش حجمهای عظیم اطلاعات با آنچه به صورت سنتی موجود بوده است متفاوت است. سیستمهای پایگاه داده هرچند ابزارهایی برای زمانهای مواجهه با دادههای کلان در اختیار برنامهنویسان قرار میدهند، ولی با افزایش تصاعدی حجم دادهها، اغلب ابزارها و روشها کارایی خود را از دست خواهند داد.
یکی از علتهای مطرح شدن کلانداده، افزایش سرعت جمعآوری و نگهداری اطلاعات است. در گذشته، تجهیزات لازم برای جمعآوری و نگهداری اطلاعات به شکل امروزی موجود نبوده است و حجم بسیار بیشتری از اطلاعات بدون نگهداری از بین میرفته است. گوشیهای موبایل امروزه در اختیار بیشتر مردم هستند. جمعآوری و نگهداری اطلاعات در حجمهایی بسیار بزرگ توسط این گوشیها امکانپذیر است. برای مثال ممکن است اطلاعات هواشناسی و جمعیتی یا ترافیکی با تجمیع و پردازش دادههای دریافت شده از میلیونها گوشی همراه به آسانی قابل استخراج باشد.
مدیریت و پردازش کلانداده
در شکل سنتی، تمامی فعالیتهای لازم برای مدیریت، پردازش و نتیجهگیری از دادههای خام توسط یک ماشین مرکزی یا یک نرمافزار DBMS قابل انجام بوده است. در هنگام مواجهه با حجم کلان دادهها، پردازش موازی توسط دهها، صدها و هزاران پردازشگر به صورت موازی تنها راه حل موجود است. زیرا توان سختافزارها و نرمافزارهای موجود برای انجام انفرادی این پردازشها بسیار ناچیز است.
چالش اصلی در پردازش کلانداده، شیوهی موازی سازی و تجمیع نتایج است. برای مثال سیستم جستجوگر گوگل در هنگام جستجوی یک کلمه توسط یک کاربر، میبایست کلمهی درخواستی را به دهها سرور ارسال کند تا هر یک بخشی از اطلاعات موجود در اینترنت را برای آن کلمه جستجو کنند. سپس یک هستهی مرکزی، نتایج دریافت شده از دهها سرور را در قالب یک صفحهی جستجو تجمیع کند و به کاربر نمایش دهد.
امنیت کلانداده
یکی از چالشهای پیش رو برای مدیریت کلانداده، حفظ امنیت آن است. تعیین دسترسی و مدیریت امنیتی دادهها شامل کدگذاری، اعتبارسنجی و دیگر جوانب امنیتی در حجمهای بزرگ چالشساز خواهد بود. حفظ امنیت در پردازشهای موازی به دلیل متمرکز نبودن سختافزار نیز از دیگر موارد است که حفظ امنیت کلاندادهها را با دشواری همراه میکند.
نگهداری و ذخیرهسازی کلان داده
فضاهای ذخیرهسازی سنتی، سرعت و حجم محدودی دارند. برای مثال یک دیسک سخت سنتی با بیشترین سرعت ممکن است تا ۱۰۰ یا ۲۰۰ مگابایت در ثانیه توان ذخیرهسازی داشته باشد. بررسی صحت ذخیرهسازی و تهیهی پشتیبان همزمان سرعت عملیاتی را به مراتب کمتر از این مقدار در دسترس قرار خواهد داد.
برای مثال نگهداری فایلهای ویدئویی ارسال شده در سایت یوتیوب با شیوههای سنتی امکانپذیر نیست. زیرا علاوه بر روند یکنواخت و بزرگ آپلود، سیستم باید توان پاسخگویی به هزاران و میلیونها درخواست همزمان برای مشاهدهی ویدئوها را نیز داشته باشد.
پردازش کلانداده توسط دولتها
حجم اطلاعاتی که دولتها با آن سر و کار دارند با احتمال بیشتری نسبت به اطلاعات معمول کلانداده است. برنامهریزی صحیح و درک صحیحتر از وضعیت موجود با پردازش کلانداده در سطح کشور در گذشته امکانپذیر نبود است. با روی کار آمدن ابزارها و روشهای جدید، موفقیت دولتها برای رسیدن به اهدافشان بیش از پیش امکانپذیر شده است.
حوزه تولید
برنامهریزی برای تولید و توان پیشبینی آینده با کنترل روی کلانداده و استخراج گزارشهای مختلف از حجم بزرگ اطلاعات ابزاری است که میتواند موفقیت در رقابت را بیش از پیش در دسترس قرار دهد.
حوزه بهداشت و سلامت
کنترل بهداشت و سلامت جامعه به واکنشهای سریع و توان پیشبینی آینده وابسته است. پردازش کلانداده در بخش سلامت و بهداشت نیز ابزاری کارآمد و مفید است که به تازگی در دسترس قرار گرفته است.
نمونههای به کارگیری کلانداده در تکنولوژی
- سایت فروش اینترنتی eBay از اطلاعاتی با حجم بیش از ۴۰ پتابایت برای پیشنهاد محصولات به مشتریان استفاده میکند.
- سایت Google ماهیانه به بیش از ۱۰۰ میلیارد جستجوی اینترنتی پاسخ میدهد.
- سایت فیسبوک بیش از ۵۰ میلیارد تصویر از کاربران خود را نگهداری میکند.
- فروشگاه والمارت در هر ساعت یک میلیون خرید کاربران خود را در پایگاه داده ذخیره سازی میکند.
- مرکز پیشبینی آب و هوای ناسا از اطلاعاتی با حجم بیش از ۳۲ پتابایت نگهداری و استفاده میکند.
- در سایت توئیتر روزانه بیش از ۶۰۰ میلیون توئیت ثبت میشود.