Big Data یا کلان‌داده چیست ؟

کلان‌داده یا Big Data به حجم‌هایی از داده گفته می‌شود که در مقایسه با داده‌های نسل قبلی با روش‌های متداول قابل مدیریت و پردازش نباشند. مشکلات به وجود آمده در مدیریت و پردازش حجم‌های عظیم اطلاعات شامل جمع‌آوری، آنالیز، نگهداری، انتقال، جستجو و به روزرسانی می‌شوند.

به عنوان نمونه یک کلان‌داده‌ی شناخته‌شده، اطلاعات موجود در پایگاه داده‌ی گوگل است که در هنگام جستجو می‌بایست در کسری از ثانیه مورد جستجو قرار گیرد. برآورد شده بیش از یک میلیارد سایت اینترنتی وجود دارند که در واحد زمان ده‌ها سایت جدید و هزاران مطلب جدید به آن افزوده می‌شوند.

کلان داده - Big Data

موتور جستجوی گوگل باید بتواند با سرعت متناسب، اطلاعات جدید را Index کند و همیشه نتایج جستجوی روزآمدی را از میان این حجم عظیم اطلاعات، در زمان قابل پذیرش به کاربران خود ارائه دهد.

ابزارها و دانش لازم برای مدیریت و پردازش حجم‌های عظیم اطلاعات با آنچه به صورت سنتی موجود بوده است متفاوت است. سیستم‌های پایگاه داده هرچند ابزارهایی برای زمان‌های مواجهه با داده‌های کلان در اختیار برنامه‌نویسان قرار می‌دهند، ولی با افزایش تصاعدی حجم داده‌ها، اغلب ابزارها و روش‌ها کارایی خود را از دست خواهند داد.

یکی از علت‌های مطرح شدن کلان‌داده، افزایش سرعت جمع‌آوری و نگهداری اطلاعات است. در گذشته، تجهیزات لازم برای جمع‌آوری و نگهداری اطلاعات به شکل امروزی موجود نبوده است و حجم بسیار بیشتری از اطلاعات بدون نگهداری از بین می‌رفته است. گوشی‌های موبایل امروزه در اختیار بیشتر مردم هستند. جمع‌آوری و نگهداری اطلاعات در حجم‌هایی بسیار بزرگ توسط این گوشی‌ها امکان‌پذیر است. برای مثال ممکن است اطلاعات هواشناسی و جمعیتی یا ترافیکی با تجمیع و پردازش داده‌های دریافت شده از میلیون‌ها گوشی همراه به آسانی قابل استخراج باشد.

مدیریت و پردازش کلان‌داده

در شکل سنتی، تمامی فعالیت‌های لازم برای مدیریت، پردازش و نتیجه‌گیری از داده‌های خام توسط یک ماشین مرکزی یا یک نرم‌افزار DBMS قابل انجام بوده است. در هنگام مواجهه با حجم کلان داده‌ها، پردازش موازی توسط ده‌ها، صدها و هزاران پردازشگر به صورت موازی تنها راه حل موجود است. زیرا توان سخت‌افزارها و نرم‌افزارهای موجود برای انجام انفرادی این پردازش‌ها بسیار ناچیز است.

چالش اصلی در پردازش کلان‌داده، شیوه‌ی موازی سازی و تجمیع نتایج است. برای مثال سیستم جستجوگر گوگل در هنگام جستجوی یک کلمه توسط یک کاربر، می‌بایست کلمه‌ی درخواستی را به ده‌ها سرور ارسال کند تا هر یک بخشی از اطلاعات موجود در اینترنت را برای آن کلمه جستجو کنند. سپس یک هسته‌ی مرکزی، نتایج دریافت شده از ده‌ها سرور را در قالب یک صفحه‌ی جستجو تجمیع کند و به کاربر نمایش دهد.

امنیت کلان‌داده

یکی از چالش‌های پیش رو برای مدیریت کلان‌داده، حفظ امنیت آن است. تعیین دسترسی و مدیریت امنیتی داده‌ها شامل کدگذاری، اعتبارسنجی و دیگر جوانب امنیتی در حجم‌های بزرگ چالش‌ساز خواهد بود. حفظ امنیت در پردازش‌های موازی به دلیل متمرکز نبودن سخت‌افزار نیز از دیگر موارد است که حفظ امنیت کلان‌داده‌ها را با دشواری همراه می‌کند.

نگهداری و ذخیره‌سازی کلان داده

فضاهای ذخیره‌سازی سنتی، سرعت و حجم محدودی دارند. برای مثال یک دیسک سخت سنتی با بیشترین سرعت ممکن است تا ۱۰۰ یا ۲۰۰ مگابایت در ثانیه توان ذخیره‌سازی داشته باشد. بررسی صحت ذخیره‌سازی و تهیه‌ی پشتیبان همزمان سرعت عملیاتی را به مراتب کمتر از این مقدار در دسترس قرار خواهد داد.

برای مثال نگهداری فایل‌های ویدئویی ارسال شده در سایت یوتیوب با شیوه‌های سنتی امکان‌پذیر نیست. زیرا علاوه بر روند یکنواخت و بزرگ آپلود، سیستم باید توان پاسخگویی به هزاران و میلیون‌ها درخواست همزمان برای مشاهده‌ی ویدئو‌ها را نیز داشته باشد.

پردازش کلان‌داده توسط دولت‌ها

حجم اطلاعاتی که دولت‌ها با آن سر و کار دارند با احتمال بیشتری نسبت به اطلاعات معمول کلان‌داده است. برنامه‌ریزی صحیح و درک صحیح‌تر از وضعیت موجود با پردازش کلان‌داده در سطح کشور در گذشته امکان‌پذیر نبود است. با روی کار آمدن ابزارها و روش‌های جدید، موفقیت دولت‌ها برای رسیدن به اهدافشان بیش از پیش امکان‌پذیر شده است.

حوزه تولید

برنامه‌ریزی برای تولید و توان پیش‌بینی آینده با کنترل روی کلان‌داده و استخراج گزارش‌های مختلف از حجم بزرگ اطلاعات ابزاری است که می‌تواند موفقیت در رقابت را بیش از پیش در دسترس قرار دهد.

حوزه بهداشت و سلامت

کنترل بهداشت و سلامت جامعه به واکنش‌های سریع و توان پیش‌بینی آینده وابسته است. پردازش کلان‌داده در بخش سلامت و بهداشت نیز ابزاری کارآمد و مفید است که به تازگی در دسترس قرار گرفته است.

نمونه‌های به کارگیری کلان‌داده در تکنولوژی

  • سایت فروش اینترنتی eBay از اطلاعاتی با حجم بیش از ۴۰ پتابایت برای پیشنهاد محصولات به مشتریان استفاده می‌کند.
  • سایت Google ماهیانه به بیش از ۱۰۰ میلیارد جستجوی اینترنتی پاسخ می‌دهد.
  • سایت فیسبوک بیش از ۵۰ میلیارد تصویر از کاربران خود را نگهداری می‌کند.
  • فروشگاه والمارت در هر ساعت یک میلیون خرید کاربران خود را در پایگاه داده ذخیره سازی می‌کند.
  • مرکز پیش‌بینی آب و هوای ناسا از اطلاعاتی با حجم بیش از ۳۲ پتابایت نگهداری و استفاده می‌کند.
  • در سایت توئیتر روزانه بیش از ۶۰۰ میلیون توئیت ثبت می‌شود.

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *