ناقشت رسالة الماجستير في كلية علوم الحاسوب وتكنولوجيا المعلومات بجامعة القادسية (تصميم نهج تجميع عنقودي للبيانات الكبيرة) (Design clustering ensemble approach Big Data) للطالب ضرغام كاظم هاشم.
بين الباحث ان الرسالة اقترحت نموذجا لتجميع البيانات الضخمة بشكل فعال، والذي يقوم على مفهومين؛ الأول: “Ensemble”، حيث يتم فيه تقسيم البيانات إلى أجزاء أصغر وكل واحدة مجمعة باستخدام خوارزمية “k-mean” بشكل مستقل عن الأجزاء الأخرى، ثم يتم دمج النتائج أخيرًا٠ ويعتمد المفهوم الثاني على طريقة “التجميع ثلاثي الاتجاهات”
تقدم الباحث في دراسته بتنفيذ خوارزميات نموذجية مقترحة بلغة برمجة “python”، وباستخدام مجاميع مختلفة من البيانات من مستوعبات بيانات مشهورة مثل”UCI” و”Kaggle” وأجرى تجاربا على هذه المجاميع من البيانات، وتحليل النتائج ومقارنتها، حيث أثبتت النتائج المستحصلة كفاءة النموذج المقترح، وفي الوقت نفسه سيتم تقليل تعقيد وقت ومساحة التنفيذ بسبب تقسيم البيانات إلى عدة أجزاء من البيانات المتناسبة، كما سيتم تحديد المزيد من المشكلات ومعالجتها من خلال مناقشة النتائج، مثل دور جودة البيانات في استخدام النموذج المقترح.
أقترح الباحث في دراسته العمل مستقبلا بالنتائج المتعلقة بتحسين معلمات النموذج واختبارها باستخدام خوارزميات تجميع أخرى.