الفرق بين استخراج البيانات وتخزين البيانات

Anonim

استخراج البيانات مقابل تخزين البيانات

تعد عملية استخراج البيانات وتخزين البيانات تقنيات قوية جدا وشائعة لتحليل البيانات. المستخدمين الذين يميلون نحو إحصاءات استخدام استخراج البيانات. وهي تستخدم نماذج إحصائية للبحث عن أنماط مخفية في البيانات. ويهتم عمال المناجم بالبيانات بإيجاد علاقات مفيدة بين عناصر البيانات المختلفة، وهو ما يحقق أرباحا في نهاية المطاف للشركات. ولكن من ناحية أخرى، خبراء البيانات الذين يمكن تحليل أبعاد الأعمال يميلون مباشرة إلى استخدام مخازن البيانات.

ويعرف استخراج البيانات أيضا باسم اكتشاف المعرفة في البيانات (كد). كما ذكر أعلاه، هو مجال علوم الكمبيوتر، والذي يتعامل مع استخراج معلومات غير معروفة ومثيرة للاهتمام من البيانات الخام سابقا. ونظرا للنمو الأسي للبيانات، وخاصة في مجالات مثل الأعمال التجارية، أصبح استخراج البيانات أداة هامة جدا لتحويل هذه الثروة الكبيرة من البيانات إلى ذكاء الأعمال، حيث أصبح استخراج اليدوي من الأنماط مستحيلا على ما يبدو في العقود القليلة الماضية. على سبيل المثال، يتم استخدامه حاليا لمختلف التطبيقات مثل تحليل الشبكات الاجتماعية، والكشف عن الاحتيال والتسويق. وعادة ما يتعامل استخراج البيانات مع المهام الأربع التالية: التجميع والتصنيف والانحدار وتكوين الجمعيات. التجميع هو تحديد مجموعات مماثلة من البيانات غير المهيكلة. التصنيف هو قواعد التعلم التي يمكن تطبيقها على البيانات الجديدة وعادة ما تشمل الخطوات التالية: المعالجة المسبقة للبيانات، وتصميم النمذجة، واختيار التعلم / ميزة والتقييم / التحقق من الصحة. الانحدار هو العثور على وظائف مع الحد الأدنى من الخطأ لنموذج البيانات. وتكوين الجمعيات تبحث عن العلاقات بين المتغيرات. وعادة ما يستخدم استخراج البيانات للإجابة على أسئلة مثل ما هي المنتجات الرئيسية التي قد تساعد على الحصول على أرباح عالية العام المقبل في وول مارت؟

كما ذكر أعلاه، يستخدم مستودع البيانات أيضا لتحليل البيانات، ولكن من قبل مجموعات مختلفة من المستخدمين وهدف مختلف قليلا في الاعتبار. على سبيل المثال، عندما يتعلق الأمر بقطاع التجزئة، فإن مستخدمي مستودع البيانات أكثر اهتماما بما هي أنواع المشتريات التي تحظى بشعبية بين العملاء، وبالتالي فإن نتائج التحليل يمكن أن تساعد العملاء من خلال تحسين تجربة العملاء. ولكن عمال المناجم البيانات تخمين أولا فرضية مثل العملاء شراء نوع معين من المنتجات وتحليل البيانات لاختبار الفرضية. يمكن أن يتم تخزين البيانات من قبل تاجر التجزئة الرئيسي الذي يخزن في البداية مخازنها بنفس أحجام المنتجات ليعرف لاحقا أن متاجر نيويورك تبيع مخزون أصغر حجما أسرع بكثير مما كانت عليه في متاجر شيكاغو. لذلك، من خلال النظر في هذه النتيجة يمكن لمتاجر التجزئة تخزين مخزن نيويورك مع أحجام أصغر مقارنة مع مخازن شيكاغو.

لذلك، كما ترون بوضوح، هذين النوعين من التحليل يبدو أن من نفس الطبيعة للعين المجردة. كلاهما قلق بشأن زيادة الأرباح استنادا إلى البيانات التاريخية. ولكن بالطبع هناك اختلافات رئيسية. بعبارات بسيطة، وتعدين البيانات ومخازن البيانات مكرسة لتقديم أنواع مختلفة من التحليلات، ولكن بالتأكيد لأنواع مختلفة من المستخدمين. وبعبارة أخرى، يبحث "استخراج البيانات" عن الارتباطات، ويدعم فرضية إحصائية. ولكن، يجيب مستودع البيانات على سؤال أوسع نطاقا ويعرض البيانات والنردات من هناك فصاعدا للاعتراف بطرق التحسين في المستقبل.