الفرق بين كد و مينينغ داتا مينينغ

Anonim

كد مقابل استخراج البيانات

كد (ديسكفري المعرفة في قواعد البيانات) يتضمن الأدوات والنظريات لمساعدة البشر في استخراج المعلومات المفيدة وغير المعروفة سابقا (أي المعرفة) من مجموعات كبيرة من البيانات الرقمية. يتكون كد من عدة خطوات، والتعدين البيانات هو واحد منهم. استخراج البيانات هو تطبيق خوارزمية محددة من أجل استخراج أنماط من البيانات. ومع ذلك، يتم استخدام كد والتعدين البيانات بالتبادل.

ما هو كد؟

كما ذكر أعلاه، كد هو حقل علوم الكمبيوتر، والذي يتعامل مع استخراج معلومات غير معروفة ومثيرة للاهتمام من البيانات الخام سابقا. كد هو العملية برمتها في محاولة لفهم البيانات من خلال تطوير الأساليب أو التقنيات المناسبة. وتتناول هذه العملية رسم خرائط البيانات ذات المستوى المنخفض إلى أشكال أخرى تكون أكثر إحكاما وتجريدا وفائدة. ويتحقق ذلك من خلال إنشاء تقارير قصيرة، ووضع نماذج لعملية توليد البيانات وتطوير نماذج تنبؤية يمكن التنبؤ بالحالات المستقبلية. نظرا للنمو الأسي للبيانات، وخاصة في مجالات مثل الأعمال التجارية، أصبحت كد عملية هامة جدا لتحويل هذه الثروة الكبيرة من البيانات إلى ذكاء الأعمال، كما استخراج اليدوي من أنماط أصبح من المستحيل على ما يبدو في العقود القليلة الماضية. على سبيل المثال، يستخدم حاليا في تطبيقات مختلفة مثل تحليل الشبكات الاجتماعية والكشف عن الاحتيال والعلوم والاستثمار والتصنيع والاتصالات وتنظيف البيانات والرياضة واسترجاع المعلومات وإلى حد كبير للتسويق. وعادة ما تستخدم كد للإجابة على أسئلة مثل ما هي المنتجات الرئيسية التي قد تساعد في الحصول على أرباح عالية العام المقبل في وول مارت؟. هذه العملية لديها عدة خطوات. ويبدأ بتطوير فهم مجال التطبيق والهدف ومن ثم إنشاء مجموعة بيانات الهدف. ويلي ذلك تنظيف، المعالجة المسبقة، تقليل وإسقاط البيانات. الخطوة التالية هي استخدام استخراج البيانات (موضح أدناه) لتحديد النمط. وأخيرا، يتم تعزيز المعرفة المكتشفة من خلال تصور و / أو تفسير.

ما هو استخراج البيانات؟

كما ذكر أعلاه، تعد عملية استخراج البيانات خطوة فقط ضمن عملية كد الشاملة. هناك هدفان رئيسيان لتعدين البيانات كما هو محدد من قبل هدف التطبيق، وهما بالتحقق أو الاكتشاف. التحقق هو التحقق من فرضية المستخدم حول البيانات، في حين يكتشف الاكتشاف تلقائيا أنماط مثيرة للاهتمام. هناك أربعة مهمة رئيسية في مجال استخراج البيانات: التجميع والتصنيف والانحدار وتكوين الجمعيات (تلخيص). التجميع هو تحديد مجموعات مماثلة من البيانات غير المهيكلة. التصنيف هو قواعد التعلم التي يمكن تطبيقها على البيانات الجديدة. الانحدار هو العثور على وظائف مع الحد الأدنى من الخطأ لنموذج البيانات.وتكوين الجمعيات تبحث عن العلاقات بين المتغيرات. ثم، خوارزمية استخراج البيانات محددة يحتاج إلى اختيار. اعتمادا على الهدف، خوارزميات مختلفة مثل الانحدار الخطي، الانحدار اللوجستي، أشجار القرار و ناييف بايس يمكن اختيارها. ثم يتم البحث عن أنماط الاهتمام في واحد أو أكثر من أشكال التمثيلية. وأخيرا، يتم تقييم النماذج إما باستخدام الدقة التنبؤية أو الفهم.

ما هو الفرق بين كد و داتا مينينغ؟

على الرغم من أن المصطلحين ك د و مينينغ داتا مينينغ يستخدمان بشكل كبير بالتبادل، إلا أنهما يشيران إلى مفهومين مختلفين ولكن مختلفين قليلا. كد هي العملية الشاملة لاستخراج المعرفة من البيانات في حين تعد عملية استخراج البيانات خطوة داخل عملية كد، التي تتناول تحديد الأنماط في البيانات. وبعبارة أخرى، "استخراج البيانات" هو فقط تطبيق خوارزمية محددة استنادا إلى الهدف العام لعملية كد.