داده‌کاوی

داده‌کاوی (Data mining) به معنای جستجو برای یافتن الگوهای پنهان، معتبر و مفید از میان انبوهی از داده‌هاست. هر چیزی که مربوط به کشف روابط نامعلوم و ناشناخته در بین داده‌ها باشد را می‌توان داده‌کاوی دانست. همچنین از آن بعنوان دانش کشف و استخراج، آنالیز داده/الگو، برداشت اطلاعات و غیره نیز نام برده می‌شود. در حقیقت داده‌کاوی یک مهارت چندرشته‌ایی از یادگیری ماشین، آمار، هوش مصنوعی و فناوری پایگاه داده است. از این مهارت می‌توان در بازاریابی، کشف تقلب، دستاوردهای علمی و غیره بهره برد.

داده‌کاوی را می‌توان بر روی انواع داده‌های زیر انجام داد:

پایگاه داده‌های رابطه ای
انبارهای داده
پایگاه داده و مخازن پیشرفته اطلاعات
پایگاه‌‌های داده شی‌گرا و شی-رابطه
پایگاه داده تراکنشی و مکانی
پایگاه داده چندرسانه‌ای و جریانی
پایگاه داده متنی
متن‌کاوی و وب‌کاوی

مراحل پیاده‌سازی داده‌کاوی:

1- درک کسب و کار
2- درک داده
3- آماده‌سازی داده
4- مدل‌سازی
5- ارزیابی
6- گسترش

داده‌کاوی

درک کسب و کار:

در این مرحله اهداف کسب و کار و داده‌کاوی مشخص می‌شود. قبل از هر چیزی باید اهداف تجاری و نوع مشتری بررسی و مشخص گردد. در این گام باید بدانیم مشتری چه میخواهد؟ (چیزی که در بسیاری از مواقع،حتی خود مشتری هم آن را نمی‌داند). برای این منظور می‌توان از سناریوهای موجود بهره برد. بنابراین لازم است تا منابع، فرض‌ها، محدودیت‌ها و سایر فاکتورها در کسب و کارتان را مورد بررسی و ارزیابی قرار دهیم.

درک داده:

در این گام، داده‌ها مورد بررسی قرار می‌گیرند تا مشخص شود آیا برای اهداف مدنظر ما مناسب هستند؟ بنابراین ابتدا داده‌ها از چندین منبع داده موجود جمع‌آوری می‌شوند. این منابع ممکن است شامل چندین پایکاه داده، داده‌های تک فایلی (Flat Filer) یا مکعب داده باشند. در اینجا مواردی مانند تطبیق شی و یکپارچگی طرح وجود دارد که در طی فرآیند یکپارچگی داده ایجاد می‌شود. این فرآیند به دلیل احتمال کم مطابقت داده‌های منابع مختلف با هم، کاملاً پیچیده و مشکل است. جداولی را فرض بگیرید که در آن جدول (الف) دارای موجودی نام و جدول (ب) دارای شناسه است. بنابراین، اطمینان از اینکه هر دوی این اشیا به یک مقدار اشاره دارند یا خیر بسیار دشوار خواهد بود. از این‌رو بهتر است تا برای کاهش خطا از فراداده (Metadata) استفاده شود.

بعد از آن نوبت به جستجوی خصوصیات داده‌های حاصل، می‌رسد. یک راه مناسب برای اکتشاف داده‌ها، بررسی دلایل داده‌کاوی (تصمیم‌گیری در تجارت) با استفاده از پرس و جو، گزارش دهی و تجسم است.

آماده‌سازی داده:

در این گام، داده‌ها آماده تولید می‌شوند. فرآیند تولید داده 90% از زمان پروژه را در بر می‌گیرد. داده‌ها باید از منابع مختلفی انتخاب، تمیز کردن، تبدیل، قالب بندی، پنهان‌سازی (ناشناس‌سازی) و درصورت لزوم ساخته شوند.

به فرآیندی که در آن نویز داده‌ها حذف و مقادیر گمشده بازیابی می‌شود “تمیز کردن داده” گفته می‌شود. بعنوان مثال؛ داده‌های مربوط به سن یک مشتری از بین رفته است. بنابراین باید به طریقی داده‌های ناقص پر شوند.

عملیات تبدیل داده نیز داده‌ها را برای رسیدن به داده‌کاوی مفیدتر تغییر می‌دهد. این عملیات می‌تواند به موفقیت در کاوش داده کمک زیادی کند. برای این منظور می‌توان به موارد زیر اشاره داشت:

• هموارسازی 1 : به حذف نویز از داده‌ها کمک می‌کند.
• جمع‌آوری 2 : این عملیات بر روی داده‌هایی مثل داده‌های فروش برای جمع فروش ماهانه یا سالانه به کار برده می‌شوند.
• تعمیم 3 : به کمک سلسله مراتب مفهومی،داده‌های سطح پایین جایگزین سطح بالاتر می‌شوند. مثلا شهر جایگزین شهرستان می‌شود.

• نرمالیزه کردن 4 : نرمالیزه وقتی انجام می‌شود که داده‌ها در مقیاس بالاتر از حد قرار می‌گیرند. مثلاً تمام داده‌ها باید در محدوده 2- تا 2 جا داده شوند.
• ساخت ویژگی 5 : این ویژگی‌ها، مجموعه‌ایی از ویژگی‌های مفید برای داده‌کاوی را شامل می‌شود.
نتایج فرآیندهای فوق، مجموعه نهایی داده است که در مدل‌سازی مورد استفاده قرار می‌گیرند.

مدل‌سازی 6 :

در این گام از مدل‌های ریاضی برای تعیین الگوهای داده استفاده می‌شود. براساس اهداف کسب و کار، تکنیک‌های مدل‌سازی مناسب برای مجموعه داده‌های آماده، انتخاب می‌شوند. سناریویی برای بررسی کیفیت و اعتبارسنجی مدل ایجاد می‌شود. مدل بر روی داده‌های آماده اجرا و نتایج برای اطمینان از کارایی مدل مورد ارزیابی قرار می‌گیرند.

ارزیابی 7 :

در این گام، الگوهای مشخص شده برای اهداف تجاری ارزیابی می‌شوند. نتایج حاصل از مدل داده‌کاوی دوباره باید برای اهداف تجاری بررسی شوند. در حقیقت ممکن است داده‌کاوی نیازهای تجاری جدیدی را مطرح کند. در نهایت تصمیم برای استفاده یا عدم استفاده از این مدل گرفته می‌شود.

گسترش 8 :

در این مرحله، دستاوردهای داده‌کاوی در عملیات روزمره تجاری مورد استفاده قرار می‌گیرند. دانش یا اطلاعات حاصل باید برای تمام سهام‌داران قابل فهم باشد و برنامه‌ایی دقیق برای نگهداری، نظارت و گسترش آن تهیه شود.


1-Smoothing   2-Aggregation   3-Generalization   4-Normalization   5-Attribute construction   6-Modelling   7-Evaluation   8-Deployment

{{ time }}

{{ date }}

گروه دانش‌بنیان پارسانیس با بهره‌گیری از کادری مجرب و استفاده از ابزارهای هوشمند ایجاد انبار داده و داده کاوی آماده ارائه‌ خدمات گسترده مدیریت ریسک و ارتباط با مشتریان به شما عزیزان است.



صفحه اصلی

parsanis.com