کاواندیش

در این وبلاگ خلاصه مطالعات یا تجارب جالب توجه خود در مورد هوشمندی کسب و کار(BI) را منتشر خواهم کرد.

کاواندیش

در این وبلاگ خلاصه مطالعات یا تجارب جالب توجه خود در مورد هوشمندی کسب و کار(BI) را منتشر خواهم کرد.

آموزش SSIS

سرویس تجمیع SQL Server که به اختصار با نام SSIS شناخته می شود، ابزاری قدرتمند جهت تجمیع داده از منابع متعدد و گوناگون به همراه عملیات مختلف همراه با آن از قبیل یافتن عبارات مشابه، یافتن رکوردهای تکراری، اعمال انواع تبدیل ها و ... می باشد.

فایل پیوست مطلبی است که خانم ها اخلاصی و غلامی به عنوان سمینار درس پایگاه داده تحلیلی ارائه شده در دانشگاه الزهرا تهیه کرده اند. ضمن تشکر از ایشان، این فایل را برای استفاده علاقمندان به اشتراک می گذارم.


دانلود فایل

آشنایی با هوشمندی کسب و کار(BI)

در یک دهه گذشته تقریباً تمامی سازمان‌ها سرمایه‌گذاری‌های بسیاری بر روی تکنولوژی اطلاعات اعم از نرم‌افزار و سخت‌افزار کرده‌اند. در اقتصاد امروزه که هزینه‌ها باید کاهش یابد، سازمان‌ها و شرکت‌ها از خود می‌پرسند: «تا کنون چه مقدار برای تکنولوژی سرمایه‌گذاری کرده‌ایم؟» و اینکه «از این سرمایه‌گذاری چه سودی برده‌ایم؟» در عصر اطلاعات، کسی که اطلاعات دارد، دارای قدرت است. هر سازمان و شرکتی که از این قدرت برخوردار باشد در صنعت و حرفه خود در مقایسه با رقبای خود متمایز و ممتاز می‌شود. سازمان‌ها و شرکت‌ها و محیط پیرامونی آنها، امروزه با سرعت حرکت و تغییر می‌کنند. اخذ اطلاعات صحیح در زمان صحیح اساس و پایه موفقیت و چه بسا بقای سازمان است، اما همیشه شکاف عمیقی بین اطلاعات مورد نیاز مدیران تجاری و انبوه داده­ هایی وجود دارد که طی عملیات‌های روزمره شرکتی در بخش­های مختلف آن جمع‌آوری می‌شوند. ضمن آنکه برخی اطلاعات از خارج از سیستم­های عملیاتی بایستی تامین گردند.

هوشمندی کسب و کار(Business Intelligence) اصطلاحی است که از اواسط دهه 1990 میلادی مطرح گردید و به معنای تبدیل داده ­ها از شکل اولیه آنها به چیزی است که تصمیمات تجاری بتوانند بر آن اساس گرفته شوند. این عبارت همچون چتری است که سایر نظام­های مرتبط با داده شامل انبارداده، داده کاوی، تحلیل آماری، پیش­ بینی و پشتیبانی از تصمیم را به یکدیگر مرتبط می­کند.


هوشمندی کسب و کار یعنی فرآیند

بالا بردن سوددهی سازمان در بازار رقابتی

با استفاده هوشمندانه از اطلاعات موجود در سازمان در فرآیند تصمیم­گیری



بیشترین بهره مندی بدست آمده از هوشمندی کسب وکار، امکان دسترسی بی­واسطه به داده ها توسط تصمیم­ گیرندگان در تمام سطوح سازمان است. در این صورت این افراد قادر خواهند بود که با داده ها تعامل داشته باشند و آنها را تحلیل کنند و در نتیجه بتوانند کسب وکار را مدیریت کنند، کارایی را بهبود بخشند، فرصتها را کشف کنند و کارشان را با بازدهی بالا انجام دهند. در ساده ­ترین حالت هوشمندی کسب و کار اطلاعاتی راجع به وضع کنونی کسب وکار به مدیران تحویل می دهد. با استفاده از هوشمندی کسب وکار، اطلاعات در زمان مناسب و با انعطاف بیشتری در اختیار مدیران قرار داده می­شود. در صورتی که یکی از شاخص های کسب وکار از قلم افتاده باشد و یا از خارج از برنامه ریزی باشد، هوشمندی کسب وکار به کاربران این امکان را می­دهد که جزئیات را شکافته و به دلیل این اتفاق پی ببرند و تصمیمات مقتضی را برای جبران وضعیت موجود بگیرند.


ادامه مطلب ...

آشنایی با داده کاوی

در طول دهه گذشته حجم زیادی از داده ها در پایگاه داده ها انباشته و ذخیره شده اند و روند افزایش آن همچنان ادامه دارد به گونه ای که داده های در دسترس هر 5 سال دو برابر می شود. در این میان تحقیقات انجام یافته نشان از آن دارد که سازمانها امروزه کمتر از یک درصد از داده هایشان را برای تحلیل استفاده می نمایند. به عبارت دیگر سازمانها در حالی تشنه دانش هستند که در داده ها غرق شده اند چرا که پردازش چنین حجم عظیمی از داده از توان انسان خارج است.


در سالهای اخیر در پاسخ به این امر، رشته جدیدی از کاوش داده ها موسوم به داده کاوی(Data Mining) به طور ویژه گسترش یافته است تا اطلاعات با ارزشی از چنین مجموعه داده های عظیم استخراج نماید. نگاهی به ترجمه تحت اللفظی داده کاوی، به ما در درک بهتر این واژه کمک می کند. کاوش(Mining) به معنای جستجو و استخراج از منابع نهفته و با ارزش زمین اطلاق می شود. پیوند این کلمه با کلمه داده، جستجوی عمیق جهت پیدا کردن اطلاعات مفیدی که قبلاً نهفته بودند، از داده های قابل دسترس حجیم را پیشنهاد می کند.


داده کاوی یک رشته نسبتاً جدید علمی می باشد که از انجام تحقیقات حداقل در رشته های آمار، یادگیری ماشین، بازنمایی دانش، علوم رایانه خصوصاً مدیریت پایگاه داده ها شکل گرفته است.


داده کاوی دارای تعاریف متنوعی می باشد. این تعاریف به مقدار زیادی به پیش زمینه ها و نقطه نظرهای افراد ارائه دهنده بستگی دارد که در اینجا به برخی از آنها اشاره می کنیم:


1- داده کاوی فرآیند شناخت الگوهای معتبر، جدید، ذاتاً مفید و قابل فهم از داده ها می باشد. (Fayyad)

2- داده کاوی به فرآیند استخراج اطلاعات نهفته، قابل فهم، قابل پی گیری از پایگاه داده های بزرگ و استفاده از آن در تصمیم گیری های تجاری مهم، اطلاق می شود.(Zekulin)

3- داده کاوی، مجموعه ای از روش ها در فرآیند کشف دانش می باشد که برای تشخیص الگوها و روابط نامعلوم در داده ها مورد استفاده قرار می گیرد. (Ferruzza)

4- فرآیند کشف الگوهای مفید از داده ها را داده کاوی می گویند. (John)

5- فرآیند انتخاب، کاوش و مدل بندی داده های حجیم، جهت کشف روابط نهفته با هدف بدست آوردن نتایج واضح و مفید، برای مالک پایگاه داده ها را، داده کاوی گویند.


در واقع داده کاوی به استخراج دانش از پایگاه های بزرگ داده ها اشاره دارد. این الگوها از قبل شناخته شده نبوده اند و یافتن آنها با روش های تحلیل دستی بسیار زمانگیر یا غیر ممکن می باشد.

پیش از پرداختن به انواع الگوریتم های داده کاوی به برخی کاربردهای آن در حوزه های مختلف اشاره می کنیم:


خرده فروشی

تعیین الگوهای خرید مشتریان

تجزیه و تحلیل سبد خرید بازار

پیشگویی میزان خرید مشتریان از طریق فروش الکترونیکی


بانکداری

پیش بینی الگوهای کلاهبرداری از طریق کارت های اعتباری

تشخیص مشتریان ثابت و شناخت مشتریان پر خطر و سودجو براساس معیار هایی از جمله سن ، درآمد، وضعیت سکونت، تحصیلات، شغل و غیره

تشخیص اقدامات مرتبط با پولشویی


بیمه

تجزیه و تحلیل دعاوی و شناسایی ادعاهای متقلبانه

پیشگویی میزان خرید بیمه نامه های جدید توسط مشتریان


پزشکی

تعیین میزان موفقیت روش های درمانی در برخورد با بیماری های صعب العلاج

کشف الگوها و مدلهای ناشناخته تاثیر دارو ها بر بیماری های مختلف

کشف الگوها و مدلهای ناشناخته تاثیر دارو ها بر بیماران گروه سنی مختلف


هواشناسی

استفاده از الگوها برای پیش بینی وضعیت هوا


روزنامه نگاری

شناسایی گروه های مختلف خوانندگان و ارائه مطالب متناسب


انتشارات

شناسایی الگوی خرابی دستگاه های چاپ


تبلیغات

بخش بندی بازار و ارائه تبلیغات متناسب


روانشناسی

کشف الگوهایی در رابطه با ازداوجهای موفق و ناموفق

کشف عوامل های مختلف در اعتیاد افراد


امروزه مرز و محدودیتی برای دانش داده کاوی متصور نبوده و کاربرد آن را از کف اقیانوس ها تا اعماق فضا می دانند. به طور کلی هرکجا حجم زیادی داده موجود باشد، پتانسیل اجرای بررسی های داده کاوی وجود دارد.

 

آشنایی با پاکسازی اطلاعات



با توجه به نقش انکارناپذیر اطلاعات در هوشمندی کسب و کار، برخورداری از اطلاعات با کیفیت دارای اهمیت دوچندان خواهد بود. عدم بهره­ مندی از چنین سطحی از کیفیت، بسیاری از تحلیل­ ها و برنامه ­ریزی­ ها را غیرممکن می ­سازد و چه بسیار تهدیدها و فرصت­ها که به این ترتیب قابل کشف نخواهند بود.


پاکسازی داده  فرایند تشخیص، اصلاح و حذف خطاهای موجود در داده هاست. خطاهای داده شامل داده های غلط، ناقص، تکراری، متناقض ویا با ساختار نامناسب هستند. برای بیان این تعریف از عبارات تمیز کردن داده یا پالایش داده هم استفاده می شود.


در این نوشتار برخی اصول اولیه پاکسازی اطلاعات را ذکر می کنیم. مطالب تکمیلی در آینده به

تدریج اضافه خواهند شد.



سه اصل کلیدی پاکسازی اطلاعات



1- پیشگیری بهتر از درمان است.

لازم است دو رویه پاکسازی اطلاعات و پیشگیری از خطا به موازات هم پیش بروند. تصمیم بر پاکسازی اطلاعات و سپس اندیشیدن به پیشگیری از خطا بدان معناست که خطاها مجدداً بروز خواهند کرد و رویه پاکسازی بایستی مجدداً تکرار شود. همچنین روند پاکسازی اطلاعات به شناسایی علت خطاها و در پیش گرفتن تدابیری جهت پیشگیری از بروز مجدد آنها کمک می­کند.



2- حفظ کیفیت اطلاعات یک وظیفه همگانی است.


چرخه مدیریت اطلاعات شامل کاربران واردکننده اطلاعات، واحدهای پشتیبانی از اطلاعات و کاربران استفاده کننده از اطلاعات می­ باشد. هریک از این کاربران به گونه ­ای در حفظ کیفیت اطلاعات موثر هستند. به عنوان مثال دقت کاربران در هنگام ورود اطلاعات، بررسی دوره ­ای کیفیت اطلاعات توسط واحدهای پشتیبانی و ارائه بازخورد از طرف کاربران استفاده کننده از اطلاعات از عوامل مهم در حفظ و ارتقای کیفیت اطلاعات هستند.



3- نقش آموزش در حفظ کیفیت اطلاعات


بسیاری از نقص­های اطلاعاتی ناشی از آن است که کاربران جهت سرعت بخشیدن به کار خود بدون آگاهی از اهمیت اطلاعات وارده، از ورود برخی اقلام صرف نظر کرده یا مقادیر را به صورت پیش فرض رها می ­کنند. آموزش کاربران وارد­کننده اطلاعات و آگاه­ سازی آنها از اهمیت ورود صحیح اطلاعات و در ادامه کنترل و پیگیری کیفیت اطلاعات وارد شده توسط آنها در فرآیند حفظ کیفیت اطلاعات اهمیت بسزایی دارد.



عوامل ایجاد خطا در سیستم­های اطلاعاتی


برخی از مهمترین عوامل بروز خطا در سیستم­های اطلاعاتی عبارتند از:

  • عدم وجود فرمت مناسب در سیستم ورود اطلاعات( به عنوان مثال تاریخ­ها)
  • عدم اعتبارسنجی محدوده مقادیر وارد شده( به عنوان مثال سن فرد 300 سال وارد شود)
  • اجباری نبودن وارد کردن مقادیر
  • اکتفا به مقادیر پیش فرض سیستم و عدم ورود اطلاعات دقیق
  • تغییرات سیستم در طی زمان و اضافه شدن تدریجی اقلام اطلاعاتی
  • عدم یکپارچگی سیستم­ها و تکرار اطلاعات
  • امکان وارد کردن چند مقدار در یک فیلد( به عنوان مثال، وارد کردن چند شماره در کنار هم به عنوان شماره تلفن)
  • عدم دقت کاربران در ورود اطلاعات

 

پی نوشت: مطالب ذکر شده در این نوشتار بخشی از مقاله ای می باشد که توسط اینجانب در ماهنامه داخلی شرکت بیمه پارسیان منتشر شده است.

 

XMLA

XMLA استانداردی است که امکان ارتباط بین برنامه های مشتری با منابع داده چند بعدی را فراهم می کند. این استاندارد در سال 2000 توسط مایکروسافت ارائه گردید و به فاصله ای اندک، کمپانی های SAS و Hyperion به انجمن XMLA پیوستند و در حال حاضر بیش از 25 شرکت حامی این انجمن هستند.


در توسعه XMLA از استاندارهای مستقل موجود استفاده شده است شاملHTTP، SOAP و XML. زبان پرس و جو نیز MDX می باشد که استاندارد پرس و جوهای چند بعدی می باشد.

محصولات مایکروسافت این استاندارد را به عنوان پروتکل اصلی خود برای تمامی ارتباطات با Analysis Services مورد استفاده قرار می دهند. به عنوان مثال، در استفاده از AMO و ADOMD.NET نیز درخواست ها به دستورات XMLA تبدیل می شوند.


این استاندارد شامل دو متد اصلی است: Discover و Execute. متد Discover جهت دریافت اطلاعات و متادیتا استفاده می شود؛ از قبیل فهرستی از منابع داده، کیوب ها، ابعاد، نقش ها و .... متد Execute به برنامه های کاربردی اجازه می دهد تا فرمان اجرای دستورات متناسب با سرور ارائه دهنده را صادر کنند. این دستورات می توانند دستورات DML یا DDL باشند.

مکانیزم های مدیریت خطا نیز در این استاندارد لحاظ شده اند.


دستور زیر نمونه ای از دستورات Discover می باشد که لیست کیوب های موجود را برمی گرداند:


<Discover xmlns="urn:schemas-microsoft-com:xml-analysis">
  <RequestType>MDSCHEMA_CUBES</RequestType>
  <Restrictions />
  <Properties />
</Discover>

 

و قطعه کد زیر یک دستور Execute را نشان می دهد که دستور مورد نظر آن تحت <Statement> آورده شده است:


<soap:Envelope>

 <soap:Body>

  <Execute xmlns="urn:schemas-microsoft-com:xml-analysis">

   <Command>

    <Statement>SELECT Measures.MEMBERS ON COLUMNS FROM Sales</Statement>

   </Command>

   <Properties>

    <PropertyList>

     <DataSourceInfo/>

     <Catalog>FoodMart</Catalog>

     <Format>Multidimensional</Format>

     <AxisFormat>TupleFormat</AxisFormat>

    </PropertyList>

   </Properties>

  </Execute>

 </soap:Body>

</soap:Envelope>

 

در محیط SQL Server Management Studio با انتخاب کردن دکمه Script در پنجره پردازش کیوب یا Dimension می توان کد XMLA متناظر را مشاهده نمود و جهت اجرای انواع عملیات از آن استفاده کرد.


پی نوشت: در این نوشتار فرض بر آن بوده که خواننده مطلب با استانداردهای مرتبط از قبیل XML، SOAP و غیره آشنایی کافی دارد و از ارائه توضیحات آنها خودداری شده است. همچنین با توجه به فراگیر بودن علائم اختصاری ذکر شده، عناوین کامل آورده نشده است.