تور لحظه آخری
امروز : شنبه ، 14 مهر 1403    احادیث و روایات:  پیامبر اکرم (ص):هيچ كس نيتى را در دل پنهان نمى‏كند، مگر اينكه خداوند آن نيت را (در رفتار و كردا...
سرگرمی سبک زندگی سینما و تلویزیون فرهنگ و هنر پزشکی و سلامت اجتماع و خانواده تصویری دین و اندیشه ورزش اقتصادی سیاسی حوادث علم و فناوری سایتهای دانلود گوناگون شرکت ها




آمار وبسایت

 تعداد کل بازدیدها : 1820812146




هواشناسی

نرخ طلا سکه و  ارز

قیمت خودرو

فال حافظ

تعبیر خواب

فال انبیاء

متن قرآن



اضافه به علاقمنديها ارسال اين مطلب به دوستان آرشيو تمام مطالب
archive  refresh

حفاظت از حريم شخصي در سيستم‌هاي داده‌كاوي


واضح آرشیو وب فارسی:سایت ریسک: milade4th April 2008, 06:30 PMمنبع: IEEE Computer - آوريل 2007 طرح پايه‌ همان‌طور كه در شكل 1 مشاهده مي‌شود، داده‌كاوي به همراه حفاظت از حريم شخصي، شامل چندين مرحله مي‌شود كه آن‌ها را در يك معماري سه لايه دسته‌بندي مي‌كنند: در لايه پايين تهيه‌كنندگان داده (data providers) قرار دارند. يعني كساني كه مالك داده هستند و عموماً از لحاظ موقعيت مكاني در سطح گسترده‌اي توزيع شده‌اند. تأمين‌كنندگان داده اطلاعات شخصي خود را به سرور انبار داده (data warehouse server) ارسال مي‌كنند. اين سرور كه لايه مياني به حساب مي‌آيد، از فرايندهاي تحليل آنلا‌ين داده‌ها، پشتيباني مي‌كند و از طريق تبديل داده‌هاي خام كاربران به داده‌هاي گروهي، اطلاعاتي را براي سرورهاي داده‌كاوي فراهم مي‌كند كه امكان پردازش سريع‌تر آن‌ها فراهم است. سرورهاي انبار داده، با جمع‌آوري داده با يك نظم فيزيكي خاص، نظير استفاده از ساختار مكعبيِ چندبعدي و استفاده از توابع جمعي نظير Sum ،Average ،Max و Min پيش‌محاسبه‌هاي مختلفي از داده‌ها فراهم مي‌كند. براي يك سيستم آنلا‌ين از نوع survey، پاسخ‌دهندگان در اصل تأمين‌كنندگان داده هستند كه داده‌هاي خود را به سرور انبار داده تحليل از نوع survey، ارسال مي‌كنند. ميانگين سن پاسخ‌دهندگان به برنامه، مي‌تواند يك نمونه از اجماع داده‌ها در سيستم به حساب آيد. پردازش داده‌هاي حاصل از توابع اجماع در سرور خيلي آسان‌تر از پردازش داده‌هاي خام ارسالي توسط تهيه‌كنندگان داده است. سرورهاي داده‌كاوي، در بالاترين لايه قرار مي‌گيرند كه كار اصلي در زمينه داده‌كاوي توسط آن‌ها انجام مي‌شود. در يك سيستم داده‌كاوي كه اصول حفاظت از حريم شخصي را رعايت كرده ‌باشد، اين سرورها، نمي‌توانند آزادانه به همه داده‌هاي ذخيره‌شده در انبار‌هاي داده دسترسي داشته ‌باشند. براي مثال، در يك سيستم بيمارستاني، اداره حسابداري بايد فقط بتواند به داده‌هاي مالي بيماران دسترسي داشته ‌باشد و به هيچ ‌عنوان نبايد به ركوردهاي ثبت شده در مورد سوابق پزشكي آن‌ها دسترسي داشته‌ باشد. توسعه و ايجاد قوانين مؤثر براي دسترسي درست سرورهاي داده‌كاوي به داده‌هاي انبار‌هاي داده، يكي از مشكلاتي است كه تحقيق در مورد آن به صورت ارسال و دريافت گسترده پيشنهادها، در حال انجام است. به علاوه، يك سرور داده‌كاوي ممكن است با ايجاد مدل‌هاي داده‌كاوي روي سرور انبار داده، داده‌هاي آن را با سرورهاي داده‌كاوي ديگر در سيستم‌هاي ديگر به اشتراك بگذارد. انگيزه اصلي از به اشتراك گذاشتن داده در اين مدل‌ها، ايجاد مدل‌هاي مشابه براي داده‌كاوي در بين سيستم‌ها است. براي مثال، شركت‌هاي اجاره‌‌دهنده سرور، ممكن است بخواهند روش‌هاي داده‌كاوي خود روي ركوردهاي مشتريان را به اشتراك بگذارند تا به اين ترتيب يك مدل جهاني داده‌كاوي در مورد رفتار مشتريان ايجاد كنند كه به نفع همه شركت‌ها خواهد بود. همان‌طوركه شكل 1 نشان مي‌دهد، به اشتراك گذاشتن داده در بالاترين لايه رخ مي‌دهد كه در آن هر سرور داده‌كاوي از مدل داده‌كاوي مخصوص خود استفاده مي‌كند. بنابراين در اينجا «به اشتراك گذاشتن» به معني به اشتراك گذاشتن مدل‌هاي داده‌كاوي محلي است، نه به اشتراك گذاشتن داده‌هاي خام. حداقل‌هاي ضروري براي رعايت‌شدن اصول پايه طراحي‌ براي طراحي يك سيستم داده‌كاوي كه حريم شخصي را نيز رعايت كرده ‌باشد، بايد ابتدا يك تعريف مشخص از حريم شخصي ارايه دهيم. تفسير معمول براي اين كلمه به اين صورت است كه يك داده در صورتي شخصي تلقي مي‌شود كه مالك آن حق داشته‌ باشد، در مورد محرمانه ماندن يا افشاي آن تصميم بگيرد و مختار باشد كه مشخص كند به چه علت يا تا چه اندازه مي‌توان اين داده‌ها را در اختيار ديگران قرار داد. بيشتر نظريه‌پردازان تفسير عبارت «حريم شخصي در مدل‌سازي داده» را به اين صورت در نظر مي‌گيرند كه مالك داده به صورت پيش‌فرض اجازه افشاي داده‌هاي شخصي خود را نداده ‌است؛ مگر اين‌كه براي اجراي داده‌كاوي حتماً به آن داده‌ها نياز باشد. اين فرض به همراه تعريف مورد قبول براي حفاظت از اطلاعات، مباني پايه و اصول پايه طراحي سيستم‌هاي داده‌كاوي با رعايت حريم شخصي را ايجاد مي‌كنند: در يك سيستم داده‌كاوي، اطلاعات شخص افشا شده بايد شامل حداقل داده‌هايي باشد كه در داده‌كاوي به آن‌ها نياز است. در نوشتار حاضر منظور و معيار براي كلمه «حداقل»، كيفيت اطلاعات است، نه كميت آن. از آنجا كه معيار كّمي براي اندازه‌گيري افشاي اطلاعات شخصي، در سيستم‌هاي مختلف فرق مي‌كند، پس حداقل ديد مشترك اين است كه نبايد هيچ يك از اطلاعات شخصي غيرضروري افشا شود (در اين نوشته منظور از غيرضروري، به سطح دقت مورد نياز در نتايج حاصلي از سيستم‌هاي داده‌كاوي بستگي دارد.). بنابراين كلمه «حداقل» به اين معني است كه افشاي حريم شخصي، بر مبناي نياز به داده صورت مي‌گيرد. خيلي از قوانين از جمله HIPPA، تبعيت از قانون حداقل نيازهاي ضروري را الزامي مي‌دانند. پروتكل‌هاي حريم شخصي‌ بر مبناي اصولي كه در ساختار شكل 1 و قانون «حداقل‌هاي ضروري» براي رعايت شدن اصول پايه طراحي عنوان شده‌است، استراتژي‌اي را براي حفظ حريم شخصي در سيستم‌هاي داده‌كاوي پياده‌سازي كرده‌ايم. قلب اين استراتژي بر مبناي سه پروتكل است كه بايد در هنگام تصميم‌گيري در مورد افشاي داده‌هاي موجوديت‌هاي سيستم، بررسي شوند: 1- جمع‌آوري داده (Data collection) كه در هنگام انتقال داده از توليدكنندگان داده به سرورهاي انباره داده، از حريم شخصي داده‌ها، حفاظت مي‌كند. 2- كنترل نتيجه ‌(Infereace control) كه حفاظت از حريم شخصي را هنگام انتقال داده از انبارهاي داده به سرورهاي داده‌كاوي مديريت مي‌كند. 3- به اشتراك‌گذاري اطلاعات (information sharing) داده‌هاي به اشتراك گذاشته شده بين سرورهاي داده‌كاوي در سيستم‌هاي مختلف را كنترل مي‌كند. با در نظر گرفتن قانون «حداقل‌هاي ضروري»، بايد هدف مشترك اين سيستم‌ها، ساختن مدل‌هاي داده‌كاوي دقيق، با انتقال حداقل داده شخصي مورد نياز براي داده‌كاوي باشد. در عمل، ساختن سيستمي كه در عين كارايي بتواند به خوبي از داده‌هاي شخصي محافظت كند، در اكثر موارد كار سختي است. کاربران ثبت نام کرده قادر به مشاهده لینک می باشند شکل1- معماري پايه براي حفاظت از حريم شخص در فرآيندهاي داده کاوي. اين معماري به‌طور کلي شامل سه لايه است: تهيه کننده‌هاي داده، که مالک داده هستند. سرورهاي انبار داده، که از فرآيندهاي تحليلي آنلاين پشتيباني مي‌کنند و سرورهاي داده کاوي که کارهاي داده کاوي را انجام مي‌دهند و اطلاعات خود را به اشتراک مي‌گذارند. هدف اصلي کنترل کردن داده‌هاي محرمانه‌اي است که بين اين موجوديت‌ها رد و بدل مي‌شود؛ بدون آن که مانع فرآيند داده کاوي شويم. به اين ترتيب مي‌بينيم كه هميشه يك رابطه معكوس، بين ايجاد يك سيستم داده‌كاوي دقيق يا ايجاد يك سيستم امن از نظر حفاظت از داده‌هاي شخصي، وجود دارد. اين پروتكل‌ها، مبتني ‌بر متدهاي اثبات‌شده‌اي هستند كه طراح سيستم مي‌تواند براي برآورده‌كردن نيازهاي خاصي، آن‌ها را در نظر گيرد و در مورد نسبت افشاي داده‌هاي شخصي به دقت داده‌كاوي، حالتي را انتخاب كند كه بيشترين نفع را براي او داشته باشد. براي مثال، پروتكل «جمع‌آوري داده» مي‌تواند از يكي از دو روش معمول براي جمع‌آوري داده استفاده كند كه هر يك منافع و معايب خاصي دارد. پروتكل جمع‌آوري داده‌ پروتكل جمع‌آوري داده (Data collection) به تهيه‌كنندگان داده اجازه مي‌دهد قسمت مربوط به مورد «حداقل داده شخصي مورد نياز براي داده‌كاوي» را رعايت كنند و تضمين مي‌كند كه تنها بخش ضروري داده براي سرور انباره داده ارسال شود. پروتكل جمع‌آوري داده از چندين فاكتور ايجاد شده است. اولين فاكتور ضروري، مقياس‌پذير بودن (قابل اندازه‌گيري) داده است؛ زيرا سرور انبار ‌داده مي‌تواند همانند سيستم‌هاي نوع survey، با صدها هزار تهيه‌كننده داده در ارتباط باشد. ثانياً هزينه‌هاي محاسباتي براي تهيه‌كنندگان داده بايد كم باشد؛ زيرا آن‌ها در مقايسه با سرورهاي انبار داده، قدرت محاسباتي خيلي كمتري دارند و در نتيجه هزينه محاسباتي بالا مي‌تواند آن‌ها را از مشاركت در پروژه‌هاي داده‌كاوي منصرف كند. در نهايت، اين پروتكل بايد درست، ساده و مطمئن باشد. يعني بتواند در عين حفاظت از حريم شخصي ارسال كننده داده، نتايج نسبتاً دقيقي را نيز ايجاد كند؛ حتي اگر ارسال‌كننده‌هاي مختلف به صورت متفاوت با سيستم برخورد كنند. براي مثال، اگر بعضي از تهيه‌كنندگان داده در يك سيستم survey، از پروتكل سوءاستفاده كنند يا داده‌هاي بي‌معني ارسال كنند، پروتكل جمع‌آوري داده بايد تأثيرات ناشي از اين برخورد غلط با سيستم را كنترل كند و تضمين كند كه نتايج نهايي حاصل از داده‌كاوي به اندازه كافي دقيق بمانند. شكل 2 ساختار درختي مربوط به پروتكل‌ها و زيرپروتكل‌هاي جمع‌آوري داده را نشان مي‌دهد. همان‌طور كه مي‌بينيد پروتكل جمع‌آوري داده دو نوع اصلي را شامل مي‌شود. کاربران ثبت نام کرده قادر به مشاهده لینک می باشند شکل2- ساختار درختي پروتکل‌هاي جمع‌آوري داده. يک طراح بايد تصميم بگيرد که از کدام روش استفاده کند؛ روش‌هاي مبتني بر ارزش يا ابعاد، تا راهکارهاي متناسب با آن روش به بهترين شکل با طراحي مورد استفاده تناسب داشته باشد. روش مبتني بر ارزش با استفاده از روش مبتني بر ارزش (Value-based method)، تهيه‌كنندگان داده به يكي از دو روش زير به دستكاري مقادير مربوط به هر داده مي‌پردازند. روش مبتني بر آشفته‌ كردن، خطا را مستقيماً در داده اعمال مي‌كند. براي مثال، سن را از 23 به 30 يا تگزاس را به كاليفرنيا تغيير مي‌دهد. روش مبتني بر اجماع داده‌ها را مطابق با ساختار سلسله مراتبي آن‌ها به حالت كلي‌تر تبديل مي‌كند. براي مثال، سن 23 را به بازه 21 تا 25 يا تگزاس را به ايالات متحده تبديل مي‌كند. روش مبتني بر آشفته‌ كردن براي داده‌هاي اختياري مناسب است. در حالي‌ كه روش مبتني بر اجماع، به دانش سيستم در مورد سلسله مراتب مربوط به داده بستگي دارد و در عوض مي‌تواند در تضمين مبهم ماندن داده نيز كمك كند. براي مثال، ابهام -k يعني آن‌كه داده‌هاي هر ركورد داده‌اي آشفته‌شده از داده‌هاي 1-k ركورد ديگر، غيرقابل تشخيص است. روش مبتني بر ارزش فرض مي‌كند كه رسيدن به داده‌هاي شخصي از طريق بررسي داده‌هاي دستكاري شده براي سرورهاي انباره داده ناممكن يا حداقل خيلي سخت است، ولي سرور مي‌تواند داده‌هاي اصلي را از روي توزيع داده‌هاي آشفته موجود بازيابي كند و در نتيجه امكان ايجاد مدل‌هاي داده‌كاوي دقيق را فراهم آورد. روش مبتني بر ابعاد دليل استفاده از نام «روش مبتني بر ابعاد» (Dimention-based method) اين است كه داده‌ها‌ي مورد بررسي معمولاً صفات (ابعاد) زيادي دارند. ايده اصلي اين است كه با حذف كردن تعداد بعدهاي داده، آن قسمتي از داده‌ها را كه شخصي به حساب مي‌آيند، جداسازي كنيم. روش مبتني بر block اين كار را از طريق جداسازي بعضي از صفات شخصي انجام مي‌دهد و اين دسته از داده‌ها را در اختيار سرور انبار داده قرار نمي‌دهد، ولي اين روش ممكن است باعث از دست دادن داده شود، ولي سرورهاي داده‌كاوي نتوانند از روي اين دسته از داده‌ها، نتايج دقيقي به دست آورند. مدل پيچيده‌تري با نام مدل مبتني بر Projection داده‌هاي اصلي را روي زير فضاهايي با ابعاد كمتر منعكس مي‌كند. اين زيرفضاها با دقت زيادي طراحي شده‌اند تا تنها حداقل داده‌هاي مورد نياز براي ايجاد مدل‌هاي داده‌كاوي دقيق را شامل شوند. مزايا و معايب‌ هر يك از اين مدل‌ها، مزايا و معايبي دارد. روش مبتني بر ارزش، مستقل از وظايف داده‌كاوي عمل مي‌كند و در نتيجه براي برنامه‌هايي مناسب است كه براي وظايف داده‌كاوي چندگانه يا وظايف تعريف نشده در جمع‌آوري داده مناسب است. از سوي ديگر، روش مبتني بر ابعاد با وظايف داده‌كاوي تك‌بعدي متناسب است؛ زيرا بعد از تفكيك و كم كردن ابعاد، اطلاعاتي كه بايد بازيابي شوند، به هدف و وظيفه مورد نظر ما بستگي دارد. تا كنون تحقيقات نتوانسته است يك مدل كلي و قابل استفاده از الگوي مبتني بر Projection براي همه برنامه‌ها ايجاد كند. با اين وجود باز هم اين روش از لحاظ نسبت كاهش دقت به افشاي اطلاعات شخصي، در مقايسه با روش مبتني بر ارزش مزيت‌هاي زيادي دارد. بيشتر روش‌هاي مبتني بر ارزش، با صفات مختلف، به روش‌هاي مستقل و متفاوتي برخورد مي‌كنند. در نتيجه بعضي از صفاتي كه در داده‌كاوي اهميتي ندارند نيز در همان سطح افشاي داده‌هاي مهم، براي سرور انباره داده، ارسال مي‌شوند. مطالعات اخير نشان مي‌دهد كه در صورت استفاده از روش آشفته‌سازي تصادفي، سرور انباره داده مي‌تواند با نقض تكنيك‌هاي حفظ حريم شخصي، آشفتگي‌ها را از داده‌هاي آشفته حذف كند و به اين ترتيب حداقل بخشي از داده‌هاي محرمانه را به دست آورد. در روش مبتني بر projection به خاطر بررسي رابطه بين صفات و ارايه داده‌‌هاي صرفاً ضروري براي داده‌كاوي از مشكلات معمول در سيستم روش مبتني بر ارزش خبري نيست. همچنين از طريق دريافت اطلاعات در مورد داده‌هاي ضروري، مي‌تواند از ارايه اطلاعات شخصي غيرضروري جلوگيري كند و به اين ترتيب عملكرد آشفته‌سازي داده را بهبود بخشد. من و يكي از همكارانم در يكي از پروژه‌هاي سابق، الگويي را ارايه كرديم كه بر مبناي دريافت راهنمايي‌هاي لازم و كاهش ابعاد داده متناسب با راهنمايي‌هاي دريافتي،‌ پايه‌ريزي شده‌ بود. اين روش براي سيستم‌هاي پويا نظير سيستم‌هاي survey طراحي شده ‌بود كه در آن‌ها تهيه‌كنندگان داده به صورت ناهمزمان به سيستم متصل شده و داده‌هاي مورد نظر ما را تأمين مي‌كنند. در اين الگو براي راهنمايي تهيه‌كنندگان داده كه هنوز داده‌هاي خود را ارسال نكرده‌اند، ابتدا داده‌هاي جمع‌آوري‌شده از اعضاي قبلي بررسي مي‌شود و سپس با تحليل آن‌ها، داده‌هاي ضروري براي داده‌كاوي شناسايي و از تهيه ‌كننده داده درخواست مي‌شود. سپس سيستم درخواست دريافت صفات مورد نياز را ارسال مي‌كند. نمونه‌هاي قبلي نشان مي‌دهد كه الگوها و برنامه‌هاي داراي راهنما، از الگوهايي كه فاقد راهنما باشند بهتر عمل مي‌كنند. پروتكل كنترل نتيجه‌ محافظت از داده‌هاي شخصي در سرورهاي انباره‌داده، از طريق كنترل اطلاعات ارسالي براي سرورهاي داده‌كاوي ميسر مي‌شود و هدف از پروتكل كنترل نتيجه ‌(Inference Control Protocol) نيز عملي كردن همين كار است. بر مبناي قانون حداقل‌هاي مورد نياز، پروتكل كنترل نتيجه‌ تضمين مي‌كند كه داده‌هاي سرورهاي انبار داده هم براي پاسخگويي به پرس‌وجو از انبارهاي داده عملكرد كافي دارند و هم تا حد ممكن جلوي افشاي اطلاعات شخصي غير ضروري را مي‌گيرند. براي طراحي و پياده‌سازي پروتكل كنترل نتيجه، چندين پيش‌نياز وجود دارد. يكي از اين نيازها، داشتن امكان جلوگيري از ارسال نتايج است. اگر سرور داده‌كاوي يك سرور مشكوك يا رقيب باشد، در اين صورت سعي مي‌كند با استفاده از نتايج پرس‌وجوهاي قبلي خود به داد‌ه‌هاي شخصي و محرمانه دست پيدا كند. مثالي از اين روش در شكل 3 ارايه شده است. کاربران ثبت نام کرده قادر به مشاهده لینک می باشند شکل3- نتيجه‌گيري‌هايي که اطلاعات محرمانه را افشا مي‌کنند. اگر سرور داده کاوي قصد نفود داشته باشد، مي‌تواند از طريق پاسخ پرس‌وجوهاي ارسالي و داده‌هاي مربوط به بعضي از سلول‌هاي داده‌اي (که با نام Known يا شناخته شده، نشان داده شده‌اند)، تعداد DVDهاي فروخته شده توسط فروشنده در ماه ژوئن را محاسبه کند (فرض بر ا ين است که اين داده‌ها، محرمانه هستند و نبايد افشا شوند). اگر Q1 تا Q8 به ترتيب نتيجه پرس‌وجوهاي ارسالي باشند، کافي است براي يافتن تعداد DVDهاي فروخته شده، عبارت زير را محاسبه کنيم: Q1+Q8=(Q5+Q6)=88-72=16 به علاوه، پروتكل كنترل نتيجه بايد به اندازه كافي كارايي داشته ‌باشد تا به درخواست‌هاي انجام شده از سرورهاي انبار داده در مدت زمان منطقي پاسخ دهد. يعني بايد زمان پاسخگويي يا همان مدت زمان بين درخواست از سرور و پاسخ سرور به درخواست، در يك بازه معقول قرار گيرد. زماني كه پروتكل كنترل نتيجه صرف مي‌كند نيز جزو زمان پاسخگويي سرور به حساب مي‌آيد. پس اين زمان نيز بايد همواره كنترل شود تا زمان پاسخگويي سرور انباره داده بتواند هميشه در حد معقولي باقي بماند. براي رسيدن به اين نيازها، پروتكل‌هاي كنترل نتيجه بايد اطلاعات قرار گرفته در پاسخ پرس‌وجوها را محدود كنند تا سرورهاي داده‌كاوي نتوانند از طريق بررسي پاسخ پرس‌وجوهاي ارسالي، به داده‌هاي شخصي افراد دسترسي پيدا كنند. شكل 4 ساختار درختي قوانين كنترل نتيجه را نشان مي‌دهد كه شامل دو روش براي كنترل نتيجه‌ است. کاربران ثبت نام کرده قادر به مشاهده لینک می باشند شکل4- ساختار درختي پروتکل‌هاي کنترل نتيجه. طراح مي‌تواند با توجه به نياز خود بررسي کند که کدام يک از روش‌ها پرس‌وجوگرا يا داده‌گرا براي او مناسب‌تر است. روش پرس‌وجوگرا روش پرس‌وجوگرا (Query-Oriented)، بر مبناي مفهوم ارايه مجموعه‌اي از پرس‌وجوي‌هاي امن، بنا شده‌ است. در اين حالت به شرطي به مجموعه پرس‌وجوهاي Q1 تا Qn، امن مي‌گوييم كه بررسي و تركيب پاسخ آن‌ها، در سرور داده‌كاوي منجر به افشاي اطلاعات خصوصي موجود در سيستم نشود. بنابراين كنترل نتيجه به روش پرس‌وجوگرا به اين معني است كه وقتي سرور انباره داده يك درخواست داده يا پرس‌وجو را دريافت كند، تنها در صورتي به آن پاسخ خواهد داد كه نتوان از تركيب نتيجه آن پرس‌وجو و مجموعه پرس‌وجوهاي ذخيره‌‌شده در تاريخچه پرس‌وجوهاي ذخيره ‌شده (يعني پرس‌وجوهايي كه قبل از اين به آن‌ها پاسخ داده ‌شده ‌است)، به اطلاعات خصوصي افراد دسترسي پيدا كرد. در اين حالت مي‌گوييم كه پرس‌وجوي ارسالي، امن است. در رابطه با كنترل نتيجه به روش پرس‌وجوگرا، در پايگاه‌هاي داده آماري، كنترل نتيجه در اين گونه انبار‌هاي داده نياز به بررسي حجم عظيمي از داده را شامل مي‌شود. در نتيجه بار كاري اين نوع سرورها با كنترل نتيجه به روش استفاده و بررسي پرس‌وجوهاي قبلي بسيار كمتر مي‌شود و در نتيجه كارايي سيستم افزايش مي‌يابد. از آنجا كه تشخيص پوياي مجموعه پرس‌وجوهاي امن (بررسي آني تاريخچه پرس‌وجوهاي انجام‌شده)، يك فرآيند زمان‌بر است، در نتيجه استفاده از حالت‌هاي غيرپوياي كه معادل با اين روش باشند، مناسب‌تر است. حالت استاتيك قبل از اتصال به شبكه، مجموعه‌اي از پرس‌وجوهاي امن را مشخص مي‌كند (قبل از آن‌كه هر گونه پرس‌وجويي را دريافت كند). اگر يك مجموعه از پرس‌وجوها امن باشند، در اين صورت هر زيرمجموعه‌اي از آن پرس‌وجوها نيز امن به حساب مي‌آيد. در هنگام اجرا و ‌ زماني ‌كه سرور انباره داده، يك پرس‌وجو را دريافت مي‌كند، تنها در صورتي به آن پاسخ مي‌دهد كه آن پرس‌وجو در يكي از مجموعه پرس‌وجوهاي امن از قبل تعريف‌ شده قرار داشته باشد. در غير اين صورت، آن پرس‌وجو مردود مي‌شود. از طرف ديگر، روش پرس‌وجوهاي امن ولي ثابت، در توليد مجموعه پرس‌وجوهاي امن، خيلي محتاط و محافظه‌كار است و در نتيجه ممكن است بعضي از پرس‌وجوها را مردود كند. در حالي ‌كه مردود كردن آن ها ضروري نيست. روش داده‌گرا با استفاده از روش داده‌گرا، براي كنترل نتيجه، سرور انباره داده، داده‌هاي خام سرور را آشفته مي‌كند و پاسخ پرس‌وجوها را بر مبناي اين داده‌هاي آشفته، تا حد ممكن با دقت جواب مي‌دهد. همان‌طور كه در شكل 4 مشاهده مي‌شود، پروتكل جمع‌آوري داده مي‌تواند آشفتگي در داده را ايجاد و مديريت كند؛ مگر اين‌كه برنامه نياز داشته ‌باشد كه داده‌هاي اصلي را در سرور انبار داده ذخيره‌ كند. در اين موارد، براي استفاده از روش داده‌گرا، سرور انبار داده بايد قبل از پردازش پرس‌وجو، داده‌ها را آشفته كند. روش داده‌گرا، فرض مي‌كند كه با آشفته‌سازي مي‌تواند از افشاي داده‌هاي محرمانه،‌ جلوگيري كند و بدون هيچ محدوديتي و بر مبناي داده‌هاي آشفته به همه پرس‌وجوها پاسخ دهد. تحقيقات نشان مي‌دهد كه پاسخ‌هاي حاصل شده با استفاده از داده‌هاي آشفته هنوز هم براي ايجاد مدل‌هاي داده‌كاوي نسبتاً دقيق، مناسب هستند. مزايا و معايب‌ استفاده از هر يك از اين دو روش با توجه به كاربرد خاص آن‌ها، نياز به رعايت نكات خاصي دارد. روش داده‌گرا خود را موظف مي‌داند به همه پرس‌وجوها پاسخگو باشد. از طرفي، روش پرس‌وجوگرا معمولاً تعداد قابل‌توجهي از پرس‌وجوها را مردود مي‌كند و اين بدان معنا است كه بعضي از سرورهاي داده‌كاوي ممكن است نتوانند وظايف داده‌كاوي خود را كامل كنند. مزيت روش پرس‌وجوگرا در اين است كه در مقايسه با روش داده‌گرا، پاسخ‌هاي دقيقي توليد مي‌كند. وقتي سرور انباره داده به يك پرس‌وجو پاسخ مي‌دهد، جواب ارايه شده هميشه دقيق و درست است. در حالي‌ كه در روش داده‌گرا دقت پاسخ به پرس‌وجوها هميشه حالت تقريبي دارد و به همين سبب ممكن است براي داده‌كاوي خيلي هم مناسب نباشد؛ به ويژه در جاهايي كه نياز به ايجاد خروجي خيلي دقيق وجود دارد. كارايي و سرعت بالا، يكي از مزيت‌هاي مهم روش پرس‌وجوگرا از نوع غيرپويا است؛ زيرا در اين روش به علت پيش‌محاسبه خيلي از فرايندهاي محاسباتي زمان‌بر، هزينه زماني پاسخ به پرس‌وجو و به عبارتي زمان پاسخ به پرس‌وجو خيلي كوتاه‌تر است. مدل پويا از نظر كارايي عملكرد ضعيف‌تري دارد و در عوض به تعداد بيشتري پرس‌وجو، پاسخ‌گو است. با دريافت تعداد بيشتري پرس‌وجو سرور داده‌كاوي بايد زمان بيشتري را براي بررسي تاريخچه پرس‌وجوهاي كامل شده صرف كند. روش داده‌گرا هم كارايي كمي دارد؛ زيرا سربار محاسباتي ناشي از تخمين پاسخ پرس‌وجوها مي‌ت� سایت ما را در گوگل محبوب کنید با کلیک روی دکمه ای که در سمت چپ این منو با عنوان +1 قرار داده شده شما به این سایت مهر تأیید میزنید و به دوستانتان در صفحه جستجوی گوگل دیدن این سایت را پیشنهاد میکنید که این امر خود باعث افزایش رتبه سایت در گوگل میشود




این صفحه را در گوگل محبوب کنید

[ارسال شده از: سایت ریسک]
[مشاهده در: www.ri3k.eu]
[تعداد بازديد از اين مطلب: 875]

bt

اضافه شدن مطلب/حذف مطلب







-


گوناگون

پربازدیدترینها
طراحی وب>


صفحه اول | تمام مطالب | RSS | ارتباط با ما
1390© تمامی حقوق این سایت متعلق به سایت واضح می باشد.
این سایت در ستاد ساماندهی وزارت فرهنگ و ارشاد اسلامی ثبت شده است و پیرو قوانین جمهوری اسلامی ایران می باشد. لطفا در صورت برخورد با مطالب و صفحات خلاف قوانین در سایت آن را به ما اطلاع دهید
پایگاه خبری واضح کاری از شرکت طراحی سایت اینتن