چطور موتورهاي جستجو كار ميكنند

واضح آرشیو وب فارسی:پی سی سیتی: http://samet.parsaspace.com/Mobile/google_search_2.jpg

وقتی جستجویی در یك موتور جستجوگر انجام و نتایج جستجو ارایه می‌شود، كاربران در واقع نتیجه كار بخش‌های متفاوت موتور جستجوگر را می‌بینند.

موتور جستجوگر قبلاً پایگاه داده‌اش را آماده كرده است و این گونه نیست كه درست در همان لحظه‌ی جستجو، تمام وب را بگردد.

بسیاری از خود می‌پرسند كه چگونه ممكن است گوگل در كمتر از یك ثانیه تمام سایت‌های وب را بگردد و میلیون‌ها صفحه را در نتایج جستجوی خود ارایه كند؟

گوگل و هیچ موتور جستجوی دیگری توانایی انجام این كار را ندارند. همه آنها در زمان پاسخ‌گویی به جستجوهای كاربران، تنها در پایگاه داده‌ای كه در اختیار دارند به جستجو می‌پردازند و نه در وب! موتور جستجوگر به كمك بخش‌های متفاوت خود، اطلاعات مورد نیاز را قبلاً جمع‌آوری، تجزیه و تحلیل می‌كند، آنرا در پایگاه داده‌اش ذخیره می‌نماید و به هنگام جستجوی كاربر تنها در همین پایگاه داده می‌گردد. بخش‌های مجزای یك موتور جستجوگر عبارتند از:
Spider یا عنكبوت
Crawler یا خزنده
Indexer یا بایگانی كننده
Database یا پایگاه داده
Ranker یا سیستم رتبه‌بندی

الف: Spider (عنكبوت)
اسپایدر یا روبوت (Robot) نرم افزاری است كه كار جمع‌آوری اطلاعات مورد نیاز یك موتور جستجو را بر عهده دارد. اسپایدر به صفحات مختلف سر می‌زند، محتوای آنها را می‌خواند، لینك‌ها را دنبال می‌كند، اطلاعات مورد نیاز را جمع‌آوری می‌كند و آنرا در اختیار سایر بخش‌های موتور جستجوگر قرار می‌دهد. كار یك اسپایدر، بسیار شبیه كار كاربران وب است. همانطور كه كاربران، صفحات مختلف را بازدید می‌كنند، اسپایدر هم درست این كار را انجام می‌دهد با این تفاوت كه اسپایدر كدهای HTML صفحات را می‌بیند اما كاربران نتیجه حاصل از كنار هم قرار گرفتن این كدها را.

اسپایدر، به هنگام مشاهده صفحات، بر روی سرورها رد پا برجای می‌گذارد. شما اگر اجازه دسترسی به آمار دید و بازدیدهای صورت گرفته از یك سایت و اتفاقات انجام شده در آن را داشته باشید، می‌توانید مشخص كنید كه اسپایدر كدام یك از موتورهای جستجوگر صفحات سایت را مورد بازدید قرار داده است. یكی از فعالیت‌های اصلی كه در SEM انجام می‌شود تحلیل آمار همین دید و بازدیدها است.

اسپایدرها كاربردهای دیگری نیز دارند، به عنوان مثال عده‌ای از آنها به سایت‌های مختلف مراجعه می‌كنند و فقط به بررسی فعال بودن لینك‌های آنها می‌پردازند و یا به دنبال آدرس ایمیل (E-mail) می‌گردند.

ب: Crawler (خزنده)
كراولر، نرم‌افزاری است كه به عنوان یك فرمانده برای اسپایدر عمل می‌كند. كراولر مشخص می‌كند كه اسپایدر كدام صفحات را مورد بازدید قرار دهد. در واقع كراولر تصمیم می‌گیرد كه كدام یك از لینك‌های صفحه‌ای كه اسپایدر در حال حاضر در آن قرار دارد، دنبال شود. ممكن است همه آنها را دنبال كند، بعضی‌ها را دنبال كند و یا هیچ كدام را دنبال نكند.

كراولر، ممكن است قبلاً برنامه‌ریزی شده باشد كه آدرس‌های خاصی را طبق برنامه در اختیار اسپایدر قرار دهد تا از آنها دیدن كند. دنبال كردن لینك‌های یك صفحه به این بستگی دارد كه موتور جستجو چه حجمی از اطلاعات یك سایت را می‌تواند (یا می‌خواهد) در پایگاه داده‌اش ذخیره كند. همچنین ممكن است اجازه دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد.

شما به عنوان دارنده سایت، همان طور كه دوست دارید موتورهای جستجو اطلاعات سایت شما را با خود ببرند، می‌توانید آنها را از بعضی صفحات سایت‌تان دور كنید و اجازه دسترسی به محتوای آن صفحات را به آنها ندهید. موتور جستجو اگر مودب باشد قبل از ورود به هر سایتی ابتدا قوانین دسترسی به محتوای سایت را (در صورت وجود) در فایلی خاص بررسی می‌كند و از حقوق دسترسی خود اطلاع می‌یابد. تنظیم میزان دسترسی موتورهای جستجو به محتوای یك سایت توسط پروتكل Robots انجام می‌شود. به عمل كراولر، خزش (Crawling) می‌گویند

این صفحه را در گوگل محبوب کنید

[ارسال شده از: پی سی سیتی]

[مشاهده در: www.p30city.net]

[تعداد بازديد از اين مطلب: 165]