موتورهاي جستجو به دو دسته کلي تقسيم مي‌شوند. موتورهاي جستجوي پيمايشي Ùˆ Ùهرستهاي تکميل دستي. هر کدام از آنها براي تکميل Ùهرست خود از روشهاي Ù…ØªÙØ§ÙˆØªÙŠ Ø§Ø³ØªÙØ§Ø¯Ù‡ مي‌کنند Ú©Ù‡ هر ÙŠÚ© را بطور جداگانه مورد بررسي قرار مي‌دهيم:
موتورهاي جستجوي پيمايشي يا Crawler-Based Search Engines
موتورهاي جستجوي پيمايشي مانند Google ليست خود را بصورت خودکار تشکيل مي‌دهند. آنها وب را پيمايش کرده Ùˆ سپس کاربران آنچه را Ú©Ù‡ مي‌خواهند از ميانشان جستجو مي‌کنند. اگر شما در ØµÙØÙ‡ وب خود تغييراتي را اعمال نماييد، موتورهاي جستجوي پيمايشي آنها را به خودي خود مي‌يابند Ùˆ سپس اين تغييرات ليست خواهند شد. عنوان، متن Ùˆ ديگر عناصر ØµÙØÙ‡ØŒ همگي شامل اين ليست خواهند بود.
Ùهرستهاي تکميل دستي يا Human-Powered Directories
ÙŠÚ© Ùهرست تکميل دستي مانند ÙŠÚ© Open Directory مثل Dmoz وابسته به کاربراني است Ú©Ù‡ آنرا تکميل مي‌کنند. شما ØµÙØÙ‡ مورد نظر را به همراه توضيØÙŠ Ù…Ø®ØªØµØ± در Ùهرست ثبت مي‌کنيد يا اين کار توسط ويراستارهايي Ú©Ù‡ براي آن Ùهرست در نظر Ú¯Ø±ÙØªÙ‡ شده انجام مي‌شود.
عمل جستجو در اين ØØ§Ù„ت تنها بر روي ØªÙˆØ¶ÙŠØØ§Øª ثبت شده صورت مي‌گيرد Ùˆ در صورت تغيير روي ØµÙØÙ‡ وب، روي Ùهرست تغييري بوجود نخواهد آورد. چيزهايي Ú©Ù‡ براي بهبود ÙŠÚ© Ùهرست‌بندي در ÙŠÚ© موتور جستجو Ù…Ùيد هستند، تاثيري بر بهبود Ùهرست‌بندي ÙŠÚ© دايرکتوري ندارند. تنها استثناء اين است Ú©Ù‡ ÙŠÚ© سايت خوب با پايگاه داده‌اي با Ù…ØØªÙˆØ§ÙŠ Ø®ÙˆØ¨ شانس بيشتري به نسبت ÙŠÚ© سايت با پايگاه داده ضعي٠دارد.
موتورهاي جستجوي ترکيبي با نتايج مختلط
به موتورهايي اطلاق مي‌شود Ú©Ù‡ هر دو ØØ§Ù„ت را در کنار هم نمايش مي‌دهند. غالبا، ÙŠÚ© موتور جستوي ترکيبي در صورت نمايش نتيجه جستجو از هر ÙŠÚ© از دسته‌هاي Ùوق، نتايج ØØ§ØµÙ„ از دسته ديگر را هم مورد توجه قرار مي‌دهد. مثلا موتور جستجوي MSN بيشتر نتايج ØØ§ØµÙ„ از Ùهرستهاي تکميل دستي را نشان مي‌دهد اما در کنار آن نيم نگاهي هم به نتايج ØØ§ØµÙ„ از جستجوي پيمايشي دارد.
بررسي يک موتور جستجوي پيمايشي
موتورهاي جستجوي پيمايشي شامل سه عنصر اصلي هستند. اولي در Ø§ØµØ·Ù„Ø§Ø Ø¹Ù†Ú©Ø¨ÙˆØª (Spider) است Ú©Ù‡ پيمايشگر (Crawler) هم ناميده مي‌شود. پيمايشگر همينکه به ÙŠÚ© ØµÙØÙ‡ مي‌رسد، آنرا مي‌خواند Ùˆ سپس لينکهاي آن به ØµÙØØ§Øª ديگر را دنبال مي‌نمايد. اين چيزيست Ú©Ù‡ براي ÙŠÚ© سايت پيمايش‌شده (Crawled) Ø§ØªÙØ§Ù‚ Ø§ÙØªØ§Ø¯Ù‡ است. پيمايشگر با ÙŠÚ© روال منظم، مثلا ÙŠÚ© يا دو بار در ماه به سايت مراجعه مي‌کند تا تغييرات موجود در آنرا بيابد. هر چيزي Ú©Ù‡ پيمايشگر بيابد به عنصر دوم ÙŠÚ© موتور جستجو يعني Ùهرست انتقال پيدا مي کند. Ùهرست اغلب به کاتالوگي بزرگ اطلاق مي‌شود Ú©Ù‡ شامل ليستي از آنچه است Ú©Ù‡ پيمايشگر ÙŠØ§ÙØªÙ‡ است. مانند کتاب عظيمي Ú©Ù‡ Ùهرستي را از آنچه Ú©Ù‡ پيمايشگرها از ØµÙØØ§Øª وب ÙŠØ§ÙØªÙ‡â€ŒØ§Ù†Ø¯ØŒ شامل شده است. هرگاه سايتي دچار تغيير شود، اين Ùهرست نيز به روز خواهد شد.
از زماني Ú©Ù‡ تغييري در ØµÙØÙ‡â€ŒØ§ÙŠ از سايت ايجاد شده تا هنگاميکه آن تغيير در Ùهرست موتور جستجو ثبت شود مدت زماني طول خواهد کشيد. پس ممکن است Ú©Ù‡ ÙŠÚ© سايت پيمايش‌شده باشد اما Ùهرست‌شده نباشد. تا زمانيکه اين Ùهرست‌بندي براي آن تغيير ثبت نشده باشد، نمي‌توان انتظار داشت Ú©Ù‡ در نتايج جستجو آن تغيير را ببينيم. Ù†Ø±Ù…â€ŒØ§ÙØ²Ø§Ø± موتور جستجو، سومين عنصر ÙŠÚ© موتور جستجو است Ùˆ به برنامه‌اي اطلاق مي‌شود Ú©Ù‡ بصورت هوشمندانه‌اي داده‌هاي موجود در Ùهرست را دسته‌بندي کرده Ùˆ آنها را بر اساس اهميت طبقه‌بندي مي‌کند تا نتيجه جستجو با کلمه‌هاي درخواست شده هر Ú†Ù‡ بيشتر منطبق Ùˆ مربوط باشد.
چگونه موتورهاي جستجو ØµÙØØ§Øª وب را رتبه‌بندي مي‌کنند؟
وقتي شما از موتورهاي جستجوي پيمايشي چيزي را براي جستجو درخواست مي‌نماييد، تقريبا Ø¨Ù„Ø§ÙØ§ØµÙ„Ù‡ اين جستجو از ميان ميليونها ØµÙØÙ‡ صورت Ú¯Ø±ÙØªÙ‡ Ùˆ مرتب مي‌شود بطوريکه مربوط‌ترين آنها نسبت به موضوع مورد درخواست شما رتبه بالاتري را Ø§ØØ±Ø§Ø² نمايد.
البته بايد در نظر داشته باشيد Ú©Ù‡ موتورهاي جستجو همواره نتايج درستي را به شما ارائه نخواهند داد Ùˆ مسلما ØµÙØØ§Øª نامربوطي را هم در نتيجه جستجو Ø¯Ø±ÙŠØ§ÙØª مي‌کنيد Ùˆ گاهي اوقات مجبور هستيد Ú©Ù‡ جستجوي دقيقتري را براي آنچه Ú©Ù‡ مي‌خواهيد انجام دهيد اما موتورهاي جستجو کار ØÙŠØ±Øªâ€ŒØ§Ù†Ú¯ÙŠØ² ديگري نيز انجام مي‌دهند.
ÙØ±Ø¶ کنيد Ú©Ù‡ شما به ÙŠÚ© کتابدار مراجعه مي کنيد Ùˆ از وي درباره Â«Ø³ÙØ±Â» کتابي مي خواهيد. او براي اينکه جواب درستي به شما بدهد Ùˆ کتاب Ù…Ùيدي را به شما ارائه نمايد با پرسيدن سوؤالاتي از شما Ùˆ با Ø§Ø³ØªÙØ§Ø¯Ù‡ از تجارب خود کتاب مورد نظرتان را به شما تØÙˆÙŠÙ„ خواهد داد. موتورهاي جستجو همچنين توانايي ندارند اما به نوعي آنها را شبيه‌سازي مي‌کنند.
پس موتورهاي جستجوي پيمايشي چگونه به جواب مورد نظرتان از ميان ميليونها ØµÙØÙ‡ وب مي‌رسند؟ آنها ÙŠÚ© مجموعه از قوانين را دارند Ú©Ù‡ الگوريتم ناميده مي‌شود. الگوريتمهاي مورد نظر براي هر موتور جستجويي خاص Ùˆ تقريبا سري هستند اما به هر ØØ§Ù„ از قوانين زير پيروي مي‌کنند:
مکان و تکرار
ÙŠÚ©ÙŠ از قوانين اصلي در الگوريتمهاي رتبه‌بندي موقعيت Ùˆ تعداد تکرار کلماتي است Ú©Ù‡ در ØµÙØÙ‡ مورد Ø§Ø³ØªÙØ§Ø¯Ù‡ قرار Ú¯Ø±ÙØªÙ‡â€ŒØ§Ù†Ø¯ Ú©Ù‡ بطور خلاصه روش مکان - تکرار (Location/Frequency Methode) ناميده ميشود.
کتابدار مذکور را به خاطر Ù…ÙŠâ€ŒØ¢ÙˆØ±ÙØ¯ØŸ لازم است Ú©Ù‡ او کتابهاي در رابطه با کلمه Â«Ø³ÙØ±Â» را طبق درخواست شما بيابد. او در ÙˆØÙ„Ù‡ اول Ø§ØØ³Ø§Ø³ مي‌کند Ú©Ù‡ شما به دنبال کتابهايي هستيد Ú©Ù‡ در نامشان کلمه Â«Ø³ÙØ±Â» را شامل شوند. موتورهاي جستجو هم دقيقا همان کار را انجام مي‌دهند. آنها هم ØµÙØØ§ØªÙŠ را برايتان ليست ميکنند Ú©Ù‡ در برچسب Title موجود در کد HTML ØØ§ÙˆÛŒ کلمه Â«Ø³ÙØ±Â» باشند.
موتورهاي جستجو همچنين به دنبال کلمه مورد نظر در بالاي ØµÙØØ§Øª Ùˆ يا در ابتداي پاراگراÙها هستند. آنها ÙØ±Ø¶ مي‌کنند Ú©Ù‡ ØµÙØØ§ØªÙŠ Ú©Ù‡ ØØ§ÙˆÙŠ Ø¢Ù† کلمه در بالاي خود Ùˆ يا در ابتداي پاراگراÙها Ùˆ عناوين باشند به نتيجه مورد نظر شما مربوط تر هستند. تکرار يا Frequesncy عامل بزرگ Ùˆ مهم ديگري است Ú©Ù‡ موتورهاي جستجو از طريق آن ØµÙØØ§Øª مربوط را شناسايي مي‌نمايند. موتورهاي جستجو ØµÙØØ§Øª را تجزيه کرده Ùˆ با توجه به تکرار کلمه‌اي در ØµÙØÙ‡ متوجه مي‌شوند Ú©Ù‡ آن کلمه نسبت به ديگر کلمات اهميت بيشتري در آن ØµÙØÙ‡ دارد Ùˆ آن ØµÙØÙ‡ را در درجه بالاتري نسبت به ØµÙØØ§Øª ديگر قرار مي‌دهند.
دستور آشپزي
خب آشپزي Ú†Ù‡ ربطي به موتورهاي جستجو دارد؟ رابطه در اينجاست. همانطور Ú©Ù‡ آشپزهاي ØØ±Ùه‌اي دستورات آشپزي خود را در Ù„ÙØ§ÙÙ‡ Ù†Ú¯Ù‡ مي‌دارند Ùˆ مقدار Ùˆ چگونگي ادويه‌هاي Ø§ÙØ²ÙˆØ¯Ù†ÙŠ Ø¨Ù‡ غذاهاي خود را Ø§ÙØ´Ø§ نمي‌کنند، چگونگي کارکرد دقيق موتورهاي جستجو درباره روشهايي از قبيل مکان-تکرار ÙØ§Ø´ نمي‌شود Ùˆ هر موتور جستجويي روش خود را دنبال مي‌کند. به همين دليل است Ú©Ù‡ وقتي شما کلمات ÙˆØ§ØØ¯ÙŠ Ø±Ø§ در موتورهاي Ù…ØªÙØ§ÙˆØª جستجو مي‌کنيد، به نتايج Ù…ØªÙØ§ÙˆØªÙŠ Ù…ÙŠâ€ŒØ±Ø³ÙŠØ¯.
برخي موتورهاي جستجو نسبت به برخي ديگر ØµÙØØ§Øª بيشتري را Ùهرست کرده‌اند. نتيجه اين خواهد شد Ú©Ù‡ هيچ موتور جستجويي نتيجه جستجوي مشترکي با موتور ديگر نخواهد داشت Ùˆ شما نتايج Ù…ØªÙØ§ÙˆØªÙŠ Ø±Ø§ از آنها Ø¯Ø±ÙŠØ§ÙØª مي‌کنيد. موتورهاي جستجو همچنين ممکن است Ú©Ù‡ برخي از ØµÙØØ§Øª را از Ùهرست خود ØØ°Ù کنند البته به شرطی Ú©Ù‡ آن ØµÙØØ§Øª با Spam شدن سعی در گول زدن موتورهای جستجوگر داشته باشند. Spamming روشی است Ú©Ù‡ برخی از ØµÙØØ§Øª برای Ø§ØØ±Ø§Ø² رتبه بالاتر در موتورهاي جستجو در پيش مي‌گيرند Ùˆ آن به اين صورت است Ú©Ù‡ با تکرار بيش از ØØ¯ کلمات بطور عمدي سعي در بر هم زدن تعادل Ùˆ در نتيجه ÙØ±ÙŠØ¨ موتورهاي جستجو دارند. آنها سعي دارند Ú©Ù‡ با Ø§ÙØ²Ø§ÙŠØ´ عامل تکرار، در رتبه بالاتري قرار بگيرند. موتورهاي جستجو راههاي متنوعی برای جلوگيری از Spamming دارند Ùˆ در اين راه از گزارشهاي کاربران خود نيز بهره مي‌برند.
عوامل خارج از ØµÙØÙ‡
موتورهاي جستجوي پيمايشي اکنون تجربه ÙØ±Ø§ÙˆØ§Ù†ÙŠ Ø¯Ø± رابطه با وب مسترهايي دارند Ú©Ù‡ ØµÙØØ§Øª خود را براي کسب رتبه بهتر مرتبا بازنويسي مي‌کنند. بعضي از وب مسترهاي خبره ØØªÙŠ Ù…Ù…Ú©Ù† است به سمت روشهايي مانند مهندسي معکوس براي کش٠چگونگي روشهاي مکان-تکرار بروند. به همين دليل، تمامي موتورهاي جستجوي معرو٠از روشهاي امتيازبندي «خارج از ØµÙØÙ‡Â» Ø§Ø³ØªÙØ§Ø¯Ù‡ مي‌کنند. عوامل خارج از ØµÙØÙ‡ عواملي هستند Ú©Ù‡ از تيررس وب‌مسترها خارجند Ùˆ آنها نمي‌توانند در آن دخالت کنند Ùˆ مساله مهم در آن تØÙ„يل ارتباطات Ùˆ لينکهاست. بوسيله تجزيه ØµÙØØ§ØªØŒ موتورهاي جستجو لينکها را بررسي کرده Ùˆ از Ù…ØØ¨ÙˆØ¨ÙŠØª آنها مي‌Ùهمند Ú©Ù‡ آن ØµÙØØ§Øª مهم بوده Ùˆ شايسته ترÙيع رتبه هستند. بعلاوه تکنيکهاي Ù¾ÙŠØ´Ø±ÙØªÙ‡ به گونه‌اي است Ú©Ù‡ از ايجاد لينکهاي مصتوعي توسط وب‌مسترها براي ÙØ±ÙŠØ¨ موتورهاي جستجو جلوگيري مي‌نمايد. علاوه بر آن موتورهاي جستجو بررسي مي‌کنند Ú©Ù‡ کدام ØµÙØÙ‡ توسط ÙŠÚ© کاربر Ú©Ù‡ کلمه‌اي را جستجو کرده انتخاب مي‌شود Ùˆ سپس با توجه به تعداد انتخابها، رتبه ØµÙØÙ‡ مورد نظر را تعيين کرده Ùˆ مقام آنرا در نتيجه جستجو جابجا مي‌نمايند.