لا يُسمَح لوكيل المستخدم المُسمّى Googlebot بالزحف إلى أي عنوان URL يتضمّن http://example.com/nogooglebot/ في بدايته.
ويُسمح لجميع برامج وكيل المستخدم الأخرى بالزحف إلى جميع أقسام الموقع الإلكتروني. يمكن حذف هذه القاعدة والحصول مع ذلك على النتيجة نفسها، لأن السلوك التلقائي هو السماح لبرامج وكيل المستخدم بالزحف إلى جميع أقسام الموقع الإلكتروني.
تم وضع ملف Sitemap الخاص بالموقع الإلكتروني في http://www.example.com/sitemap.xml.
يمكن الانتقال إلى قسم البنية للاطّلاع على مزيد من الأمثلة.
الإرشادات الأساسية لإنشاء ملف robots.txt
لإنشاء ملف robots.txt والسماح بالوصول إليه والاستفادة منه بشكل عام، يجب اتّباع أربع خطوات:
إنشاء ملف باسم robots.txt
إضافة قواعد إلى ملف robots.txt
تحميل ملف robots.txt إلى موقعك الإلكتروني
اختبار ملف robots.txt
إنشاء ملف robots.txt
يمكنك استخدام أي محرّر نصوص تقريبًا لإنشاء ملف robots.txt. على سبيل المثال، يمكن إنشاء ملفات robots.txt صالحة باستخدام كلٍّ من Notepad وTextEdit وvi وemacs. لا تستخدم معالج كلمات، لأن هذه المعالجات تحفظ الملفات غالبًا بتنسيق خاص بها وقد تضيف أحرفًا غير متوقعة، مثل علامات الاقتباس المنحنية، ما قد يسبّب مشاكل لبرامج الزحف. احرص على حفظ الملف بترميز UTF-8 إذا طُلب منك ذلك ضمن مربع حوار حفظ الملف.
قواعد التنسيق والموقع:
يجب تسمية الملف باسم robots.txt.
يمكن أن يتضمّن موقعك ملف robots.txt واحدًا فقط.
يجب وضع ملف robots.txt في جذر مضيف الموقع الإلكتروني الذي ينطبق عليه الملف. على سبيل المثال، للتحكّم في الزحف على جميع عناوين URL التي تندرج ضمن https://www.example.com/، يجب وضع ملف robots.txt على https://www.example.com/robots.txt. لا يمكن وضع الملف في دليل فرعي (على سبيل المثال، في https://example.com/pages/robots.txt). وإذا لم تكن متأكدًا من كيفية الوصول إلى جذر موقعك الإلكتروني أو تحتاج إلى أذونات للوصول، يمكنك التواصل مع مقدّم خدمة استضافة الويب. وإذا لم تتمكّن من الوصول إلى جذر موقعك الإلكتروني، يمكنك استخدام طريقة حظر بديلة، مثل العلامات الوصفية.
يمكن تطبيق ملف robots.txt على النطاقات الفرعية (مثل https://website.example.com/robots.txt) أو على المنافذ غير العادية (مثل http://example.com:8181/robots.txt).
يجب أن يكون ملف robots.txt عبارة عن ملف نصّي بالترميز UTF-8 (الذي يتضمّن ASCII). قد يتجاهل محرّك البحث Google الأحرف التي لا تشكّل جزءًا من نطاق UTF-8، ما قد يجعل قواعد robots.txt غير صالحة.
إضافة قواعد إلى ملف robots.txt
القواعد هي تعليمات لبرامج الزحف بخصوص الأجزاء التي يُسمح لها بالزحف إليها على موقعك الإلكتروني. اتّبِع هذه الإرشادات عند إضافة قواعد إلى ملف robots.txt:
يتكوّن ملف robots.txt من مجموعة واحدة أو أكثر.
وتتكوّن كل مجموعة من عدة قواعد أو توجيهات (تعليمات)، وتتم إضافة توجيه واحد في كل سطر. وتبدأ كل مجموعة بسطر User-agent يحدّد هدف المجموعات.
تقدّم المجموعة المعلومات التالية:
العنصر الذي تنطبق عليه المجموعة (وكيل المستخدم)
الأدلّة أو الملفات التي يمكن للوكيل الوصول إليها
الأدلّة أو الملفات التي لا يمكن للوكيل الوصول إليها
تعمل برامج الزحف على معالجة المجموعات من الأعلى إلى الأسفل. ويمكن لوكيل المستخدم مطابقة مجموعة قواعد واحدة فقط، وهي المجموعة الأولى الأكثر تحديدًا التي تطابق وكيل مستخدم معيّنًا
الافتراض التلقائي هو أنّ وكيل المستخدم يستطيع الزحف إلى أي صفحة أو دليل ما لم يتم حظره باستخدام قاعدة disallow
إنّ القواعد حساسة لحالة الأحرف. على سبيل المثال، يمكن تطبيق disallow: /file.asp على https://www.example.com/file.asp وليس على https://www.example.com/FILE.asp
يحدّد الحرف # بداية تعليق
تتوافق برامج الزحف من Google مع التوجيهات التالية في ملفات robots.txt:
user-agent: [يجب تضمين توجيه واحد أو أكثر في كل مجموعة] يحدّد التوجيه اسم البرنامج التلقائي المعروف باسم زاحف محرّك البحث والذي تنطبق عليه القاعدة. ويشكّل ذلك السطر الأول لأي مجموعة قواعد. يتم إدراج أسماء برامج وكيل المستخدم من Google في قائمة Google لبرامج وكيل المستخدم. ويؤدي استخدام علامة النجمة (*) إلى مطابقة كل برامج الزحف باستثناء برامج زحف AdsBot المختلفة التي يجب تحديد اسمها بشكل صريح. مثلاً:
# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /
# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /
# Example 3: Block all but AdsBot crawlers
User-agent: *
Disallow: /
disallow: [يجب إدراج إدخال disallow أو allow واحد أو أكثر لكل قاعدة] تحدّد هذه القاعدة دليلاً أو صفحة ذات صلة بالنطاق الجذر لا تريد أنت أن يزحف إليها وكيل المستخدم. وإذا كانت القاعدة تشير إلى صفحة، يجب إضافة اسم الصفحة بالكامل كما يظهر في المتصفح. ويجب أن تبدأ القاعدة بالحرف /، أما إذا كانت القاعدة تشير إلى دليل، فيجب أن تنتهي بالعلامة /.
allow: [يجب إدراج إدخال disallow أو allow واحد أو أكثر لكل قاعدة] تحدّد هذه القاعدة دليلاً أو صفحة ذات صلة بالنطاق الجذر يمكن أن يزحف إليها وكيل المستخدم المذكور أعلاه. وتُستخدم هذه القاعدة لإلغاء التوجيه disallow بحيث يتم السماح بالزحف إلى دليل فرعي أو صفحة في دليل تم حظر الزحف إليه. بالنسبة إلى صفحة واحدة، يجب تحديد اسم الصفحة بالكامل كما هو موضّح في المتصفح. أما بالنسبة إلى الدليل، فيجب أن تنتهي القاعدة بالعلامة /.
sitemap: [اختياري، يمكن أن يكون عدد الإدخالات صفرًا أو أكثر لكل ملف] تحدّد هذه القاعدة موقع ملف Sitemap الخاص بهذا الموقع الإلكتروني. يجب أن يكون عنوان URL الخاص بملف Sitemap عنوان URL ذا أهلية كاملة، لأن محرّك البحث Google لا يفترض بدائل http/https/www.non-www أو يتحقّق منها. وتشكّل ملفات Sitemap وسيلة جيدة لتحديد المحتوى الذي يجب أن يزحف إليه محرّك البحث Google والمحتوى الذي يمكن أو لا يمكن لمحرّك البحث Google الزحف إليه. مزيد من المعلومات حول ملفات Sitemap. مثال:
يمكن استخدام حرف البدل * في بادئة المسار أو اللاحقة أو السلسلة الكاملة، في جميع التوجيهات، باستثناء sitemap.
ويتم تجاهل الأسطر التي لا تتطابق مع أي من هذه التوجيهات.
اقرأ صفحتنا عن الآلية التي ينتهجها محرّك البحث Google في تفسير مواصفات ملف robots.txt للحصول على وصف كامل لكل توجيه.
تحميل ملف robots.txt
بعد حفظ ملف robots.txt على جهاز الكمبيوتر، يصبح بإمكانك إتاحته لبرامج الزحف التابعة لمحركات البحث. ولا تتوفر أداة محددة يمكنها مساعدتك في ذلك، لأن طريقة تحميل ملف robots.txt إلى موقعك الإلكتروني تعتمد على بنية موقعك الإلكتروني والخادم. ويمكنك التواصل مع الشركة المضيفة أو البحث في مستنداتها، على سبيل المثال، يمكنك البحث عن “تحميل ملفات Infomaniak”.
بعد تحميل ملف robots.txt، اختبِر ما إذا كان متاحًا للجميع وما إذا كان بإمكان محرّك البحث Google تحليله.
اختبار ترميز robots.txt
لاختبار ما إذا كان ملف robots.txt الذي تم تحميله مؤخرًا متاحًا للجميع، افتح نافذة تصفّح بخصوصيّة تامّة (أو ما يعادلها) في المتصفح وانتقِل إلى موقع ملف robots.txt. مثلاً: https://example.com/robots.txt. إذا رأيت محتوى ملف robots.txt، يعني ذلك أنك جاهز لاختبار الترميز.
تقدّم Google خيارَين لاختبار ترميز robots.txt:
أداة اختبار robots.txt في Search Console يمكنك استخدام هذه الأداة فقط لملفات robots.txt التي سبق أن تمت إتاحة إمكانية الوصول إليها على موقعك الإلكتروني.
إذا كنت مطور برامج، اطّلِع على مكتبة robots.txt المفتوحة المصدر من Google، والتي تُستخدم أيضًا في “بحث Google”. يمكنك استخدام هذه الأداة لاختبار ملفات robots.txt محليًا على جهاز الكمبيوتر.
إرسال ملف robots.txt إلى Google
بعد تحميل ملف robots.txt واختباره، ستعثر برامج الزحف من Google تلقائيًا على ملف robots.txt وستبدأ في استخدامه. وبالتالي، لا تحتاج إلى تنفيذ أي إجراء. إذا عدّلت ملف robots.txt وأردت تحديث النسخة المخزَّنة مؤقتًا على Google في أقرب وقت ممكن، تعرّف على كيفية إرسال ملف robots.txt معدَّل.
يمكنك حظر الدخول بالطرق التالية: لمنع ظهور موقعك الإلكتروني في “أخبار Google“، عليك حظر الدخول إلى “أخبار Googlebot” باستخدام ملف robots.txt. لمنع ظهور موقعك في “أخبار Google” وبحث Google، عليك بحظر الدخول إلى Googlebot باستخدام ملف robots.txt.