كيفية تحسين ملف Robots.txt الخاص بك

كيفية تحسين ملف Robots.txt الخاص بك

كيفية تحسين ملف Robots.txt الخاص بك

هذه منطقة سيصبح فيها ملف robots.txt عاملاً.

في تجربتي ، معظم الناس ليسوا على دراية بملفات robots.txt ولا يعرفون من أين تبدأ. هذا ما ألهمني لإنشاء هذا الدليل.

هيا لنبدأ مع الأساسيات. ما هو ملف robots.txt بالضبط؟

 

عندما يزحف بوت محرك البحث إلى موقع ويب ، فإنه يستخدم ملف robots.txt لتحديد أجزاء الموقع التي تحتاج إلى فهرستها.

تتم استضافة ملفات Sitemap في مجلد الجذر وفي ملف robots.txtيمكنك إنشاء ملف Sitemap لتسهيل محركات البحث فهرسة المحتوى الخاص بك.

فكر في ملف robots.txt كدليل أو دليل إرشادي للروبوتات. إنه دليل يحتوي على قواعد يحتاجون إلى اتباعها. ستخبر هذه القواعد برامج الزاحف عما يُسمح له بمشاهدته (مثل الصفحات الموجودة في ملف خريطة الموقع) والأجزاء من موقعك المقيدة.

إذا لم يتم تحسين ملف robots.txt بشكل صحيح ، فقد يتسبب ذلك في حدوث مشكلات كبيرة في محركات البحث (SEO) لموقع الويب الخاص بك.

لهذا السبب من المهم بالنسبة لك أن تفهم تمامًا كيف يعمل هذا وما عليك القيام به لضمان أن هذا المكون الفني في موقع الويب الخاص بك يساعدك ، بدلاً من إيذائك.

ابحث عن ملف robots.txt الخاص بك

قبل القيام بأي شيء ، تتمثل الخطوة الأولى في التحقق من أن لديك ملف robots.txt لتبدأ به. البعض منكم ربما لم يأتِ من قبل.

أسهل طريقة لمعرفة ما إذا كان موقعك يحتوي على موقع بالفعل هو وضع عنوان URL لموقع الويب الخاص بك في متصفح ويب ، متبوعًا بـ /robots.txt.

عند القيام بذلك ، سيحدث واحد من ثلاثة أشياء.


    1. ستجد ملف robots.txt يشبه الملف أعلاه. (على الرغم من أنك إذا لم تستغرق الوقت الكافي لتحسينه ، فمن المحتمل ألا يكون ذلك متعمقًا).
    2. ستجد ملف robots.txt فارغًا بالكامل ، لكن على الأقل تم إعداده.
    3. ستحصل على خطأ 404 لأن هذه الصفحة غير موجودة.

    من المحتمل أن يسقط معظمكم في السيناريوهين الأوليين. يجب ألا تحصل على خطأ 404 لأن غالبية مواقع الويب سيكون لها إعداد ملف robots.txt افتراضيًا عند إنشاء الموقع. يجب أن تظل هذه الإعدادات الافتراضية موجودة إذا لم تقم بأي تغييرات.

    لإنشاء هذا الملف أو تحريره ، ما عليك سوى الانتقال إلى المجلد الجذر لموقع الويب الخاص بك.

    تعديل محتوى ملف robots.txt الخاص بك

    بالنسبة للجزء الأكبر ، فأنت عادة لا ترغب في العبث مع هذا أكثر من اللازم. إنه ليس شيئًا ستغيره بشكل متكرر.

    السبب الوحيد وراء رغبتك في إضافة شيء إلى ملف robots.txt الخاص بك هو إذا كانت هناك صفحات معينة على موقع الويب الخاص بك لا تريد الزحف إليها وفهرستها.

    تحتاج إلى التعرف على الصيغة المستخدمة للأوامر. لذا افتح محرر نص عادي لكتابة بناء الجملة.

    سأغطي بناء الجملة الأكثر استخدامًا.

    أولاً ، تحتاج إلى تحديد برامج الزحف. يشار إلى ذلك باسم وكيل المستخدم.

    وكيل المستخدم: *

    يشير بناء الجملة أعلاه إلى جميع برامج زحف محركات البحث (Google و Yahoo و Bing وما إلى ذلك)

    وكيل المستخدم: Googlebot

    كما يوحي الاسم ، فإن هذه القيمة تتحدث مباشرة إلى برامج زحف Google.

    بعد تحديد الزاحف ، يمكنك السماح أو عدم السماح بالمحتوى على موقعك. إليك مثال شاهدناه سابقًا في ملف Quick Sprout robots.txt.

    وكيل المستخدم: *

    عدم السماح: / wp-content /

    تُستخدم هذه الصفحة في الخلفية الإدارية لبرنامج WordPress. يخبر هذا الأمر جميع برامج الزحف (User-agent: *) بعدم الزحف إلى تلك الصفحة. لا يوجد أي سبب لبوت الروبوتات في إضاعة الوقت في الزحف إلى ذلك.

    لذلك دعونا نقول أنك تريد إخبار جميع برامج الروبوت بعدم الزحف إلى هذه الصفحة المحددة على موقع الويب الخاص بك. http://www.yourwebsite.com/samplepage1/

    سيبدو بناء الجملة كما يلي:

    وكيل المستخدم: *

    عدم السماح: / samplepage1 /

    إليك مثال آخر:

    عدم السماح: /*.gif$

    سيؤدي هذا إلى حظر نوع ملف معين (في هذه الحالة. gif). يمكنك الرجوع إلى هذا المخطط من Google للحصول على المزيد من القواعد والأمثلة الشائعة .

    قواعد Robot.txt الشائعة وأمثلة

    المفهوم واضح ومباشر.

    إذا كنت ترغب في عدم السماح لصفحات أو ملفات أو محتوى على موقعك من جميع برامج الزحف (أو برامج زحف محددة) ، فأنت بحاجة فقط إلى العثور على أمر بناء الجملة المناسب وإضافته إلى محرر النص العادي.

    بمجرد الانتهاء من كتابة الأوامر ، ما عليك سوى نسخها ولصقها في ملف robots.txt.

    لماذا يحتاج ملف robots.txt إلى التحسين

    أنا أعرف بعض ما كنت أفكر. لماذا في العالم أريد أن العبث بأي من هذا؟

    إليك ما تحتاج إلى فهمه. ليس الغرض من ملف robots.txt هو حظر الصفحات أو محتوى الموقع بالكامل من محرك البحث.

    بدلاً من ذلك ، فأنت فقط تحاول زيادة كفاءة ميزانيات الزحف الخاصة بها. كل ما تفعله هو إخبار برامج الروبوت بأنها لا تحتاج إلى الزحف إلى الصفحات التي لم يتم إعدادها للجمهور.

    فيما يلي ملخص لكيفية عمل ميزانية الزحف إلى Google .

    تم تقسيمها إلى قسمين:

    1. حد معدل الزحف
    2. الزحف الطلب

    يمثل حد معدل الزحف عدد الاتصالات التي يمكن أن يقوم بها الزاحف لأي موقع محدد. وهذا يشمل أيضا مقدار الوقت بين جلب.

    تحتوي مواقع الويب التي تستجيب بسرعة على معدل أعلى للزحف ، مما يعني أنه يمكن أن يكون لها المزيد من الاتصالات مع الروبوت. من ناحية أخرى ، فإن المواقع التي تبطئ نتيجة الزحف لن يتم الزحف إليها بشكل متكرر.

    يتم الزحف إلى المواقع أيضًا بناءً على الطلب. هذا يعني أنه يتم الزحف إلى مواقع الويب الشائعة على أساس أكثر تواترا. على الجانب الآخر ، لن يتم الزحف إلى المواقع غير الشائعة أو التي يتم تحديثها بشكل متكرر ، حتى إذا لم يتم بلوغ حد معدل الزحف.

    بتحسين ملف robots.txt الخاص بك ، فإنك تجعل مهمة برامج الزحف أسهل بكثير. وفقًا لـ Google ، هذه بعض الأمثلة للعناصر التي تؤثر على ميزانيات الزحف:

    • معرفات الجلسة
    • الملاحة الأوجه
    • صفحات خطأ
    • الصفحات التي تم اختراقها
    • محتوى مكرر
    • مساحات ووكلاء لا حصر لهم
    • محتوى منخفض الجودة
    • بريد مؤذي

    باستخدام ملف robots.txt لعدم السماح بهذا النوع من المحتوى من برامج الزحف ، فإنه يضمن قضاء وقت أطول في اكتشاف المحتوى العلوي وفهرسته على موقع الويب الخاص بك.

    إليك مقارنة مرئية للمواقع مع ملف robots.txt محسّن وبدونه.

    Robots.txt مقارنة مرئية

    سيقضي متتبع ارتباطات محرك البحث مزيدًا من الوقت ، وبالتالي مزيدًا من ميزانية الزحف ، على موقع الويب الأيسر. لكن الموقع على اليمين يضمن أن المحتوى الأعلى يتم الزحف إليه فقط.

    فيما يلي سيناريو تريد فيه الاستفادة من ملف robots.txt.

    كما أنا متأكد من أنك تعرف ، فإن المحتوى المكرر ضار SEO. ولكن هناك أوقات معينة يكون فيها من الضروري وجودها على موقع الويب الخاص بك. على سبيل المثال ، قد يكون لدى البعض إصدارات سهلة الاستخدام من صفحات محددة. هذا محتوى مكرر. بحيث يمكنك إخبار برامج الروبوت بعدم الزحف إلى تلك الصفحة الصديقة للطابعة من خلال تحسين صيغة ملف robots.txt الخاص بك.

    اختبار ملف robots.txt الخاص بك

    بمجرد العثور على ملف robots.txt وتعديله وتحسينه ، فقد حان الوقت لاختبار كل شيء للتأكد من أنه يعمل بشكل صحيح.

    للقيام بذلك ، ستحتاج إلى تسجيل الدخول إلى حساب مشرفي المواقع من Google . انتقل إلى "الزحف" من لوحة القيادة.

    أدوات مشرفي المواقع الزحف

    هذا سوف يوسع القائمة.

    بمجرد التوسيع ، ستبحث عن خيار "robots.txt Tester".

    اختبار Robots.txt

    ثم ببساطة انقر فوق الزر "اختبار" في الزاوية اليمنى السفلى من الشاشة.

    اختبار Robots.txt

    إذا كان هناك أي مشاكل ، يمكنك فقط تحرير بناء الجملة مباشرة في اختبار. استمر في إجراء الاختبارات حتى يصبح كل شيء سلسًا.

    كن على علم بأن التغييرات التي تم إجراؤها في المختبر لا يتم حفظها على موقع الويب الخاص بك. لذلك ستحتاج إلى التأكد من نسخ ولصق أي تغييرات في ملف robots.txt الفعلي.

    تجدر الإشارة أيضًا إلى أن هذه الأداة مخصصة فقط لاختبار برامج التتبع وبرامج الزحف من Google. لن يكون بإمكانه التنبؤ بكيفية قراءة محركات البحث الأخرى لملف robots.txt الخاص بك.

    بالنظر إلى أن Google تتحكم في 89.95٪ من حصة السوق العالمية لمحركات البحث ، لا أعتقد أنك بحاجة إلى تشغيل هذه الاختبارات باستخدام أي أدوات أخرى. ولكن سأترك هذا القرار متروك لكم.

    أفضل ممارسات Robots.txt

    يجب تسمية ملف robots.txt باسم "ملف robots.txt" حتى يمكن العثور عليه. إنها حساسة لحالة الأحرف ، مما يعني أن Robots.txt أو robots.TXT غير مقبول.

    يجب أن يكون ملف robots.txt دائمًا في المجلد الجذر لموقع الويب الخاص بك في دليل المستوى الأعلى للمضيف.

    يمكن لأي شخص رؤية ملف robots.txt الخاص بك. كل ما يحتاجون إليه هو كتابة اسم URL لموقع الويب الخاص بك مع /robots.txt بعد مجال الجذر لمشاهدته. لذلك لا تستخدم هذا ليكون متستر أو خادعة ، لأنه في الأساس معلومات عامة.

    بالنسبة للجزء الأكبر ، لا أوصي بوضع قواعد محددة لبرامج الزحف المختلفة لمحركات البحث. لا يمكنني رؤية فائدة وجود مجموعة معينة من القواعد لـ Google ، ومجموعة أخرى من قواعد Bing. سيكون الأمر أقل إرباكًا إذا كانت قواعدك تنطبق على جميع وكلاء المستخدم.

    لا تؤدي إضافة بناء جملة غير مسموح بها إلى ملف robots.txt إلى منع فهرسة تلك الصفحة. بدلاً من ذلك ، يجب عليك استخدام علامة noindex.

    زواحف محركات البحث متقدمة للغاية. إنهم يعرضون بشكل أساسي محتوى موقع الويب الخاص بك بنفس الطريقة التي يقوم بها شخص حقيقي. لذلك إذا كان موقع الويب الخاص بك يستخدم CSS و JS للعمل ، فلا يجب عليك حظر هذه المجلدات في ملف robots.txt الخاص بك. سيكون خطأً كبيرًا في تحسين محركات البحث إذا لم يتمكن الزواحف من رؤية إصدار يعمل من موقع الويب الخاص بك.

    إذا كنت تريد التعرف على ملف robots.txt الخاص بك فور تحديثه ، فأرسله مباشرةً إلى Google ، بدلاً من الانتظار حتى يتم الزحف إلى موقع الويب الخاص بك.

    لا يمكن نقل ملكية الرابط من الصفحات المحظورة إلى وجهات الربط. هذا يعني أن الروابط على الصفحات غير المسموح بها سيتم اعتبارها غير مجوفة. لذلك لن يتم فهرسة بعض الروابط ما لم تكن موجودة على صفحات أخرى يمكن الوصول إليها بواسطة محركات البحث.

    لا يعد ملف robots.txt بديلاً لحظر بيانات المستخدم الخاصة والمعلومات الحساسة الأخرى من الظهور في SERPs. كما قلت من قبل ، لا يزال من الممكن فهرسة الصفحات غير المسموح بها. لذلك ستظل بحاجة إلى التأكد من أن هذه الصفحات محمية بكلمة مرور وأن تستخدم التوجيه الفوقية noindex.

    يجب وضع ملفات Sitemap أسفل ملف robots.txt.

    خاتمة

    كانت تلك دورة تعطل كل شيء تحتاج لمعرفته حول ملفات robots.txt.

    أعلم أن الكثير من هذه المعلومات كانت تقنية بعض الشيء ، لكن لا تدع هذا يخيفك. المفاهيم والتطبيقات الأساسية لـ robots.txt سهلة الفهم إلى حد ما.

    تذكر أن هذا ليس شيئًا تريد تعديله كثيرًا. من المهم للغاية أيضًا اختبار كل شيء قبل حفظ التغييرات. تأكد من مضاعفة وثلاث مرات تحقق كل شيء.

    خطأ واحد قد يتسبب في توقف محرك البحث عن الزحف إلى موقعك تمامًا. هذا سيكون مدمرا لموقعك كبار المسئولين الاقتصاديين. لذلك فقط قم بإجراء التغييرات الضرورية للغاية.

    عند تحسينها بشكل صحيح ، سيتم الزحف إلى موقع الويب الخاص بك بكفاءة من خلال ميزانية الزحف من Google. يؤدي ذلك إلى زيادة فرص ملاحظة المحتوى العلوي وفهرسته وترتيبه وفقًا لذلك.