ماهو robots.txt موضوع فى غاية الاهمية
:: قسم التطوير :: منتدى الاشهار
صفحة 1 من اصل 1
ماهو robots.txt موضوع فى غاية الاهمية
1. كم عدد
المرات
التي سيصل فيها برنامج Googlebot إلى صفحات الويب الخاصة بي؟
بالنسبة لمعظم المواقع؛ يجب ألاَّ يصل برنامج Googlebot إلى الموقع أكثر
من مرة
واحدة كل عدة ثواني في المتوسط. ومع ذلك - بسبب أعطال الشبكة - من الممكن
أن
يظهر المعدل أعلى قليلاً في فترات قصيرة.
2. كيف أطالب بعدم قيام Google بالزحف إلى كل موقعي أو أجزاء من؟
الملف robots.txt هو ملف قياسي يمكنه إخبار برنامج Googlebot
بعدم
تنزيل بعض أو كل المعلومات من مركز خدمة "سيرفر" الويب الخاص بك. وصيغة
الملف
robots.txt محددة في
بروتوكول استبعاد الروبوت (وصلات لموقع إنجليزي). ولمعرفة التعليمات
المفصلة عن كيفية منع برنامج Googlebot من الزحف إلى كل موقعك أو جزء منه،
الرجاء مراجعة
صفحة أوامر الإزالة الخاصة بنا. وتذكَّر أن التغييرات التي تقوم بها
في ملف
robots.txt الخاص بمركز الخدمة الخاص بك لن يتم نقلها على الفور إلى
Google؛
وإنما سيتم اكتشافها ونقلها عند قيام برنامج Googlebot بالزحف إلى موقعك
مرة
تالية.
3. يقوم برنامج Googlebot بالزحف إلى موقعي بسرعة مفرطة. فماذا
أفعل؟
الرجاء
الاتصال بنا (وصلات لإصدار إنجليزي) وإرسال عنوان URL لموقعك ووصف
تفصيلي
للمشكلة. والرجاء أيضًا تضمين جزء من سجل الويب الذي يوضح مرات وصول
Google حتى
نتمكن من اكتشاف المشكلة بسرعة.
4. لماذا يطلب برنامج Googlebot ملفًا يُسمى robots.txt وهو غير
موجود
على مركز الخدمة "سيرفر" الخاص بي؟
الملف robots.txt هو ملف قياسي يمكنه إخبار برنامج Googlebot
بعدم
تنزيل بعض أو كل المعلومات من مركز خدمة "سيرفر" الويب الخاص بك. ولمزيد
من
المعلومات عن كيفية إنشاء ملف robots.txt؛ انظر
بروتوكول استبعاد الروبوت (وصلات لموقع إنجليزي). إذا كنت تريد فقط
منع
رسائل أخطاء "الملف غير موجود" في سجل مركز خدمة الويب الخاص بك، يمكنك
إنشاء
ملف فارغ يسمى robots.txt.
5. لماذا يحاول برنامج Googlebot تنزيل وصلات غير صحيحة من مركز
الخدمة
"سيرفر" الخاص بي؟ أو من مركز خدمة (سيرفر) غير موجود؟
من المفترض أن الكثير من الوصلات على الويب سيتم كسرها أو
إهمالها
في أي وقت معين. وعندما ينشر شخص ما وصلة غير صحيحة لموقعك (ربما بسبب خطأ
طباعي أو إملائي) أو يفشل في تحديث وصلات ليعكس التغييرات في مركز الخدمة
الخاص
بك؛ سيحاول برنامج Googlebot تنزيل وصلة غير صحيحة من موقعك. وهذا أيضًا
يفسر
سبب وجود طلبات توصُّل في جهاز ليس أصلاً مركز خدمة ويب.
6. لماذا يقوم برنامج Googlebot بتنزيل معلومات من مركز خدمة
(سيرفر)
الويب "السري" الخاص بنا؟
إنه من المستحيل تقريبًا أن تحتفظ بسرية مركز خدمة (سيرفر)
ويب
بعدم نشر أي وصلات له. فبمجرد أن يتبع شخص ما وصلة من مركز الخدمة "السري"
الخاص بك إلى مركز خدمة ويب آخر، قد يظهر عنوان URL "السري" الخاص بك في
علامة
الإحالة ويتم تخزينه ونشره بواسطة مركز خدمة الويب الآخر في سجل الإحالة
الخاص
بهذا المركز. ولذلك؛ فإذا كان هناك وصلة لمركز خدمة الويب "السري" الخاص
بك أو
لصفحة على الويب في أي مكان؛ فمن المحتمل أن يعثر عليها برنامج Googlebot
وغيره
من برامج زحف الويب الأخرى.
7. لماذا لا يتبع برنامج Googlebot ملف robots.txt الخاص بي؟
لحفظ سعة النطاق؛ يقوم برنامج Googlebot بتنزيل ملف
robots.txt
فقط مرة واحدة كل يوم أو عندما نقوم بجلب صفحات عديدة من مركز الخدمة.
ولذا، قد
يأخذ برنامج Googlebot برُهة من الوقت لمعرفة التغييرات الحادثة في ملف
robots.txt الخاص بك. وأيضًا؛ يتم توزيع برنامج Googlebot على أجهزة
متعددة.
يحتفظ كل منها بسجله الخاص بملف robots.txt الخاص بك.
نحن نقترح دائمًا التحقق من صحة التراكيب في ملفاتك طبقًا
للمعيار
الموجود في
http://www.robotstxt.org/wc/exclusion.html#robotstxt (وصلات لموقع
إنجليزي). وأحد المصادر الشائعة للمشاكل هو أن ملف robots.txt لم يُوضع في
الدليل الأعلى لمركز الخدمة (مثلاً؛ www.myhost.com/robots.txt)، لأن وضع
الملف
في دليل فرعي لن يكون له أي تأثير.
كما أن هناك اختلافًا بسيطًا بين الطريقة التي يعالج بها
برنامج
Googlebot ملف robots.txt والطريقة التي يقول معيار robots.txt أننا ينبغي
أن
نستخدمها في معالجة هذا الملف (مع مراعاة الفرق بين "ينبغي" و"يجب").
فالمعيار
يقول إننا ينبغي أن نتبع أول قاعدة تقبل التطبيق، بينما يتبع برنامج
Googlebot
أوسع القواعد انطباقًا (أي الأكثر تخصصًا). وهذا الإجراء البديهي يتفق مع
ما
يفعله الناس في الواقع ومع ما يتوقعون أن نفعله. على سبيل المثال، فكِّر
في ملف
robots.txt التالي:
User-Agent: *
Allow: /
Disallow: /cgi-bin
إن من الواضح أن قصد مشرف الموقع هنا هو السماح لبرامج الروبوت
بالزحف إلى كل شيء ماعدا دليل /cgi-bin. وبالتالي، هذا هو ما نفعله.
لمزيد
من المعلومات، الرجاء الاطلاع على
الأسئلة الشائعة حول برامج الروبوت (وصلات لموقع إنجليزي). وإذا ظلت
المشكلة قائمة، فالرجاء
إعلامنا بذلك (وصلات لإصدار إنجليزي).
8. لماذا توجد طلبات
توصُّل من أجهزة عديدة على موقع Google.com، كلها
بواسطة برنامج user-agent Googlebot؟
لقد تم
تصميم برنامج Googlebot بحيث يتم توزيعه على أجهزة مختلفة
لتحسين الأداء والحجم مع نمو الويب. وكذلك – وللتقليل من استخدام سعة
النطاق -
نقوم بتشغيل برامج زاحف عديدة على أجهزة تم وضعها بالقرب من المواقع التي
تقوم
بفهرستها في الشبكة.
9. هل يمكن إخباري
بعناوين بروتوكول الإنترنت IP التي يبدأ منها برنامج
Googlebot الزحف حتى يمكنني تنقية سجلاتي؟
تتغير عناوين بروتوكول الإنترنت IP المستخدمة بواسطة برنامج
Googlebot من وقت لآخر. وأفضل طريقة لتحديد عمليات الوصول بواسطة برنامج
Googlebot هي استخدام برنامج user-agent (Googlebot).
10. لماذا يقوم
برنامج Googlebot بتنزيل الصفحة ذاتها على موقعي عدة
مرات؟
بصفة
عامة؛ ينبغي أن يقوم برنامج Googlebot بتنزيل نسخة واحدة فقط
من كل ملف من موقعك أثناء عملية زحف معينة. وفي كثير من الأحيان، يتوقف
برنامج
الزاحف ويعاد تشغيله؛ مما قد يؤدي إلى قيامه بإعادة الزحف إلى صفحات قام
بجلبها
مؤخرًا.
11. لماذا لا تظهر
صفحات موقعي التي قام برنامج Googlebot بالزحف إليها
في فهرسكم؟
لا تقلق
إذا لم تتمكن من العثور الفوري على ملفات قام برنامج
Googlebot بالزحف إليها في محرك بحث Google. إذ يتم إدخال الملفات إلى
فهرسنا
سريعًا بعد أن يتم الزحف إليها. ومن حين لآخر؛ لن يتم تضمين الملفات التي
جلبها
برنامج Googlebot لأسباب عديدة (على سبيل المثال: لأنها تبدو كنسخ طبق
الأصل
لصفحات أخرى على الويب).
12. ما هي أنواع
الوصلات التي يتبعها برنامج Googlebot?
يتبع
برنامج Googlebot وصلات HREF ووصلات SRC.
13. كيف أمنع برنامج
Googlebot من تتبع الوصلات الموجودة على صفحاتي؟
لكي
تمنع برنامج Googlebot من تتبع الوصلات الموجودة على صفحاتك
لصفحات أو ملفات أخرى؛ قم بوضع علامة meta tag التالية على رأس ملف HTML
الخاص
بك.
<META
NAME="Googlebot" CONTENT="nofollow">
ولمعرفة
المزيد عن علامات meta tags، الرجاء مراجعة
http://www.robotstxt.org/wc/exclusion.html#meta (وصلات لموقع
إنجليزي)؛
ويمكنك أيضًا قراءة ما
يقوله معيار HTML عن هذه العلامات(وصلات لموقع إنجليزي). وتذكِّر أن
التغييرات التي تحدث في موقعك لن يتم نقلها على الفور إلى Google؛ وإنما
سيتم
اكتشافها ونقلها عند قيام برنامج Googlebot بالزحف إلى موقعك مرة تالية.
14. كيف اُخبر برنامج
Googlebot بألا يقوم بالزحف إلى وصلة صادرة فردية
على صفحة ما؟
يمكن أن
تستبعد علامات Meta tags كل الوصلات الصادرة الموجودة في
صفحة ما، ولكن يمكنك أيضًا أن تأمر برنامج Googlebot بعدم الزحف إلى
الوصلات
الفردية بإضافة الصفة المميزة rel="nofollow" إلى الوصلة. وعندما يرى
Google
الصفة المميزة rel="nofollow" على وصلات، فلن تحصل تلك الوصلات على أي
ائتمان
عندما نقوم بتصنيف مواقع الويب في نتائج بحثنا. على سبيل المثال؛ الوصلة:
<a
href=http://www.example.com/>This is a great link!</a>
يمكن تبديلها بالوصلة:
<a href=http://www.example.com/ rel="nofollow"> I can't
vouch for
this link</a>.
15. لا أجد إجابة على
سؤالي الخاص ببرنامج Googlebot هنا. إلى أين ينبغي
أن أرسله؟
المرات
التي سيصل فيها برنامج Googlebot إلى صفحات الويب الخاصة بي؟
بالنسبة لمعظم المواقع؛ يجب ألاَّ يصل برنامج Googlebot إلى الموقع أكثر
من مرة
واحدة كل عدة ثواني في المتوسط. ومع ذلك - بسبب أعطال الشبكة - من الممكن
أن
يظهر المعدل أعلى قليلاً في فترات قصيرة.
2. كيف أطالب بعدم قيام Google بالزحف إلى كل موقعي أو أجزاء من؟
الملف robots.txt هو ملف قياسي يمكنه إخبار برنامج Googlebot
بعدم
تنزيل بعض أو كل المعلومات من مركز خدمة "سيرفر" الويب الخاص بك. وصيغة
الملف
robots.txt محددة في
بروتوكول استبعاد الروبوت (وصلات لموقع إنجليزي). ولمعرفة التعليمات
المفصلة عن كيفية منع برنامج Googlebot من الزحف إلى كل موقعك أو جزء منه،
الرجاء مراجعة
صفحة أوامر الإزالة الخاصة بنا. وتذكَّر أن التغييرات التي تقوم بها
في ملف
robots.txt الخاص بمركز الخدمة الخاص بك لن يتم نقلها على الفور إلى
Google؛
وإنما سيتم اكتشافها ونقلها عند قيام برنامج Googlebot بالزحف إلى موقعك
مرة
تالية.
3. يقوم برنامج Googlebot بالزحف إلى موقعي بسرعة مفرطة. فماذا
أفعل؟
الرجاء
الاتصال بنا (وصلات لإصدار إنجليزي) وإرسال عنوان URL لموقعك ووصف
تفصيلي
للمشكلة. والرجاء أيضًا تضمين جزء من سجل الويب الذي يوضح مرات وصول
Google حتى
نتمكن من اكتشاف المشكلة بسرعة.
4. لماذا يطلب برنامج Googlebot ملفًا يُسمى robots.txt وهو غير
موجود
على مركز الخدمة "سيرفر" الخاص بي؟
الملف robots.txt هو ملف قياسي يمكنه إخبار برنامج Googlebot
بعدم
تنزيل بعض أو كل المعلومات من مركز خدمة "سيرفر" الويب الخاص بك. ولمزيد
من
المعلومات عن كيفية إنشاء ملف robots.txt؛ انظر
بروتوكول استبعاد الروبوت (وصلات لموقع إنجليزي). إذا كنت تريد فقط
منع
رسائل أخطاء "الملف غير موجود" في سجل مركز خدمة الويب الخاص بك، يمكنك
إنشاء
ملف فارغ يسمى robots.txt.
5. لماذا يحاول برنامج Googlebot تنزيل وصلات غير صحيحة من مركز
الخدمة
"سيرفر" الخاص بي؟ أو من مركز خدمة (سيرفر) غير موجود؟
من المفترض أن الكثير من الوصلات على الويب سيتم كسرها أو
إهمالها
في أي وقت معين. وعندما ينشر شخص ما وصلة غير صحيحة لموقعك (ربما بسبب خطأ
طباعي أو إملائي) أو يفشل في تحديث وصلات ليعكس التغييرات في مركز الخدمة
الخاص
بك؛ سيحاول برنامج Googlebot تنزيل وصلة غير صحيحة من موقعك. وهذا أيضًا
يفسر
سبب وجود طلبات توصُّل في جهاز ليس أصلاً مركز خدمة ويب.
6. لماذا يقوم برنامج Googlebot بتنزيل معلومات من مركز خدمة
(سيرفر)
الويب "السري" الخاص بنا؟
إنه من المستحيل تقريبًا أن تحتفظ بسرية مركز خدمة (سيرفر)
ويب
بعدم نشر أي وصلات له. فبمجرد أن يتبع شخص ما وصلة من مركز الخدمة "السري"
الخاص بك إلى مركز خدمة ويب آخر، قد يظهر عنوان URL "السري" الخاص بك في
علامة
الإحالة ويتم تخزينه ونشره بواسطة مركز خدمة الويب الآخر في سجل الإحالة
الخاص
بهذا المركز. ولذلك؛ فإذا كان هناك وصلة لمركز خدمة الويب "السري" الخاص
بك أو
لصفحة على الويب في أي مكان؛ فمن المحتمل أن يعثر عليها برنامج Googlebot
وغيره
من برامج زحف الويب الأخرى.
7. لماذا لا يتبع برنامج Googlebot ملف robots.txt الخاص بي؟
لحفظ سعة النطاق؛ يقوم برنامج Googlebot بتنزيل ملف
robots.txt
فقط مرة واحدة كل يوم أو عندما نقوم بجلب صفحات عديدة من مركز الخدمة.
ولذا، قد
يأخذ برنامج Googlebot برُهة من الوقت لمعرفة التغييرات الحادثة في ملف
robots.txt الخاص بك. وأيضًا؛ يتم توزيع برنامج Googlebot على أجهزة
متعددة.
يحتفظ كل منها بسجله الخاص بملف robots.txt الخاص بك.
نحن نقترح دائمًا التحقق من صحة التراكيب في ملفاتك طبقًا
للمعيار
الموجود في
http://www.robotstxt.org/wc/exclusion.html#robotstxt (وصلات لموقع
إنجليزي). وأحد المصادر الشائعة للمشاكل هو أن ملف robots.txt لم يُوضع في
الدليل الأعلى لمركز الخدمة (مثلاً؛ www.myhost.com/robots.txt)، لأن وضع
الملف
في دليل فرعي لن يكون له أي تأثير.
كما أن هناك اختلافًا بسيطًا بين الطريقة التي يعالج بها
برنامج
Googlebot ملف robots.txt والطريقة التي يقول معيار robots.txt أننا ينبغي
أن
نستخدمها في معالجة هذا الملف (مع مراعاة الفرق بين "ينبغي" و"يجب").
فالمعيار
يقول إننا ينبغي أن نتبع أول قاعدة تقبل التطبيق، بينما يتبع برنامج
Googlebot
أوسع القواعد انطباقًا (أي الأكثر تخصصًا). وهذا الإجراء البديهي يتفق مع
ما
يفعله الناس في الواقع ومع ما يتوقعون أن نفعله. على سبيل المثال، فكِّر
في ملف
robots.txt التالي:
User-Agent: *
Allow: /
Disallow: /cgi-bin
إن من الواضح أن قصد مشرف الموقع هنا هو السماح لبرامج الروبوت
بالزحف إلى كل شيء ماعدا دليل /cgi-bin. وبالتالي، هذا هو ما نفعله.
لمزيد
من المعلومات، الرجاء الاطلاع على
الأسئلة الشائعة حول برامج الروبوت (وصلات لموقع إنجليزي). وإذا ظلت
المشكلة قائمة، فالرجاء
إعلامنا بذلك (وصلات لإصدار إنجليزي).
8. لماذا توجد طلبات
توصُّل من أجهزة عديدة على موقع Google.com، كلها
بواسطة برنامج user-agent Googlebot؟
لقد تم
تصميم برنامج Googlebot بحيث يتم توزيعه على أجهزة مختلفة
لتحسين الأداء والحجم مع نمو الويب. وكذلك – وللتقليل من استخدام سعة
النطاق -
نقوم بتشغيل برامج زاحف عديدة على أجهزة تم وضعها بالقرب من المواقع التي
تقوم
بفهرستها في الشبكة.
9. هل يمكن إخباري
بعناوين بروتوكول الإنترنت IP التي يبدأ منها برنامج
Googlebot الزحف حتى يمكنني تنقية سجلاتي؟
تتغير عناوين بروتوكول الإنترنت IP المستخدمة بواسطة برنامج
Googlebot من وقت لآخر. وأفضل طريقة لتحديد عمليات الوصول بواسطة برنامج
Googlebot هي استخدام برنامج user-agent (Googlebot).
10. لماذا يقوم
برنامج Googlebot بتنزيل الصفحة ذاتها على موقعي عدة
مرات؟
بصفة
عامة؛ ينبغي أن يقوم برنامج Googlebot بتنزيل نسخة واحدة فقط
من كل ملف من موقعك أثناء عملية زحف معينة. وفي كثير من الأحيان، يتوقف
برنامج
الزاحف ويعاد تشغيله؛ مما قد يؤدي إلى قيامه بإعادة الزحف إلى صفحات قام
بجلبها
مؤخرًا.
11. لماذا لا تظهر
صفحات موقعي التي قام برنامج Googlebot بالزحف إليها
في فهرسكم؟
لا تقلق
إذا لم تتمكن من العثور الفوري على ملفات قام برنامج
Googlebot بالزحف إليها في محرك بحث Google. إذ يتم إدخال الملفات إلى
فهرسنا
سريعًا بعد أن يتم الزحف إليها. ومن حين لآخر؛ لن يتم تضمين الملفات التي
جلبها
برنامج Googlebot لأسباب عديدة (على سبيل المثال: لأنها تبدو كنسخ طبق
الأصل
لصفحات أخرى على الويب).
12. ما هي أنواع
الوصلات التي يتبعها برنامج Googlebot?
يتبع
برنامج Googlebot وصلات HREF ووصلات SRC.
13. كيف أمنع برنامج
Googlebot من تتبع الوصلات الموجودة على صفحاتي؟
لكي
تمنع برنامج Googlebot من تتبع الوصلات الموجودة على صفحاتك
لصفحات أو ملفات أخرى؛ قم بوضع علامة meta tag التالية على رأس ملف HTML
الخاص
بك.
<META
NAME="Googlebot" CONTENT="nofollow">
ولمعرفة
المزيد عن علامات meta tags، الرجاء مراجعة
http://www.robotstxt.org/wc/exclusion.html#meta (وصلات لموقع
إنجليزي)؛
ويمكنك أيضًا قراءة ما
يقوله معيار HTML عن هذه العلامات(وصلات لموقع إنجليزي). وتذكِّر أن
التغييرات التي تحدث في موقعك لن يتم نقلها على الفور إلى Google؛ وإنما
سيتم
اكتشافها ونقلها عند قيام برنامج Googlebot بالزحف إلى موقعك مرة تالية.
14. كيف اُخبر برنامج
Googlebot بألا يقوم بالزحف إلى وصلة صادرة فردية
على صفحة ما؟
يمكن أن
تستبعد علامات Meta tags كل الوصلات الصادرة الموجودة في
صفحة ما، ولكن يمكنك أيضًا أن تأمر برنامج Googlebot بعدم الزحف إلى
الوصلات
الفردية بإضافة الصفة المميزة rel="nofollow" إلى الوصلة. وعندما يرى
الصفة المميزة rel="nofollow" على وصلات، فلن تحصل تلك الوصلات على أي
ائتمان
عندما نقوم بتصنيف مواقع الويب في نتائج بحثنا. على سبيل المثال؛ الوصلة:
<a
href=http://www.example.com/>This is a great link!</a>
يمكن تبديلها بالوصلة:
<a href=http://www.example.com/ rel="nofollow"> I can't
vouch for
this link</a>.
15. لا أجد إجابة على
سؤالي الخاص ببرنامج Googlebot هنا. إلى أين ينبغي
أن أرسله؟
:: قسم التطوير :: منتدى الاشهار
صفحة 1 من اصل 1
صلاحيات هذا المنتدى:
لاتستطيع الرد على المواضيع في هذا المنتدى