Robots.txt چیست؟

فایل robots.txt چیست؟ [کاربردها و تاثیر آن در سئو]

آنچه در این مقاله میخوانیم

تصور کنید برای اولین بار به یک سازمان بزرگ برای انجام کاری اداری مراجعه کرده‌اید؛ هیچ کجا را نمی‌شناسید و مسیرها برایتان ناآشناست. مدیران این سازمان برای اینکه از سردرگمی و هرج و مرج جلوگیری کنند، در ورودی یک باجه اطلاعاتی قرار داده‌اند و افرادی را مسئول راهنمایی و نظارت کرده‌اند. اگر این راهنماها و نگهبانان نباشند، همه بدون نظم در راهروها پرسه می‌زنند، و کارمندان نیز نمی‌توانند وظایف خود را به‌درستی انجام دهند. در وب‌سایت‌ها، فایل robots.txt دقیقاً همان نقش راهنما و ناظر را برای ربات‌ها دارد، اما نه برای کاربران عادی، بلکه برای ربات‌هایی که برای ایندکس‌کردن یا اهداف دیگری به صفحات مختلف سایت سر می‌زنند. در این مقاله، از آژانس بازاریابی محتوایی مهام به بررسی اهمیت و نحوه عملکرد فایل robots.txt پرداخته و خواهیم دید چگونه می‌توان از آن به‌عنوان یک ابزار کارآمد برای بهینه‌سازی ساختار سایت و حفظ حریم خصوصی استفاده کرد.

ربات چیست؟

ربات‌ها در واقع نرم‌افزارهای خودکاری هستند که به طور مداوم صفحات مختلف وب را باز و بررسی می‌کنند. در میان این ربات‌ها، ربات‌های موتور جستجوی گوگل از اهمیت ویژه‌ای برخوردارند. این ربات‌ها روزانه بارها و بارها به صفحات وب‌سایت‌ها سر می‌زنند؛ اگر سایت بزرگی داشته باشید، ممکن است گوگل در طول یک روز تا ده‌ها هزار بار صفحات شما را پیمایش کند.

هر یک از این ربات‌ها وظیفه مشخصی دارند. برای مثال، Googlebot، مهم‌ترین ربات گوگل، وظیفه پیدا کردن صفحات جدید اینترنت و جمع‌آوری آن‌ها برای بررسی و ارزیابی توسط الگوریتم‌های رتبه‌بندی را بر عهده دارد. در واقع، ربات‌ها نه تنها به سایت شما آسیبی نمی‌زنند، بلکه حضورشان می‌تواند ارزشمند هم باشد.

اما نکته اینجاست که این ربات‌ها زبان انسان را نمی‌فهمند و بدون توجه به محدودیت‌ها، تمامی سایت را زیر و رو می‌کنند. گاهی ممکن است اطلاعاتی که تمایلی به نمایش آن‌ها ندارید، توسط این ربات‌ها جمع‌آوری شده و در سرورهای گوگل ذخیره شود. پس لازم است راهی برای مدیریت و کنترل رفتار آن‌ها وجود داشته باشد.

خوشبختانه، با کمک فایل robots.txt می‌توان دسترسی ربات‌ها به صفحات یا بخش‌های خاص سایت را محدود کرد. با نوشتن دستوراتی ساده در این فایل، می‌توانید تعیین کنید که ربات‌ها از کدام قسمت‌ها بازدید کنند یا نکنند. به این ترتیب، علاوه بر کاهش بار غیرضروری روی سرور، وب‌سایت خود را نیز از منظر سئو تکنیکال بهینه‌سازی خواهید کرد.

مدیریت رفتار ربات‌ها یکی از جنبه‌های ضروری در بهینه‌سازی سایت است که در کنار سئو داخلی و سئو خارجی، به عملکرد بهتر سایت در موتورهای جستجو کمک می‌کند.

فایل Robots.txt چیست؟

به نقل از سایت: تریبون

فایل Robots.txt مثل یک مجوز دهنده به ربات‌ها است. وقتی ربات‌ها می‌خواهند صفحه‌هایی از سایت را بررسی کنند، اول فایل Robots.txt را می‌خوانند.

در این فایل، با چند دستور ساده تعیین می‌کنیم که ربات‌ها اجازه بازدید از کدام صفحات را دارند و کدام صفحات باید برای آن‌ها غیرقابل دسترسی باقی بماند.

برای مثال، در تصویر زیر، دسترسی ربات‌ها به پوشه‌ای به نام photos و صفحه‌ای به نام files.html را محدود کرده‌ایم.

ربات ها

همان‌طور که گفتیم، مهم‌ترین ربات‌ها در اینترنت، ربات‌های موتور جستجوی گوگل هستند؛ بنابراین در ادامه مقاله، هر جا از “ربات” صحبت می‌کنیم، منظورمان به‌طور خاص ربات‌های گوگل است.

البته ربات‌های دیگری نیز از سوی سرویس‌دهنده‌های مختلف اینترنتی وجود دارند. پس از خواندن این مقاله، می‌توانید به‌راحتی با دانستن نام هر رباتی، دسترسی آن را محدود یا مدیریت کنید.

چرا باید فایل Robots.txt داشته باشیم؟چرا باید فایل Robots.txt داشته باشیم؟

وب‌مسترها و صاحبان وب‌سایت می‌توانند دسترسی ربات‌ها به بخش‌های مختلف سایت خود را مدیریت کنند، و این کار دلایل متعددی دارد. به عنوان مثال، تمامی صفحات یک وب‌سایت از درجه اهمیت یکسانی برخوردار نیستند. اغلب وب‌مسترها تمایلی ندارند که پنل مدیریت وب‌سایتشان در نتایج موتورهای جستجو نمایش داده شود و برای عموم قابل دسترس باشد. همچنین ممکن است برخی صفحات سایت محتوای مناسبی برای نمایش عمومی نداشته باشند؛ در این صورت، ترجیح می‌دهند این صفحات توسط ربات‌ها پیمایش نشود.

اگر وب‌سایتی با تعداد زیادی صفحه و بازدید بالا دارید، احتمالاً تمایلی ندارید که منابع سرور شما (مانند پهنای باند و قدرت پردازش) با بازدیدهای مکرر ربات‌ها به هدر برود.

ربات تی ایکس تی

در این شرایط است که فایل robots.txt به کمک می‌آید.

هدف اصلی این فایل در حال حاضر، جلوگیری از درخواست‌های بیش از حد ربات‌ها برای بازدید از صفحات وب‌سایت است. یعنی اگر ربات‌ها بخواهند یک صفحه را صدها بار در روز بررسی کنند، می‌توانیم با یک دستور ساده در فایل robots.txt به آن‌ها بفهمانیم که “رئیس” کیست و مانع از هدر رفتن منابع سایت شویم.

آیا می‌توان با فایل Robots.txt صفحه‌ای را از نتایج جستجو حذف کرد؟

تا مدتی پیش، اگر قصد داشتید صفحه‌ای را کاملاً از دید ربات‌های گوگل پنهان کنید و مانع نمایش آن در نتایج جستجو شوید، می‌توانستید از دستور noindex در فایل robots.txt استفاده کنید. اما امروزه شرایط تغییر کرده و این فایل دیگر برای حذف صفحات از نتایج جستجوی گوگل چندان کارآمد نیست.

گوگل توصیه کرده است که برای حذف صفحات از نتایج جستجو، به جای استفاده از فایل robots.txt از روش‌های دیگری بهره ببرید. البته همچنان می‌توانید از این فایل برای جلوگیری از نمایش فایل‌های خاصی مانند تصاویر، ویدیوها یا فایل‌های صوتی در نتایج جستجو استفاده کنید، اما این روش برای حذف صفحات وب چندان مؤثر نیست.

در ادامه، برخی روش‌های جایگزین برای حذف صفحات از نتایج جستجوی گوگل را معرفی خواهیم کرد.

آشنایی با ربات‌های گوگل و کاربردهای آنها

گوگل مجموعه‌ای از ربات‌های خزنده (Crawler) دارد که به صورت خودکار وب‌سایت‌ها را اسکن می‌کنند و با دنبال‌کردن لینک‌ها، از صفحه‌ای به صفحه دیگر، صفحات وب را پیدا می‌کنند. در جدول زیر، مهم‌ترین ربات‌های گوگل و نقش هریک به صورت خلاصه آورده شده است:

نام ربات کاربرد
AdSense بررسی صفحات برای نمایش تبلیغات مرتبط
Googlebot Image پیدا کردن و بررسی تصاویر
Googlebot News ایندکس کردن محتوای سایت‌های خبری
Googlebot Video بررسی و ایندکس ویدیوها
Googlebot (Desktop و Smartphone) کشف و ایندکس صفحات وب، با نسخه‌های مخصوص دسکتاپ و موبایل

این ربات‌ها به صورت مداوم صفحات وب‌سایت‌ها را بررسی می‌کنند. در صورت نیاز، امکان محدود کردن دسترسی هر یک از این ربات‌ها به صفحات خاص وجود دارد.

عوامل تأثیرگذار بر تعداد دفعات بازدید ربات‌ها از سایت

تعداد دفعاتی که ربات‌های گوگل از سایت شما بازدید می‌کنند، به چند عامل بستگی دارد. هرچه محتوای بیشتری در طول روز در وب‌سایت منتشر کنید و تغییرات سایت مهم‌تر باشد، ربات‌ها نیز دفعات بیشتری به سایت شما مراجعه خواهند کرد. برای مثال، در سایت‌های خبری که دائماً در حال انتشار و به‌روزرسانی اخبار هستند، ربات‌ها با سرعت و دفعات بیشتری صفحات را بررسی و ایندکس می‌کنند.

استفاده از Crawl Stats در سرچ کنسول

در سرچ کنسول گوگل، بخشی به نام گزارش crawl stats سرچ کنسول وجود دارد که اطلاعات مفیدی را در مورد دفعات بررسی صفحات سایت توسط ربات‌ها نمایش می‌دهد. در این بخش، می‌توانید حجم داده‌های دانلود شده توسط ربات‌ها و همچنین زمان بارگذاری صفحات را مشاهده کنید.

مهام با بیش از 7 سال سابقه در حوزه خدمات سئو، طراحی سایت و سفارش تولید محتوا جز شرکت‌های پیشرو در این صعنت، به شما در امر بهینه سازی محتوای سایت برای ربات های گوگل کمک خواهد کرد.

چرا فایل Robots.txt مهم است؟

فایل robots.txt به دلایل مختلفی برای وب‌سایت‌ها اهمیت دارد. در ادامه به برخی از این دلایل اشاره می‌کنیم:

۱. مدیریت ترافیک ربات‌ها به وب‌سایت

مدیریت ترافیک ربات‌ها به وب‌سایت از این نظر مهم است که سرور میزبان وب‌سایت شما تحت فشار قرار نگیرد و منابع آن تنها به‌طور ضروری مصرف شود. بسیاری از سرورها و میزبان‌ها محدودیت پهنای باند و ترافیک دارند؛ بنابراین، جلوگیری از مصرف بی‌رویه ترافیک برای بازدیدهای مکرر ربات‌ها می‌تواند به صرفه‌جویی در هزینه‌ها کمک کند.

۲. جلوگیری از نمایش صفحات یا فایل‌ها در نتایج جستجوی گوگل

با استفاده از فایل robots.txt می‌توانید مشخص کنید که برخی صفحات نباید توسط ربات‌های گوگل بررسی شوند؛ اما این تنها به جلوگیری از خزیدن آن‌ها توسط ربات‌ها کمک می‌کند و تضمینی برای عدم نمایش آن‌ها در نتایج جستجو نیست. ربات‌ها ممکن است از طریق لینک‌های دیگر به این صفحات دسترسی پیدا کنند و آن‌ها را ایندکس نمایند. برای حذف کامل صفحه از نتایج جستجو، بهترین روش استفاده از دستور noindex در بخش head صفحات است. اگر از وردپرس استفاده می‌کنید، افزونه‌های مختلفی برای این کار وجود دارند؛ در غیر این صورت، می‌توانید از طراح سایت خود بخواهید این کدها را به صورت دستی در بخش head صفحات اضافه کند.

۳. مدیریت Crawl Budget

اگر وب‌سایت شما صفحات بسیاری داشته باشد، خزیدن و ایندکس کردن تمامی صفحات توسط ربات‌های موتور جستجو زمان زیادی نیاز دارد. این مسئله می‌تواند بر رتبه سایت شما در نتایج جستجو تأثیر منفی بگذارد.

ربات Googlebot دارای مفهومی به نام Crawl Budget است که نشان‌دهنده تعداد صفحاتی است که ربات در یک روز می‌تواند در سایت شما بررسی کند. این بودجه بر اساس عواملی مانند حجم وب‌سایت (تعداد صفحات)، سلامت سایت (عدم وجود خطا) و تعداد بک‌لینک‌ها تعیین می‌شود.

Crawl Budget به دو بخش تقسیم می‌شود. اولین بخش، Crawl Rate Limit (حد نرخ خزیدن) است و دومی Crawl Demand. خب ببینیم معنی هر کدام چیست و چه تاثیری دارند.

Crawl Rate Limit

ربات گوگل (Googlebot) به گونه‌ای طراحی شده است که “شهروند خوبی” برای اینترنت باشد؛ به این معنا که در حین خزیدن (Crawling) سایت‌ها، تأثیر منفی بر تجربه کاربران نگذارد. این بهینه‌سازی که به Crawl Rate Limit معروف است، به منظور بهبود تجربه کاربری، تعداد صفحاتی را که در یک روز قابل خزیدن هستند محدود می‌کند.

به طور خلاصه، Crawl Rate Limit نشان‌دهنده تعداد دفعات ارتباط همزمان ربات گوگل با یک سایت و توقف‌های آن در طی عملیات خزش است. عوامل زیر می‌توانند Crawl Rate را تغییر دهند:

  • سلامت خزش (Crawl Health): اگر سایت شما سرعت خوبی داشته باشد و به درخواست‌ها به‌سرعت پاسخ دهد، Crawl Rate افزایش می‌یابد؛ اما اگر وب‌سایت کند عمل کند یا در طول خزش دچار خطاهای سرور شود، Crawl Rate کاهش می‌یابد.
  • تنظیم در Google Search Console: صاحبان وب‌سایت می‌توانند میزان خزش سایت خود را از طریق تنظیمات سرچ کنسول کاهش دهند.

Crawl Demand

حتی اگر ربات گوگل به سقف Crawl Rate نرسد، در صورتی که نیازی به ایندکس کردن صفحات وجود نداشته باشد، میزان خزش کاهش خواهد یافت. دو عامل اصلی در تعیین Crawl Demand (تقاضای خزش) عبارتند از:

  • محبوبیت: صفحاتی که در اینترنت بیشتر بازدید می‌شوند، توسط ربات گوگل بیشتر خزیده می‌شوند تا به‌روز و تازه بمانند.
  • پیشگیری از بیات شدن (Staleness): گوگل برای جلوگیری از قدیمی شدن داده‌ها، آدرس‌ها را به‌روز نگه می‌دارد.

علاوه بر این، تغییرات بزرگ سایت مانند انتقال آن به یک آدرس جدید می‌تواند Crawl Demand را افزایش دهد تا تمامی صفحات سایت مجدداً ایندکس شوند.

در نهایت، Crawl Rate و Crawl Demand با هم میزان Crawl Budget یک سایت را تعیین می‌کنند. Crawl Budget به تعداد URLهایی اشاره دارد که ربات گوگل قادر است و می‌خواهد ایندکس کند.

استفاده بهینه از Crawl Budget

بدیهی است که صاحبان وب‌سایت مایلند ربات گوگل از Crawl Budget سایتشان به بهترین نحو استفاده کند و به‌جای صفحات غیرمهم، روی صفحات ارزشمند و کلیدی تمرکز داشته باشد. گوگل همچنین اعلام کرده است که برخی عوامل می‌توانند بر فرآیند خزش و ایندکس سایت تأثیر منفی بگذارند، از جمله:

  • محتوای تکراری در سایت
  • صفحات دارای خطا
  • استفاده از شناسه نشست (Session Identifier)
  • ناوبری نامناسب در سایت
  • وجود صفحات هک‌شده
  • محتوای بی‌ارزش و اسپم

اتلاف منابع سرور برای این صفحات می‌تواند باعث کاهش Crawl Budget شما شود و خزش و ایندکس صفحات ارزشمند سایت را به تأخیر بیندازد.

اگر بتوانید یک فایل robots.txt بهینه و کارآمد تنظیم کنید، می‌توانید به موتورهای جستجو، به ویژه Googlebot، اعلام کنید که از بررسی برخی صفحات صرف‌نظر کنند. به این ترتیب، می‌توانید به ربات‌ها بگویید که کدام صفحات برای شما اولویت ندارند و بهتر است آن‌ها را نادیده بگیرند. مطمئناً شما هم نمی‌خواهید که ربات‌های خزنده گوگل، وقت و منابع سرور شما را صرف مشاهده و ایندکس محتوای تکراری یا کم‌ارزش کنند.

استفاده صحیح از فایل robots.txt به ربات‌های جستجو کمک می‌کند تا Crawl Budget سایت شما را بهینه مصرف کنند. این ویژگی، اهمیت فایل robots.txt را در بهبود سئو سایت به‌شدت افزایش می‌دهد.

برای درک بهتر سوال سئو چیست میتوانید به مهام سر بزنید. همچنین در مهام متوجه میشوید که دیجیتال مارکتینگ نیز به مجموعه‌ای از روش‌ها و ابزارها گفته می‌شود که با هدف جذب و تعامل با کاربران آنلاین به کار گرفته می‌شوند و یکی از مؤثرترین استراتژی‌ها در دیجیتال مارکتینگ، بازاریابی محتوا است که با تولید محتوای ارزشمند و مرتبط، به جذب مخاطبان هدف کمک می‌کند و جایگاه سایت را در موتورهای جستجو تقویت می‌کند.

با این حال، توجه داشته باشید که نبود فایل robots.txt به معنای جلوگیری از خزش نیست. در واقع، اگر این فایل در سایت شما وجود نداشته باشد، ربات‌های گوگل بدون محدودیت به تمام بخش‌های در دسترس وب‌سایت دسترسی خواهند داشت و تمامی محتوا را بررسی می‌کنند.

برای بهره‌مندی از مزایای کامل، پیشنهاد می‌کنیم از مشاوره سئو و همچنین شرکت در یک دوره آموزش سئو استفاده کنید تا بهترین استراتژی‌ها را برای تنظیم و بهینه‌سازی فایل robots.txt سایتتان بیاموزید. علاوه بر این، آشنایی با مهارت‌های مرتبط در دوره آموزش طراحی سایت می‌تواند به شما کمک کند تا کنترل بیشتری بر جنبه‌های فنی وب‌سایت خود داشته باشید.

حالا بیایید به سراغ آموزش نحوه استفاده از فایل robots.txt برویم. اما پیش از آن، لازم است با محدودیت‌های این فایل آشنا شویم.

محدودیت‌های دستورات Robots.txt

فایل Robots محدودیت‌هایی دارد که باید بدانید.

 تفاوت در پیروی ربات‌ها از دستورات فایل robots.txt

دستورات فایل robots.txt لزوماً برای تمامی ربات‌های موتورهای جستجو به یک شکل عمل نمی‌کنند. اینکه آیا یک ربات از این دستورات پیروی کند یا نه، به سیاست‌های آن موتور جستجو بستگی دارد. برای مثال، ممکن است ربات‌های گوگل دستورات را رعایت کنند، اما ربات موتورهای جستجوی دیگر مانند یاندکس یا بینگ از آن پیروی نکنند. به همین دلیل، بهتر است دستورالعمل‌های هر موتور جستجو را مطالعه کنید تا مطمئن شوید که دستورات شما برای تمامی موتورهای جستجو به‌درستی کار می‌کنند.

 درک متفاوت ربات‌ها از دستورات

امکان دارد که ربات‌های مختلف حتی متعلق به یک موتور جستجو، دستورات فایل robots.txt را به شکل متفاوتی تفسیر کنند. برای مثال، ممکن است یکی از ربات‌های گوگل دستوری را اجرا کند، در حالی که ربات دیگری از همان دستور پیروی نکند. این تفاوت‌ها می‌تواند منجر به رفتارهای متفاوت در خزش و ایندکس صفحات وب‌سایت شود.

 ایندکس شدن صفحات علی‌رغم محدودیت‌های robots.txt

حتی اگر با استفاده از فایل robots.txt دسترسی ربات‌ها به صفحه‌ای را محدود کرده باشید، باز هم ممکن است گوگل آن صفحه را ایندکس کند و در نتایج جستجو نمایش دهد. این ایندکس شدن می‌تواند از طریق نقشه سایت (sitemap) یا از طریق لینک‌هایی که از دیگر صفحات و سایت‌ها به این صفحه داده شده، رخ دهد.

پیشنهاد می‌کنم سری هم به مقاله عصاره لینک چیست؟ از مهام بزنید.

اگر صفحات سایت خود را در فایل robots.txt به‌عنوان «noindex» مشخص کنید، باز هم امکان نمایش آن‌ها در نتایج جستجو وجود دارد. گوگل ممکن است با استفاده از انکر تکست‌های لینک‌ها و سایر سیگنال‌ها به آن صفحه رتبه دهد و در نتایج جستجو نشان دهد. معمولاً این صفحات بدون توضیحات متا در نتایج جستجو ظاهر می‌شوند، زیرا گوگل محتوای صفحه و متا توضیحات را ایندکس نکرده است.

خبر خوب برای شما عزیزانی که در مشهد زندگی میکنید. آژانس مهام با سابقه 7 ساله در حوزه‌هایی نظیر طراحی سایت در مشهد و خدمات سئو در مشهد بعنوان بهترین آژانس بازاریابی محتوا در مشهد شناخته می‌شود.

آشنایی با دستورات فایل Robots.txt و معانی آنها

در فایل robots.txt، چهار دستور اصلی وجود دارد که با استفاده از آن‌ها می‌توان نحوه دسترسی ربات‌ها به بخش‌های مختلف سایت را تنظیم کرد:

  • User-agent: تعیین می‌کند که دستورات برای کدام ربات نوشته شده است.
  • Disallow: مشخص می‌کند که ربات‌ها نباید به کدام بخش‌های سایت دسترسی داشته باشند.
  • Allow: به ربات‌ها اجازه می‌دهد تا بخش‌های خاصی را که مجاز به دسترسی و بررسی هستند، شناسایی کنند.
  • Sitemap: آدرس نقشه سایت را به ربات‌ها معرفی می‌کند.

در ادامه توضیح می‌دهیم که هر یک از این دستورات چگونه استفاده می‌شوند.

۱. تعیین ربات هدف با User-agent

دستور User-agent برای مشخص کردن رباتی است که دستورات به آن اختصاص دارد. این دستور به دو شکل استفاده می‌شود:

  • اگر قصد دارید یک دستور را برای تمامی ربات‌ها اعمال کنید، می‌توانید بعد از عبارت User-agent از علامت * (ستاره) استفاده کنید که به معنای «همه» است. مانند مثال زیر:

User-agent: *

این دستور به این معنی است که تمامی ربات‌ها باید از دستورات بعدی پیروی کنند.

  • اگر می‌خواهید تنها یک ربات خاص، مثلاً ربات گوگل (Googlebot)، را هدف بگیرید، دستور زیر را بنویسید:

User-agent: Googlebot

این دستور به این معنی است که دستورات تنها برای ربات گوگل قابل اجرا است.

۲. محدود کردن صفحات با Disallow

دستور Disallow به ربات‌ها اعلام می‌کند که به کدام بخش‌های سایت نباید دسترسی داشته باشند. به عنوان مثال، اگر نمی‌خواهید موتورهای جستجو، تصاویر سایت را ایندکس کنند، می‌توانید تمام تصاویر را در یک پوشه (مانند photos) قرار دهید و آن را غیرقابل دسترس کنید:

User-agent: *Disallow: /photos

دستور بالا به ربات‌ها می‌گوید که وارد پوشه photos نشوند. در این دستور، «User-agent: *» تمامی ربات‌ها را هدف قرار می‌دهد و «Disallow: /photos» به آن‌ها اعلام می‌کند که از این پوشه دوری کنند.

نکته: نیازی نیست آدرس کامل صفحه‌ها را در مقابل دستورات Disallow و Allow بنویسید.

ربات تی ایکس تی

۳. مشخص کردن بخش‌های مجاز با Allow

ربات گوگل دستوری به نام Allow را درک می‌کند که به شما امکان می‌دهد یک فایل خاص را در پوشه‌ای که دسترسی آن برای ربات‌ها بسته شده، باز کنید. به عنوان مثال، اگر می‌خواهید به یک تصویر خاص در پوشه photos اجازه دسترسی دهید:

User-agent: *Disallow: /photosAllow: /photos/novin.jpg

این کد به ربات گوگل می‌گوید که با وجود عدم دسترسی به کل پوشه photos، اجازه دارد فایل novin.jpg را مشاهده و ایندکس کند.

۴. تعیین نقشه سایت

گوگل چندین روش برای دسترسی به نقشه سایت فراهم کرده است و یکی از این روش‌ها این است که آدرس نقشه سایت را در فایل robots.txt قرار دهید. البته الزامی برای ارائه نقشه سایت از طریق فایل robots.txt وجود ندارد و می‌توانید این آدرس را مستقیماً در ابزار سرچ کنسول گوگل وارد کنید.

ربات تی ایکس تی

برای مثال:

Sitemap: https://example.com/sitemap.xml

در ادامه، نحوه ایجاد فایل robots.txt، محل قرارگیری آن در سایت و چگونگی تست دسترسی ربات‌ها به این فایل را توضیح خواهیم داد.

فایل Robots.txt کجاست؟

اگر علاقمندید که نگاهی به فایل robots.txt سایت خود یا هر سایت دیگری بیندازید، پیدا کردن آن کار دشواری نیست.

برای مشاهده این فایل، کافی است آدرس سایت مورد نظر را در مرورگر خود وارد کنید (مثلاً maham.marketing یا هر سایت دیگر) و سپس عبارت /robots.txt را به انتهای URL اضافه کنید.

با انجام این کار فایل robots را در مرورگر می‌بینید. درست مثل تصویر زیر.

ربات تی ایکس تی

با بررسی فایل‌های robots.txt سایت‌های دیگر می‌توانید از دستورات و ساختار آن‌ها برای سایت خود الگوبرداری کنید.

فایل robots.txt در دایرکتوری ریشه (Root) سایت شما قرار دارد. برای دسترسی به این دایرکتوری، وارد حساب هاستینگ وب‌سایت‌تان شوید و به بخش مدیریت فایل‌ها بروید.

به احتمال زیاد با چنین صفحه‌ای روبرو خواهید شد.

ربات تی ایکس تی

پس از پیدا کردن فایل robots.txt، آن را برای ویرایش باز کرده، دستورات جدید را اضافه کرده و تغییرات را ذخیره کنید.

نکته: ممکن است فایل اصلی robots.txt را در دایرکتوری ریشه وب‌سایت پیدا نکنید. این اتفاق به این دلیل است که برخی سیستم‌های مدیریت محتوا به‌طور خودکار یک فایل robots.txt مجازی تولید می‌کنند. در این شرایط، بهتر است خودتان یک فایل robots.txt جدید ایجاد کنید تا همیشه به آن دسترسی مستقیم داشته باشید.

ساخت فایل Robots.txt

برای ساختن فایل robots.txt به هیچ نرم‌افزار خاصی نیاز ندارید؛ یک ویرایشگر ساده متنی مانند Notepad در ویندوز یا هر ویرایشگری که امکان ذخیره فایل با فرمت TXT را داشته باشد، کافی است. هنگام ایجاد فایل robots.txt، حتماً از فرمت UTF-8 برای انکودینگ استفاده کنید.

ابتدا یک فایل جدید با فرمت TXT ایجاد کنید و سپس آن را باز کنید. طبق دستورالعمل‌های مربوطه، دستورات مورد نظر را در آن وارد کنید.

در ادامه، می‌توانید یک نمونه از فایل robots.txt ساده را مشاهده کنید.

آپلود فایل Robots.txt در سایت

فایل robots.txt باید در دایرکتوری ریشه (Root) سایت شما قرار بگیرد، یعنی دقیقاً در پوشه اصلی سرور میزبانی وب‌سایت. به این ترتیب، آدرس فایل به شکل زیر خواهد بود:

https://www.example.com/robots.txt

اگر این فایل در پوشه دیگری مانند pages قرار گیرد، ربات‌های گوگل قادر به دسترسی به آن نخواهند بود. برای مثال:

https://example.com/pages/robots.txt

فرقی نمی‌کند که از سرور اختصاصی، اشتراکی یا مجازی استفاده می‌کنید؛ فقط مطمئن شوید که فایل robots.txt را در دایرکتوری اصلی سایت بارگذاری کرده‌اید.

برای مشاهده فایل robots.txt هر سایتی، کافی است عبارت /robots.txt را به انتهای URL آن سایت اضافه کنید.

شاید برای شما جالب باشد که بازاریابی محتوا چیست؟ بازاریابی محتوا یک استراتژی کلیدی در بهبود سئو است که با تولید محتوای ارزشمند و مرتبط، به بهبود رتبه سایت شما در الگوریتم‌های گوگل کمک می‌کند.

تست فایل Robots با ابزار گوگل

برای اطمینان از اینکه یک صفحه یا فایل خاص توسط فایل robots.txt مسدود شده است و همین‌طور برای بررسی دسترسی‌پذیری فایل robots.txt، می‌توانید از ابزار تست‌کننده در سرچ کنسول گوگل استفاده کنید.

اگر وب‌سایت خود را به سرچ کنسول گوگل متصل کرده‌اید، با باز کردن این ابزار تست از شما خواسته می‌شود که سایت مورد نظر را انتخاب کنید. پس از انتخاب، به صفحه‌ای هدایت می‌شوید که محتوای فعلی فایل robots.txt که گوگل دریافت و بررسی کرده را نمایش می‌دهد. در این صفحه، امکان ویرایش فایل نیز وجود دارد و با زدن دکمه Submit صفحه‌ای برای شما باز خواهد شد.

در این صفحه سه دکمه به شما نمایش داده می‌شود:

  • با دکمه اول می‌توانید فایل جدید robots.txt را دانلود کنید.
  • سپس باید این فایل را در سرور میزبان خود جایگزین فایل قبلی کنید.
  • با زدن دکمه View uploaded version می‌توانید نسخه جدید را مشاهده کنید.

در نهایت، دکمه Submit را بزنید تا گوگل فایل جدید را دریافت و بررسی کند. پس از موفقیت‌آمیز بودن این مراحل، تاریخ و ساعت آخرین بررسی فایل robots.txt به‌روزرسانی خواهد شد. برای اطمینان بیشتر می‌توانید دوباره از همین ابزار استفاده کنید.

این ابزار نمی‌تواند فایل robots.txt را مستقیماً ویرایش کند؛ پس از کلیک روی Submit، پنجره‌ای ظاهر می‌شود که از شما می‌خواهد فایل جدید ویرایش‌شده را دانلود کرده و به جای فایل قبلی در سرور خود جایگزین کنید.

اگر بخواهید صفحات مشخصی را نیز تست کنید، کافی است آدرس صفحه را در نوار پایینی وارد کرده و ربات گوگلی که مد نظر دارید را انتخاب کنید. هر بار که دکمه Test را بزنید، بلافاصله به شما نشان می‌دهد که آیا به آن ربات اجازه دسترسی داده‌اید یا خیر.

به‌عنوان مثال، می‌توانید بررسی کنید که آیا ربات گوگل برای تصاویر به یک صفحه خاص دسترسی دارد یا خیر. ممکن است به ربات اصلی گوگل برای دسترسی به صفحه اجازه داده باشید، اما ربات تصاویر اجازه دسترسی و نمایش تصاویر را در نتایج جستجو نداشته باشد.

چطور از گوگل بخواهیم صفحه‌ای را در نتایج جستجو نمایش ندهد؟

گوگل اعلام کرده است که استفاده از دستورات noindex و disallow در فایل robots.txt برای حذف کامل صفحات از نتایج جستجو کافی نیست. برای حذف یک صفحه از نتایج جستجو، باید دستور noindex را مستقیماً در همان صفحه قرار دهید.

ساده‌ترین روش برای حذف یک صفحه از نتایج جستجو، استفاده از متا تگ‌های noindex در بخش head صفحه است. برای این کار، می‌توانید کد HTML صفحه را مستقیماً ویرایش کرده یا از افزونه‌ها برای افزودن دستور noindex استفاده کنید؛ در واقع، افزونه‌ها نیز تنها همین کد را به بخش head صفحه اضافه می‌کنند.

اگر با کدهای HTML کمی آشنایی دارید، می‌دانید که هر صفحه شامل دو بخش head و body است. دستور noindex باید در قسمت head قرار بگیرد تا به ربات‌ها اعلام کند که این صفحه در نتایج جستجو نمایش داده نشود.

ربات تی ایکس تی

کلام آخر

در این مقاله، هرآنچه که برای کنترل ربات‌های جستجوگر گوگل و مدیریت دسترسی آنها به صفحات سایت لازم بود، به زبان ساده توضیح دادیم. فایل robots.txt را کافی است تنها یک‌بار آماده کنید و پس از آن دیگر نیازی به ویرایش آن نخواهید داشت، مگر اینکه تغییرات بزرگی در ساختار سایت ایجاد کنید.

سوالات متداول درباره فایل Robots.txt

فایل Robots.txt چیست و چه کاربردی دارد؟

فایل Robots.txt یک فایل متنی است که در ریشه سایت قرار می‌گیرد و به ربات‌های موتورهای جستجو اعلام می‌کند کدام صفحات یا بخش‌های سایت را باید یا نباید خزش کنند. این فایل به شما کمک می‌کند تا دسترسی ربات‌ها به قسمت‌های خاصی از سایت را مدیریت کنید و از بار اضافی روی سرور جلوگیری نمایید.

آیا نبود فایل Robots.txt در سایت مشکلی ایجاد می‌کند؟

نبود فایل Robots.txt باعث نمی‌شود که سایت شما به درستی توسط ربات‌های جستجو خزش نشود. در این صورت، ربات‌ها بدون هیچ محدودیتی تمام صفحات سایت را بررسی می‌کنند. اما اگر قصد دارید دسترسی ربات‌ها به بخش‌های خاصی از سایت را محدود کنید، بهتر است از این فایل استفاده کنید.

چگونه می‌توانیم ربات‌های گوگل را از بررسی برخی صفحات سایت منع کنیم؟

برای این کار، می‌توانید دستور Disallow را در فایل Robots.txt استفاده کنید. به این ترتیب، صفحات یا پوشه‌هایی که نمی‌خواهید توسط ربات‌های گوگل بررسی شوند، از دسترس آنها خارج می‌شوند.

نظرات کاربران

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

آنچه در این مقاله میخوانیم

ما هر روز کلی مطالب آموزشی جالب در اینستاگراممون منتشر می‌کنیم!