تریبون > بلاگ > سئو تکنیکال > فایل robots.txt چیست؟

به‌ روزرسانی شده در ۲۹ اردیبهشت ۱۴۰۴

فایل robots.txt چیست؟

واقعیت این است که فقط آدم‌ها از سایت شما بازدید نمی‌کنند. تعجب نکنید! ربات‌هایی هم وجود دارند که در روز بارها و بارها به صفحات وب‌سایت شما سر می‌زنند و هر کدام هم وظیفه‌ای دارند. مثلا ربات گوگل کارش این است که صفحات جدید در اینترنت را پیدا کند. این کار به ایندکس شدن این صفحات در گوگل کمک می‌کند و افراد می‌توانند آن صفحات را ببینند.

در واقع اگر این ربات‌ها نباشند، صفحات ارزشمند سایت شما که برای تولید آن‌ها خیلی زحمت کشیده‌اید، اصلا روی بستر اینترنت دیده نمی‌شوند. اما از آنجا که این ربات‌ها ممکن است برخی چیزهایی که ما دوست نداریم را به دیگران نشان بدهند، برای کنترل کردنشان نیاز داریم تا با زبان رباتی با آن‌ها حرف بزنیم. فایل robots.txt همان بستری است که کمک می‌کند تا ربات‌ها زبان ما بفهمند.

Robots.txt یک فایل متنی است و برای ربات‌های خزنده‌ای که برای بررسی یا کارهای دیگر به وب‌سایت شما سر می‌زنند، نقش راهنما را بازی می‌کند.

فایل robots.txt بخشی از پروتکل REF یا robots exclusion protocol است، گروهی از استانداردهای وب که نحوه کرال کردن ربات‌ها و همچنین دسترسی و ایندکس کردن محتوای صفحات توسط ربات‌ها را تنظیم می‌کنند و این محتوا را به کاربران ارائه می‌دهند. لینک‌های فالو و نوفالو نیز بخشی از پروتکل REP هستند.

فایل robots.txt را وب‌مسترها می‌سازند و با این فایل به ربات‌ها دستور می‌دهند که چه صفحاتی را کرال یا ایندکس کنند و در چه صفحاتی نباید وارد شوند. در عمل، فایل robots.txt نشان می‎‌دهد که آیا برخی از نرم‌افزارهای کرال کردن وب می‎‌توانند قسمت‌هایی از یک وب‌سایت را کرال کنند یا خیر. این دستورالعمل‌ها با «disallow» یا «allow» مشخص می‌شوند.

اصلا دستور دادن به ربات‌ها چه فایده‌ای دارد؟ مگر اشکالی دارد که ربات‌ها همینطور برای خودشان در وبسایت ما بچرند؟ بله. اشکال دارد! اگر ربات‌ها را کنترل نکنید، سرور هاست سایت شما درگیر ربات‌هایی می‌شود که فایده‌ای برای سایت‌تان ندارند. همچنین روی بهینه‌سازی سئوی سایت شما هم تاثیر می‌گذارد.

در این مقاله با مطالب زیر آشنا می‌شوید:

فایل robots.txt چیست؟

علاوه بر کاربرانی که از سایت شما بازدید می‌کنند، ربات‌هایی هم وجود دارند که در روز بارها و بارها به صفحات سایت شما سر می‌زنند و هر کدام کاری انجام می‌دهند. در واقع اگر این ربات‌ها نباشند، صفحات ارزشمند سایت شما اصلا روی بستر اینترنت دیده نمی‌شوند. اما از آنجایی که این ربات‌ها ممکن است همه‌چیز را به کاربران نشان دهند، نیاز است دستوراتی برایشان نوشت. فایل robots.txt همان بستری است که کمک میکند تا ربات‌ها زبان ما را بفهمند.

Robots.txt یک فایل متنی است که برای ربات‌های خزنده‌‌ای که سایتتان را بررسی می‌کنند، نقش راهنما را بازی می‌کند. این راهنما شامل دستوراتی است که وظایف ربات‌ها را مشخص می‌کند. اگر فعالیت ربات‌ها کنترل نشود حتی روی سئوی سایتتان نیز تاثیر خواهد گذاشت. در ادامه مقاله با ما همراه باشید تا بیشتر با نحوه عملکرد فایل robots.txt، دستورات آن، نحوه رفع ارورها و به طور کلی دلایل نیاز به robots.txt آشنا شوید.

robots.txt چگونه کار می‌کند؟

فایل robots.txt مجموعه‌ای از دستورالعمل‌ها برای خزنده‌های وب (ربات‌ها) است. این فایل بخشی از پروتکل استانداردی به‌نام REP یا robots exclusion protocol است؛ مجموعه‌ای از قوانین وب که به موتورهای جستجو اعلام می‌کند به کدام بخش‌های سایت اجازه دسترسی دارند و از کدام بخش‌ها باید دوری کنند. این تعامل به مدیریت بهتر نحوه‌ ایندکس‌شدن صفحات کمک می‌کند و باعث می‌شود خزنده‌ها بر بخش‌های مهم و مرتبط سایت تمرکز کنند.

موتورهای جستجو برای خزش سایت‌ها، از طریق لینک‌ها به صفحات مختلف دسترسی پیدا می‌کنند و با دنبال‌کردن آن‌ها از یک صفحه به صفحه‌ دیگر می‌روند. به‌ این‌ ترتیب، کل سایت از طریق شبکه‌ای از لینک‌ها خزیده می‌شود، روشی که به آن خزش عنکبوتی نیز گفته می‌شود.

زمانی که خزنده‌ای مانند Googlebot وارد یک سایت می‌شود، ابتدا به دنبال فایل robots.txt در روت دامنه می‌گردد. اگر این فایل موجود باشد، آن را پیش از خزش سایر صفحات می‌خواند. از آن‌جایی که robots.txt می‌تواند حاوی دستورالعمل‌هایی در مورد مجاز یا غیرمجاز بودن دسترسی به بخش‌های مختلف سایت باشد، این اطلاعات مسیر خزش ربات را هدایت می‌کند.

اگر فایل robots.txt وجود نداشته باشد یا هیچ دستورالعملی برای محدودکردن فعالیت خزنده‌ها در آن ثبت نشده باشد، ربات با فرض مجازبودن خزش، ادامه‌ سایت را بررسی می‌کند و به خزش سایر بخش‌ها می‌پردازد.

نکات بیشتر درباره فایل robots.txt

یک فایل txt باید در top-level directory ‏سایت قرار بگیرد.
txt نسبت به حروف کوچک و بزرگ حساس است: پرونده باید «robots.txt» نامگذاری شود (نه به شکل Robots.txt، robots.TXT).
برخی از ربات‌ها ممکن است توجهی به فایل txt شما نکنند. این موضوع مخصوصا در ربات‎‌های مخرب، خیلی زیاد دیده می‌شود.
فایل robots.txt به‌صورت عمومی در دسترس است: فقط کافیست /robots.txt را به انتهای دامنه اصلی اضافه کنید تا دستورالعمل‌های آن سایت را ببینید. یعنی هر کسی می‌تواند ببیند شما چه صفحاتی برای کرال‌شدن یا نشدن مشخص کرده‌اید. بنابراین از آن برای مخفی‌کردن اطلاعات خصوصی کاربر استفاده نکنید.

تفاوت robots.txt با متا تگ noindex چیه؟

فایل robots.txt و متا تگ noindex هر دو برای مدیریت نحوه تعامل موتورهای جستجو با محتوای سایت استفاده می‌شوند، اما عملکرد و هدف آن‌ها کاملاً متفاوت است.

همان‌طور که گفتیم فایل robots.txt موتور جستجو را راهنمایی می‌کند که کدام بخش‌ها و فایل‌ها را باید کرال کند. این فایل باعث نمی‌شود که محتوا از ایندکس خارج شود یا در نتایج جستجو نشان داده نشود.

متا تگ noindex به موتورهای جستجو می‌گوید که محتوای مورد نظر را در نتایج جستجو نشان ندهند و اگر این محتوا قبلاً ایندکس شده باشد، باید به‌طور کامل آن را از ایندکس خارج کند. این تگ جلوی کرال محتوا را نمی‌گیرد.

مهم‌ترین تفاوت این دو در این است که اگر می‌خواهید محتوایی در نتایج جستجو ظاهر نشود، حتماً باید از تگ noindex استفاده کنید و اجازه دهید موتور جستجو آن محتوا را کرال کند. اگر موتور جستجو نتواند محتوایی را کرال کند، نمی‌تواند تگ متای noindex را ببیند؛ بنابراین نمی‌تواند آن را از نتایج حذف کند.

اما اگر نمی‌خواهید موتور جستجو بخشی از سایت را کرال کند (مثلاً دایرکتوری‌هایی که محتوای مهمی ندارند)، از دستور Disallow در فایل robots.txt استفاده کنید.

آیا ممکن است آدرسی که در robots.txt مسدود شده است، در نتایج جستجو گوگل نمایش داده شود؟

بله، اگر یک صفحه وب با استفاده از فایل robots.txt مسدود شده باشد، آدرس URL آن همچنان می‌تواند در نتایج جستجو نمایش داده شود، اما نتیجه جستجو فاقد توضیحات (description) خواهد بود.

فایل‌های تصویری، ویدئویی، PDF و سایر فایل‌های غیر HTML که در آن صفحه مسدودشده قرار دارند، نیز کرال نخواهند شد.

اگر چنین نتیجه‌ای را برای صفحه خود در جستجو مشاهده کردید و می‌خواهید آن را اصلاح کنید، دستور مربوط به مسدودسازی آن صفحه را از فایل robots.txt حذف کنید. اگر قصد دارید صفحه را به‌طور کامل از نتایج جستجو پنهان کنید، باید از روش دیگری استفاده کنید.

می‌توانید از فایل robots.txt برای مدیریت ترافیک خزش و همچنین جلوگیری از نمایش فایل‌های تصویری، ویدئویی یا صوتی در نتایج جستجوی گوگل استفاده کنید.

توجه داشته باشید که این کار مانع از آن نمی‌شود که سایر صفحات یا کاربران به فایل‌های تصویری، ویدئویی یا صوتی شما لینک دهند.

همچنین می‌توانید با استفاده از فایل robots.txt فایل‌های منابع مانند تصاویر کم‌اهمیت، اسکریپت‌ها یا فایل‌های استایل را مسدود کنید، در صورتی که فکر می‌کنید نبود این منابع تأثیر قابل توجهی بر نمایش صفحه ندارد.

اما اگر نبود این منابع باعث شود که درک محتوای صفحه برای خزنده گوگل سخت‌تر شود، از مسدودکردن آن‌ها خودداری کنید. چرا که در این صورت، گوگل نمی‌تواند به‌درستی صفحات وابسته به این منابع را تحلیل کند.

آیا برای هر ساب‌دامین باید فایل robots.txt جداگانه داشته باشد؟

بله، برای هر ساب‌دامین (Subdomain) باید یک فایل robots.txt جداگانه داشته باشید.

گوگل و دیگر موتورهای جستجو هر ساب‌دامین را به‌عنوان یک سایت مستقل در نظر می‌گیرند؛ بنابراین اگر شما سایت‌هایی مانند blog.example.com یا shop.example.com دارید، باید برای هرکدام فایل robots.txt جداگانه در مسیر اصلی همان ساب‌دامین قرار دهید:

https://blog.example.com/robots.txt
https://shop.example.com/robots.txt

اگر فقط فایل robots.txt را در https://example.com/robots.txt قرار دهید، این فایل تنها بر دامنه اصلی تأثیر می‌گذارد و هیچ اثری بر ساب‌دامین‌ها نخواهد داشت.

پس اگر می‌خواهید دسترسی خزنده‌ها را برای بخش خاصی از یک ساب‌دامین مدیریت کنید، باید مستقیماً در همان ساب‌دامین فایل robots.txt مربوط به خودش را تعریف و تنظیم کنید.

چگونه در سرچ کنسول صفحاتی که تحت تاثیر فایل robots.txt به ارور خورده‌اند را بررسی کنیم؟

برای شناسایی خطاهای مربوط به فایل robots.txt در گوگل سرچ کنسول، مراحل زیر را دنبال کنید:

وارد حساب گوگل سرچ کنسول خود شوید و property مورد نظر را انتخاب کنید.
در پنل سمت چپ، زیر تب «Index»، روی گزینه‌ی «Pages» کلیک کنید.
به پایین صفحه اسکرول کنید تا صفحات دارای خطای ایندکس را ببینید. از میان لیست مشکلات ایندکس، به دنبال خطاهای «Blocked by robots.txt» و «Indexed, though blocked by robots.txt» بگردید.
روی هرکدام از این خطاها کلیک کنید تا لیستی از URLهایی که تحت تأثیر قرار گرفته‌اند نمایش داده شود.

چگونه ارورهای گوگل برای فایل robots.txt را در سرچ کنسول چک کنیم؟

اگر دستورات داخل فایل robots.txt با syntax نادرست نوشته شده باشند (مثلاً اشتباه در نوشتن دستورات User-agent یا Disallow)، گوگل در سرچ کنسول در بخش setting گزینه robots.txt را انتخاب کنید، بر روی آدرس فایل robots.txt سایت خودتان کلیک کنید و گزارشی که در سمت راست صفحه باز می‌شود را بررسی کنید. اگر دستوری دارای مشکل syntaxی باشد گوگل با نمایش علامتی قرمز رنگ در کنار آن دستور، آن را برای شما مشخص می‌کند. در صورت مشاهده اخطارها و ارورها، دستورات را اصلاح کرده و سپس درخواست Recrawl فایل را ثبت کنید.

چگونه برای گوگل درخواست کرال مجدد فایل robots.txt ارسال کنیم؟

زمانی که یک خطا را اصلاح کرده یا تغییر مهمی در فایل robots.txt ایجاد کرده‌اید، می‌توانید درخواست کرال مجدد (Request a Recrawl) دهید.

در حالت کلی، نیازی به درخواست کرال مجدد فایل robots.txt ندارید؛ زیرا گوگل به‌صورت مکرر این فایل را بررسی می‌کند.

اما در شرایط زیر، ممکن است بخواهید این کار را انجام دهید:

قوانین فایل robots.txt را تغییر داده‌اید تا برخی از URLهای مهم را از حالت مسدود خارج کنید و می‌خواهید گوگل سریع‌تر از این تغییر مطلع شود (توجه داشته باشید که این به معنی کرال مجدد فوری آن URLها نیست).
خطای واکشی (fetch error) یا خطای مهم دیگری را برطرف کرده‌اید.

برای درخواست کرال مجدد، از نوار سمت چپ وارد تنظیمات (Setting) شوید، از بخش کرالینگ (crawling) روی Open report برای گزینه robots.txt بزنید و وضعیت و جزئیات گزارش robots.txt را مشاهده کنید.

سپس در فهرست فایل‌های robots.txt، روی آیکون تنظیمات بیشتر (More settings) در کنار فایل مورد نظر کلیک کرده و گزینه Request a recrawl را انتخاب کنید.

چه دستوراتی در فایل robots.txt وجود دارد؟

فایل‌های robots.txt از دستورهای ساده‌ای برای انتقال پیام به کرالرهای وب استفاده می‌کنند. صاحبان سایت با استفاده از این دستورها می‌توانند قوانینی که ربات‌ها باید از آن‌ها پیروی کنند را تعریف کنند.
در هر فایل robots معمولا ۵ دستور وجود دارد.

User-agent: مشخص می‌کند این قانون برای کدام ربات اعمال شود (مثلاً Googlebot، Bingbot یا همه ربات‌ها).
Disallow: از دسترسی کرالرها به فایل‌ها، صفحات یا دایرکتوری‌های خاص جلوگیری می‌کند. برای هر URL فقط یک خط «Disallow:» مجاز است.
Allow: بر خلاف دستور Disallow عمل می‌کند و اجازه دسترسی به یک صفحه یا منبع خاصی که Disallow شده است، را می‌دهد.
Crawl-delay: با ایجاد فاصله زمانی بین درخواست‌ها، تعداد دفعات دسترسی ربات‌ها به سرور را کنترل می‌کند.
Sitemap: محل نقشه سایت را به خزنده‌ها معرفی می‌کند تا فرآیند کرال و ایندکس بهتر انجام شود.

قالب اصلی نوشتن دستور به ربات‌ها در فایل robots.txt:

User-agent: [user-agent name]

Disallow: [آدرس صفحه‌ یا فولدری که نمی‌خواهید توسط ربات‌ها بررسی شود]

هر فایل robots می‌تواند شامل چندین خط user agent و دستورالعمل باشد (دستوراتی مثل disallows, allows, crawl-delays و…).

در ادامه وظیفه هر کدام از دستورهای فایل robots.txt را دقیق‌تر بررسی کرده‌ایم.

دستور User-agent

دستور User-agent باید اولین خط در هر گروه قانون باشد. زیرا نام رباتی که قرار است از دستورالعمل‌ها پیروی کند را مشخص می‌کند. از این دستور به دو شکل در فایل robots.txt استفاده می‌شود:

استفاده از علامت ستاره یا «*» به‌عنوان نام user-agent به‌معنای اعمال قانون برای تمام خزنده‌ها است. مثال:

User-agent:*

اما اگر قصد دارید دستورهای موجود را فقط برای یک ربات خاص اعمال کنید باید نام ربات را به‌صورت کامل و دقیق بنویسید. مثال:

User-agent: Googlebot

دستور Disallow

این دستور به ربات‌ها می‌گوید که چه بخش‌هایی از سایت را نباید کرال کنند. اگر قانون برای یک صفحه خاص باشد، باید آدرس کامل صفحه (مانند آنچه در مرورگر نمایش داده می‌شود) نوشته شود. این آدرس باید با کاراکتر / شروع شود و اگر به یک پوشه اشاره دارد، باید با کاراکتر / پایان یابد.

Disallow: /private/

Disallow: /admin.html

به‌عنوان مثال اگر نمی‌خواهید موتورهای جستجو، ویدیوهای موجود در سایت‌تان را ایندکس کنند، همه این ویدیوها را درون یک فولدر (با نام فرضی videos) در هاستینگ خود قرار دهید و با استفاده از دستور زیر مانع از دسترسی ربات‌ها به فولدر شوید.

User-agent:*

Disallow: /videos

دستور Allow

این دستور مشخص می‌کند که کدام دایرکتوری یا صفحه می‌تواند توسط کرالر مورد نظر بررسی شود. این قانون معمولاً برای لغو یک دستور Disallow و اجازه‌دادن به کرال یک پوشه یا صفحه خاص در یک مسیر مسدود شده به‌ کار می‌رود.

ربات گول نسبت به سایر ربات‌ها درک بیشتری دارد و می‌تواند دستور Allow را هم بررسی کند. این دستور به ربات گوگل می‌گوید که اجازه مشاهده یک فایل، در فولدری که Disallowed شده را دارد.
طبق مثال قبل، تصور کنید یک فایل به اسم X.mp4 در پوشه videos وجود دارد که می‌خواهیم ربات آن را ایندکس کند. در واقع می‌خواهیم این فایل را مستثنی کنیم. برای این کار، دستور زیر را می‌نویسیم:

User-agent:*

Disallow: /videos

Allow: /videos/X.mp4

دستور crawl-delay

در حالی‌ که دستور crawl-delay یکی از دستورات متداول در فایل robots.txt است، Googlebot این دستور را نادیده می‌گیرد و از آن پشتیبانی نمی‌کند.

با این حال، برخی از موتورهای جستجوی دیگر (مانند Bing و Yandex) این دستور را قبول دارند و از آن برای کنترل فاصله زمانی بین درخواست‌های خزنده استفاده می‌کنند تا فشار کمتری به سرور وارد شود.
اگر می‌خواهید نرخ خزش خزنده گوگل را کنترل کنید، باید از طریق Google Search Console اقدام کنید (در قسمت تنظیمات Crawl rate).

نمونه استفاده از دستور crawl-delay:

User-agent: Bingbot

Crawl-delay: 10

دستور Sitemap

آدرس sitemap باید به‌صورت یک URL کامل و معتبر باشد؛ زیرا گوگل به‌صورت خودکار نسخه‌های مختلف مانند http/https یا www/non-www را در نظر نمی‌گیرد یا بررسی نمی‌کند.

نقشه‌های سایت روشی مؤثر برای معرفی محتوایی هستند که می‌خواهید گوگل آن‌ها را بیشتر و بهتر خزش کند، نه صرفاً اینکه مجاز به خزش آن‌ها باشد یا نباشد.

نحوه نوشتن کامنت در فایل robots.txt

در فایل robots.txt می‌توانید برای مستندسازی یا توضیح قوانین، کامنت (توضیحاتی که توسط موتورهای جستجو نادیده گرفته می‌شوند) اضافه کنید. برای نوشتن کامنت، کافی‌ست در ابتدای خط علامت # قرار دهید. هر متنی که پس از این علامت بیاید، صرفاً برای انسان‌ها خواناست و توسط ربات‌های خزنده نادیده گرفته می‌شود.

می‌توانید کامنت‌ها را در هر بخشی از فایل قرار دهید (قبل یا بعد از دستورالعمل‌ها).
بهتر است کامنت‌ها را برای مستندسازی هدف هر دستور استفاده کنید، تا در آینده خودتان یا اعضای تیم راحت‌تر متوجه دلیل تنظیمات شوید.
اگر متنی که می‌نویسید با # شروع نشود، به‌عنوان بخشی از قوانین تلقی شده و ممکن است خطا ایجاد کند.

مثال

# این دستورالعمل تمام خزنده‌ها را از دسترسی به پوشه ادمین منع می‌کند

User-agent: *

Disallow: /admin/

دستورات کاربردی فایل robots.txt

در اینجا چند دستور کاربردی و رایج در فایل robots.txt ارائه شده است.

جلوگیری از خزیدن کل سایت

توجه داشته باشید که در برخی موارد، ممکن است URLهای سایت حتی بدون خزیده‌شدن، ایندکس شوند.

User-agent: *

Disallow: /

جلوگیری از خزیدن یک پوشه و محتوای آن

برای جلوگیری از خزیدن یک پوشه کامل، یک اسلش (/) به انتهای نام پوشه اضافه کنید.

به خاطر داشته باشید که از robots.txt برای مسدودکردن دسترسی به محتوای خصوصی استفاده نکنید؛ در عوض از احراز هویت مناسب استفاده کنید. URLهایی که توسط فایل robots.txt مسدود شده‌اند ممکن است بدون خزیده‌شدن ایندکس شوند و فایل robots.txt می‌تواند توسط هر کسی مشاهده شود، که ممکن است مکان محتوای خصوصی شما را فاش کند.

User-agent: *

Disallow: /calendar/

Disallow: /junk/

Disallow: /books/fiction/contemporary/

اجازه دسترسی به یک ربات خاص

فقط googlebot-news می‌تواند کل سایت را خزیش کند.

User-agent: Googlebot-news

Allow: /

User-agent: *

Disallow: /

اجازه دسترسی به همه به جز یک خزنده خاص

Unnecessarybot نمی‌تواند سایت را خزش کند؛ اما سایر ربات‌ها می‌توانند.

User-agent: Unnecessarybot

Disallow: /

User-agent: *

Allow: /

جلوگیری از خزیدن یک صفحه وب خاص

برای مثال، جلوگیری از خزیدن صفحه useless_file.html واقع در https://example.com/useless_file.html و other_useless_file.html در پوشه junk.

User-agent: *

Disallow: /useless_file.html

Disallow: /junk/other_useless_file.html

جلوگیری از خزیدن کل سایت به جز یک زیرپوشه

خزنده‌ها فقط می‌توانند به زیرپوشه public دسترسی داشته باشند.

User-agent: *

Disallow: /

Allow: /public/

مسدود کردن یک تصویر خاص از Google Images

برای مثال، جلوگیری از خزیدن تصویر dogs.jpg.

User-agent: Googlebot-Image

Disallow: /images/dogs.jpg

مسدود کردن تمام تصاویر سایت از Google Images

گوگل نمی‌تواند تصاویر و ویدیوها را بدون خزیدن آن‌ها ایندکس کند.

User-agent: Googlebot-Image

Disallow: /

جلوگیری از خزیدن فایل‌های با نوع خاص

برای مثال، جلوگیری از خزیدن تمام فایل‌های .gif.

User-agent: Googlebot

Disallow: /*.gif$

جلوگیری از خزیدن کل سایت، اما اجازه به Mediapartners-Google

این پیاده‌سازی صفحات شما را از نتایج جستجو پنهان می‌کند، اما خزنده وب Mediapartners-Google هنوز می‌تواند آن‌ها را تحلیل کند تا تصمیم بگیرد چه تبلیغاتی به بازدیدکنندگان سایت شما نشان دهد.

User-agent: *

Disallow: /

User-agent: Mediapartners-Google

Allow: /

استفاده از کاراکترهای * و $ برای تطبیق URLهایی که با رشته خاصی پایان می‌یابند

برای مثال، جلوگیری از خزیدن تمام فایل‌های .xls.

User-agent: Googlebot

Disallow: /*.xls$

چگونه مسدود بودن یا نبودن آدرس‌ها توسط robots.txt برای خزنده‌های گوگل را تست کنیم؟

برای بررسی اینکه آیا یک آدرس توسط فایل robots.txt برای خزنده‌های گوگل مسدود شده یا نه، می‌توانید از ابزار بازرسی URL یا URL Inspection Tool در Google Search Console استفاده کنید. این ابزار به شما نشان می‌دهد که آیا گوگل توانسته آن آدرس را کرال کند یا خیر و اگر محدودیتی وجود داشته باشد، دلیل آن (از جمله robots.txt) را مشخص می‌کند.

اگر توسعه‌دهنده هستید، می‌توانید از کتابخانه متن‌باز robots.txt گوگل استفاده کنید؛ این همان کتابخانه‌ای است که در سیستم جستجوی گوگل نیز استفاده می‌شود. با این ابزار می‌توانید فایل‌های robots.txt را به‌صورت محلی روی کامپیوتر خود آزمایش و اعتبارسنجی کنید. این روش به‌ویژه برای تست فایل‌های robots.txt پیش از انتشار روی سرور بسیار مفید است.

چگونه بفهمیم کدام فایل robots.txt روی آدرس یک صفحه یا تصویر اثر می‌گذارد؟

برای اینکه بفهمید کدام فایل robots.txt روی آدرس یک صفحه یا تصویر تاثیر دارد، مراحل زیر را انجام دهید.

URL دقیق صفحه یا تصویر را پیدا کنید.
در مرورگر Google Chrome روی تصویر کلیک راست کنید و گزینه Copy image URL را انتخاب کنید.
بعد از آدرس دامنه /robots.txt را اضافه کنید.
به‌عنوان مثال، فایل robots.txt برای آدرس https://images.example.com/flowers/daffodil.png می‌شود:
https://images.example.com/robots.txt
URL فایل robots.txt را در مرورگر باز کنید تا مطمئن شوید که وجود دارد.
اگر مرورگر نتواند فایل را باز کند، یعنی این فایل در آن مسیر وجود ندارد.

robots.txt در کجای یک سایت قرار می‌گیرد؟

پیدا کردن فایل robots.txt کار چندان سختی نیست. فقط کافی‌ست آدرس اصلی سایت خود (یا هر سایت دیگری) را بنویسید و به انتهای آن یک robots.txt/ قرار دهید. به این شکل:

triboon.net/robots.txt

از اینجا می‌توانید جزییات فایل robots.txt هر سایتی را به راحتی مشاهده کنید. اگر می‌خواهید برای ادیت فایل robots.txt سایت خودتان اقدام کنید، این فایل در قسمت Root سایت شما قرار دارد. با ورود به این بخش می‌توانید فایل robots خودتان را پیدا کنید و دستورات جدیدی به آن اضافه یا دستورات قبلی را حذف کرده و سپس فایل را ذخیره کنید.

چرا به robots.txt نیاز دارید؟

فایل robots.txt دسترسی ربات‌های خزنده به مناطق خاصی از سایت شما را کنترل می‎کنند. اگر به طور تصادفی اجازه ندهید Googlebot یا همان ربات گوگل به جستجوی کل سایت شما بپردازد، ممکن است به سایت‌تان آسیب برسد. شرایطی وجود دارد که یک فایل robots.txt می‌تواند برای سایت شما بسیار مفید عمل کند. برخی موارد استفاده معمول از فایل robots.txt به شرح زیر است:

جلوگیری از نمایش محتوای تکراری در SERP (به این نکته توجه داشته باشید که ربات‌‎های متا معمولا گزینه بهتری برای این کار هستند).
خصوصی نگه داشتن بخش‌هایی از یک سایت که نمی‌خواهید گوگل آن را ببیند یا ایندکس کند.
جلوگیری از نمایش صفحات نتایج جستجوی داخلی در یک SERP عمومی
تعیین محل نقشه سایت
جلوگیری از ایندکس‌شدن برخی فایل‌های خاص در سایت (تصاویر، PDF و…) توسط موتورهای جستجو
تعیین تاخیر خزش یا crawl delay به منظور جلوگیری از بار اضافی سرورهای شما هنگام کرال شدن همزمان چندین محتوا

بهترین روش‌های SEO برای فایل robots.txt

مطمئن شوید هیچ محتوا یا بخشی از سایت خود را که می‌خواهید کرال شود، مسدود نکرده‌ باشید.
لینک‌های صفحات مسدود شده توسط txt دنبال نمی‌شوند؛ مگر اینکه از سایر صفحات قابل دسترسی به موتور جستجو لینک داده شوند که در این صورت لینک‌های منبع کرال نخواهند شد و ممکن است ایندکس نشوند.
برای جلوگیری از نمایش داده‌‎های حساس (مانند اطلاعات خصوص کاربر) در نتایج SERP از txt استفاده نکنید. با وجود دستور Disallow هنوز ممکن است گوگل صفحه شما را ایندکس کند. اگر می‌خواهید خیال‌تان برای ایندکس نشدن یک صفحه در گوگل راحت شود، از روش دیگری مانند رمز عبور محافظت شده یا دستورالعمل متنی noindex استفاده کنید.
بعضی از موتورهای جستجو چندین user-agents دارند. مثلا گوگل از Googlebot برای جستجوی ارگانیک و از Googlebot-Image برای جستجوی تصویر استفاده می‌کند. اکثر ربات‌های یک موتور جستجو از قوانین یکسانی پیروی می‌کنند، بنابراین نیازی به تعیین دستورالعمل‌های مختلف برای ربات‌های متعدد یک موتور جستجو نیست، اما داشتن توانایی انجام این کار به شما امکان می‌دهد نحوه کرال شدن محتوای سایت خود را به خوبی تنظیم کنید.
یک موتور جستجو، محتوای txt را کش می‌کند، اما معمولا حداقل یک بار در روز محتوای ذخیره شده را به روز خواهد کرد. اگر فایل را تغییر دهید و بخواهید سریع‌تر آن را به روز کنید، می‎توانید آدرس robots.txt خود را در گوگل Submit کنید.

سخن پایانی

در دنیای سئو، جزئیات فنی مانند فایل robots.txt می‌توانند نقش تعیین‌کننده‌ای در دیده‌شدن یا نشدن یک سایت داشته باشند. هرچند این فایل فقط چند خط ساده است، اما می‌تواند مسیر خزیدن موتورهای جستجو را به‌درستی هدایت کند یا در صورت تنظیم نادرست، باعث از دست رفتن بخش مهمی از ترافیک ارگانیک سایت شود.

درک دقیق تفاوت میان دستورهای Allow، Disallow و سایر قوانین این فایل، به شما کمک می‌کند کنترل بیشتری بر نحوه ایندکس‌شدن محتوای‌تان داشته باشید. به‌ویژه در سایت‌های بزرگ، استفاده هوشمندانه از robots.txt می‌تواند بهره‌وری کرال و سرعت ایندکس‌شدن صفحات کلیدی را به شکل محسوسی بهبود دهد.

اگر تا امروز robots.txt را فقط یک فایل جانبی می‌دیدید، حالا زمان آن رسیده که به آن به‌عنوان یکی از ابزارهای استراتژیک مدیریت سئو نگاه کنید. تنظیم آگاهانه این فایل، قدمی مهم در مسیر بهینه‌سازی فنی سایت شماست.

اخبار مرتبط

گزارش جدید robots.txt به سرچ کنسول آمد
اخبار گوگل
خبرنامه سئو هفته اول آذر ۱۴۰۲
پروتکل robots.txt تغییر می‌کند، گوگل از جوامع دنیا خواست در این خصوص مشارکت کنند
اخبار گوگل
خبرنامه سئو هفته دوم مرداد ۱۴۰۲
نگاهی به خطای اخیر sitemap در robots.txt، راهکاری اشتباه که جهانی شد
اخبار گوگل
خبرنامه سئو هفته چهارم آذر ۱۴۰۲

عضویت در خبرنامه

ایمیل خود را وارد کنید تا از جدیدترین اخبار و مقالات حوزه دیجیتال مارکتینگ مطلع شوید.

"*" قسمتهای مورد نیاز را نشان می دهد

اشتراک‌گذاری‌:

مطالب مرتبط

۹ شهریور ۱۴۰۴

سئو تکنیکال

cdn چیست؟ چرا و چگونه باید از cdn برای سایت استفاده کنیم؟

برای مطالعه مقاله کلیک کنید

۴ تیر ۱۴۰۴

سئو تکنیکال

کدهای وضعیت HTTP و تاثیر آن بر سئو

برای مطالعه مقاله کلیک کنید

۴ تیر ۱۴۰۴

سئو تکنیکال

آیا نوع cms بر سئو سایت تاثیری دارد؟

برای مطالعه مقاله کلیک کنید

0 نظرات

قدیمی‌ترین

تازه‌ترین بیشترین رأی

بازخورد (Feedback) های اینلاین

مشاهده همه دیدگاه ها

دسته بندی مقالات

سئو

ابزارهای سئو

سئو تکنیکال

سئو خارجی

سئو داخلی

محتوای ویدئویی

روابط عمومی

دیجیتال مارکتینگ

تولید محتوا

235 FID چیست؟

236 پارامتر INP چیست؟ چطور INP را بهینه کنیم؟

237 راهنمای ساده و کامل متاتگ‌ها و سئو

238 متا تگ رفرش چه کاربردهایی دارد؟

239 کنونیکال چیست و چه کاربردی در سئوی سایت دارد؟

240 سایت مپ sitemap چیست؟ چگونه نقشه سایت بسازیم؟

241 فایل robots.txt چیست؟

242 برد کرامب چیست و چرا برای سئوی سایت اهمیت دارد؟

243 تاثیر تکنیک صفحات بی‌پایان یا Infinite scroll بر سئو

244 آموزش جامع سئو صفحات pagination در سایت

245 متا تگ open graph؛ چشم نواز کردن لینک‌های به اشتراک‌گذاری شده در شبکه‌های اجتماعی

246 راهنمای جامع نحوه اجرای استراتژی سئو بین المللی

247 آموزش سئو سایت‌های چند زبانه و بین المللی

248 تگ Hreflang چیست و چگونه آن را پیاده سازی کنیم؟

249 ارور 404 چیست و چگونه آن را برطرف کنیم؟

250 AMP چیست و تأثیر آن در سئو سایت

251 فشرده سازی GZIP چیست؟ چگونه سایت خود با فشرده سازی GZIP بهینه کنیم؟

252 آموزش گام‌به‌گام تغییر دامنه سایت بدون از دست رفتن سئو

253 Cloaking چیست و تاثیر آن بر سئو سایت

254 آموزش جامع سئوی سایت‌های جاوا اسکریپتی

255 آیا نوع cms بر سئو سایت تاثیری دارد؟

فایل robots.txt چیست؟

فایل robots.txt چیست؟

robots.txt چگونه کار می‌کند؟

نکات بیشتر درباره فایل robots.txt

تفاوت robots.txt با متا تگ noindex چیه؟

آیا ممکن است آدرسی که در robots.txt مسدود شده است، در نتایج جستجو گوگل نمایش داده شود؟

آیا برای هر ساب‌دامین باید فایل robots.txt جداگانه داشته باشد؟

چگونه در سرچ کنسول صفحاتی که تحت تاثیر فایل robots.txt به ارور خورده‌اند را بررسی کنیم؟

چگونه ارورهای گوگل برای فایل robots.txt را در سرچ کنسول چک کنیم؟

چگونه برای گوگل درخواست کرال مجدد فایل robots.txt ارسال کنیم؟

چه دستوراتی در فایل robots.txt وجود دارد؟

دستور User-agent

دستور Disallow

دستور Allow

دستور crawl-delay

دستور Sitemap

نحوه نوشتن کامنت در فایل robots.txt

دستورات کاربردی فایل robots.txt

چگونه مسدود بودن یا نبودن آدرس‌ها توسط robots.txt برای خزنده‌های گوگل را تست کنیم؟

چگونه بفهمیم کدام فایل robots.txt روی آدرس یک صفحه یا تصویر اثر می‌گذارد؟

robots.txt در کجای یک سایت قرار می‌گیرد؟

چرا به robots.txt نیاز دارید؟

بهترین روش‌های SEO برای فایل robots.txt

مطالب مرتبط

cdn چیست؟ چرا و چگونه باید از cdn برای سایت استفاده کنیم؟

کدهای وضعیت HTTP و تاثیر آن بر سئو

آیا نوع cms بر سئو سایت تاثیری دارد؟

اطلاعات تکمیلی

منابع آموزشی

آخرین مقالات منتشر شده

پروموشن چیست؟ انواع روش‌های پروموشن محتوا

آموزش ابزار ahrefs به زبان ساده و کاربردی

۱۳ اشتباهات رایج در لینک سازی خارجی و روش‌های جبران آن

cdn چیست؟ چرا و چگونه باید از cdn برای سایت استفاده کنیم؟

آشنایی با AI Mode گوگل و تاثیر آن بر سئو سایت

راهنمای جامع تبلیغات محتوایی؛ از مفاهیم تا اجرا

راه‌های ارتباطی

چهارمین گزارش جامع سئو در ایران منتشر شد