همه متخصصین سئو این موضوع را میدانند که گوگل صفحات سایت را بلافاصله کرال نمیکند. گاهی اوقات کرال کردن یک صفحه ممکن است هفتهها طول بکشد. این اتفاق میتواند روی سئوی سایت شما تاثیر بگذارد.
مثلا یک صفحه لندینگ در سایت را بهینه میکنید اما هر چقدر منتظر میمانید، این صفحه ایندکس نمیشود. اگر با چنین مشکلی مواجه شدهاید، وقت آن رسیده که بودجه خزش یا crawl budget خود را بهینه کنید. ما در این مقاله به شما میگوییم که کراول باجت چیست و چطور میتوانید آن را بهینه کنید.
در این مقاله با مطالب زیر آشنا میشوید:
Toggleبودجه خزش Crawl Budget در سئو چه مفهومی دارد؟
بودجه خزش، تعداد صفحاتی است که گوگل در یک بازه مشخص (مثلا در یک روز) میتواند آنها را کراول کند. تعداد این صفحات در روزهای مختلف میتواند کمی تغییر کند. گوگل ممکن است هر روز ۶ صفحه را در سایت شما کراول کند. این عدد ممکن است به ۵۰۰۰ یا حتی گاهی به ۴ میلیون صفحه در روز برسد.
نرخ کراول یک سایت به طور کلی به اندازه، بدون باگ بودن سایت و سرور (تعداد خطاهایی که گوگل با آنها روبهرو میشود) و تعداد لینکهای سایت شما بستگی دارد.
چرا موتورهای جستجو برای سایتها نرخ کراول در نظر میگیرند؟
متاسفانه موتورهای جستجو، منابع نامحدودی ندارند و مجبورند توجه و تمرکز خود را بین میلیونها وبسایت تقسیم کنند. بنابراین آنها به روشی نیاز دارند تا تا بتوانند میزان خزش را اولویتبندی کند. اختصاص بودجه خزش به هر وبسایت، به موتورهای جستجو برای انجام این کار کمک میکند.
به طور خلاصه: اگر گوگل صفحهای را ایندکس نکند، یعنی آن صفحه اصلا وجود ندارد!
بنابراین اگر تعداد صفحات شما از کراول باجتتان بیشتر باشد، قطعا در سایت خود صفحاتی خواهید داشت که ایندکس و در نتیجه، دیده نمیشوند.
بنابراین، بودجه خزش بیشتر در سایتهای بزرگ نقش دارد زیرا رباتهای گوگل میتوانند سایتهای کوچک را به راحتی کراول کرده و صفحاتشان را ایندکس کنند. در شرایط زیر باید به بودجه خزش توجه ویژهای داشته باشید:
- یک سایت خیلی بزرگ دارید: اگر وبسایتی (مثلا یک سایت فروشگاهی) با بیش از ۱۰ هزار صفحه داشته باشید، گوگل ممکن است در پیدا کردن تمام این صفحات با مشکل مواجه شود.
- یک دسته صفحه به سایت خود اضافه کردهاید: اگر اخیرا بخش جدیدی با صدها صفحه به سایت خود اضافه کردهاید، باید کراول باجت کافی داشته باشید تا همه این صفحات به سرعت ایندکس شوند.
- تعداد زیادی صفحات ریدایرکت شده دارید: ریدایرکتها میتوانند مثل خوره، بودجه خزش سایت شما را بخورند.
در ادامه این مقاله به روشهایی برای بهینهسازی نرخ کراول خواهیم پرداخت.
نظر گوگل در مورد بودجه خزش چیست؟
طبق گفته گوگل، سه مرحله اساسی وجود دارد که موتور جستجو برای به دست آوردن نتایج مناسب از صفحات وب، آنها را دنبال میکنند:
کراول کردن: خزندههای وب به صفحات موجود در دسترس عموم، دسترسی دارند.
ایندکس کردن: خزندهها، محتوای هر صفحه را تجزیه و تحلیل کرده و اطلاعاتی که پیدا میکنند را ذخیره خواهند کرد.
ارائه دادن و رتبهبندی: وقتی کاربر سوالی را تایپ میکند، گوگل مناسبترین پاسخها را از صفحاتی که ایندکس کرده، به کاربر ارائه میدهد.
بدون کراول، محتوای شما ایندکس نخواهد شد، بنابراین در گوگل نمایش داده نمیشود.
گوگل معتقد است نرخ خزش موضوعی نیست که باعث نگرانی افراد شود. محتوای اغلب صفحات در اینترنت، به سرعت پس از انتشار، کراول و ایندکس میشوند. اگر تعداد صفحات سایت شما چند صد عدد باشد، کراول شدن کامل این صفحات اتفاقی کاملا بدیهی است. اینکه مشخص کنیم چه محتوایی در چه زمانی کراول شود، موضوعی است که برای سایتهای با تعداد صفحات خیلی بالا دغدغه ایجاد میکند.
بودجه مورد نیاز هر سایت چطور تعیین میشود؟
کرال باجت برای هر وبسایت متفاوت است و میزان آن بهطور خودکار توسط گوگل ایجاد میشود.
موتورهای جستجو، عوامل مختلفی را در نظر میگیرند تا بودجه خزش سایت شما را تعیین کنند. به طور کلی، چهار عامل اصلی وجود دارد که گوگل برای اختصاص بودجه خزش یک سایت از آنها استفاده میکند:
- اندازه سایت: سایتهای بزرگتر به بودجه بیشتری برای خزیدن احتیاج دارند.
- راهاندازی سرور: عملکرد و زمان بارگذاری سایت شما ممکن است در میزان بودجه اختصاص یافته به آن تاثیر بگذارد.
- فرکانس بهروزرسانی: هر چند وقت یکبار درحال به روزرسانی مطالب خود هستید؟ گوگل، محتوایی را که به طور منظم به روز میشود را در اولویت قرار میدهد.
- لینکها: ساختار لینکهای داخلی و لینکهای مرده (dead link).
البته باید به این نکته توجه داشته باشید که خزیدن بیشتر سایت، کمک چندانی به شما نمیکند تا رتبه بهتری به دست بیاورید. اگر محتوایتان مطابق با استانداردهای مخاطبان شما نباشد، سایت شما نمیتواند کاربران جدیدی را به خود جذب کند.
برای درک بهتر بودجه خزش، برخی مفاهیم کلیدی وجود دارد که آنها را بررسی خواهیم کرد:
Crawl limit / host load
Crawl limit به ما میگوید که منابع سرور سایت ما ظرفیت پذیرش چه تعداد کراول را دارد.
هر بار که گوگل یک صفحه را کراول میکند، درخواستی مبنی بر دسترسی به منابع سایت به سمت سرور فرستاده میشود. اگر تعداد این درخواستها خیلی زیاد باشد، منابع سرور سایت نمیتوانند به همه این درخواستها پاسخ دهند و در نتیجه سایت از کار میافتد.
گوگل با استفاده از «نشانههای باگ سرور» و «تعداد سایتهای فعال در هاست» این ظرفیت را تشخیص میدهد که در ادامه این دو عامل را شرح میدهیم.
نشانههای باگ سرور
درخواستهای رباتهای گوگل برای خزیدن در سایت، چند بار توسط سرور با مشکل روبهرو شدهاند.
تعداد سایت های فعال در هاست
اگر وبسایت شما در یک هاست مشترک با صدها وبسایت دیگر اجرا میشود و وبسایتتان هم نسبتا بزرگ است، به طور جدی با مشکل محدودیت خزش مواجه خواهید شد. در چنین شرایطی حتما باید از یک هاست اختصاصی استفاده کنید تا کراول باجت و سرعت لود صفحات سایت شما افزایش پیدا کند.
Crawl demand / crawl scheduling
Crawl demand به ما میگوید کدام یک از صفحات، ارزش کراول شدن یا دوباره کراول شدن را دارد؟ تعیین این ارزش بر اساس فاکتورهای زیر اندازهگیری میشوند:
محبوبیت صفحه: URLهایی که در فضای اینترنت محبوبیت بیشتری دارند، زودتر یا دوباره کراول میشوند.
تازه بودن محتوا: صفحاتی که بهطور مرتب به روز میشوند، برای رباتهای گوگل اهمیت بیشتری دارند.
نوع صفحه: نوع صفحه هم یکی از مهمترین فاکتورهای تعیین ارزش صفحات است. صفحه دستهبندی را با صفحه قوانین سایت مقایسه کنید. احتمال تغییر محتوا در کدام یک بیشتر است؟
چرا باید به Crawl Budget اهمیت چند برابری بدهید؟
شما میخواهید موتورهای جستجو تعداد زیادی از صفحات قابل ایندکس شدن سایتتان را پیدا و درک کنند و ایدهآلتان هم این است که همه این کارها در اسرع وقت و کوتاهترین زمان ممکن انجام شود. وقتی صفحات جدیدی را به سایتتان اضافه یا صفحات موجود را به روز میکنید، میخواهید موتورهای جستجو هرچه سریعتر این موارد را پیدا کنند. رباتهای گوگل هرچه زودتر صفحات شما را ایندکس کنند، زودتر میتوانید از امتیاز آنها بهرهمند شوید.
اگر نرخ کراول یا همان بودجه خزیدنتان را هدر بدهید، موتورهای جستجو قادر نخواهند بود وبسایت شما را به طور موثر جستجو کنند. آنها وقت خود را صرف قسمتهایی از سایت شما میکنند که اهمیتی برایتان ندارند، در نتیجه قسمت های مهم وبسایت شما کراول نشده باقی میماند. اگر رباتهای گوگل در مورد صفحات اطلاعاتی نداشته باشند، آنها را کراول و ایندکس نمیکنند و شما نمیتوانید بازدیدکنندگان را از طریق موتورهای جستجو به این صفحات وارد کنید.
چه از این بدتر؟ هدر رفتن بودجه خزش به عملکرد سئوی شما آسیب میرساند.
اگر سایت شما بیشتر از ۱۰ هزار صفحه دارد، باید تمام تلاشتان را به کار بگیرید تا بودجه خزشتان بهینه شود.
دلایلی که موجب هدر رفتن بودجه خزش سایت میشوند
بهینه سازی بودجه خزش یعنی این که مطمئن شوید هیچ کراول باجتی به هدر نمیرود. کارشناسان، بودجه کراول سایتهای مختلفی را بررسی کرده و به این نتیجه رسیدهاند که اغلب این سایتها درگیر مشکلات مشابهی هستند.
این مشکلات ساده اما مهم میتواند سایت شما را با کسری بودجه خزش مواجه کند. از طرفی با برطرف کردن آنها میتوانید سایت خود را در اسرع وقت از نظر کراول باجت بهینه کنید تا صفحات ارزشمندتان زودتر ایندکس شوند. عواملی که میتوانند بودجه خزش شما را هدر بدهند، عبارتاند از:
وجود پارامترهای فیلتر محصولات در URL
آدرس اغلب سایتها، خصوصا سایتهای فروشگاهی، پارامترهایی دارند که میتوانید از آنها برای فیلتر کردن محصولات یا محتواها استفاده کنید.
مثلا https://www.example.com/toys/cars?color=black یک آدرس سایت است که در آن از پارامترهای فیلتر استفاده شده است. هنگام اجرای فیلترهای محصول در سایتهای فروشگاهی معمولا از URLهای دارای پارامتر استفاده میشود. استفاده از این پارامترها خیلی خوب است، فقط باید مطمئن شوید که در دسترس موتورهای جستجو قرار نگیرند.
چگونه میتوانید این پارامترها را برای موتور جستجو غیرقابل دسترسی کنید؟
از فایل robots.txt خود استفاده کنید و به موتورهای جستجو بفهمانید که نباید این صفحات را کراول کنند. اگر به دلایلی این گزینه در دسترس نیست، از تنظیمات مدیریت پارامتر URL در سرچ کنسول گوگل و Bing Webmaster Tools استفاده کنید تا به گوگل و Bing دستور بدهید که کدام صفحات را کراول نکنند.
همچنین میتوانید به لینکهای فیلتر خود، ویژگی «nofollow» را اضافه کنید. به این نکته توجه داشته باشید که از مارس ۲۰۲۰ گوگل تصمیم گرفت لینکهای nofollow را اIgnore کرده و نادیده بگیرد. بنابراین تا جای ممکن از روش اول استفاده کنید.
وجود محتوای تکراری Duplicate در سایت
ما صفحاتی را که محتوای کاملا مشابه و یکسان دارند را «محتوای تکراری» مینامیم. مثلا صفحات کپی شده، صفحات نتایج جستجوی داخلی و تگ پیجها.
حتما شما دلتان نمیخواهد موتورهای جستجو وقتشان را در صفحات تکراری سایتتان بگذرانند و بودجه خزش شما را به باد بدهند. بنابراین مهم است که از محتوای تکراری در سایت خود جلوگیری کنید یا میزان آنها را به حداقل برسانید.
برای برطرف کردن مشکل صفحات تکراری در وبسایتهایی که با وردپرس طراحی شدهاند، شما باید محتوایی که نسبت به سایر محتواهای تکراری کاملتر است را نگهدارید و محتواهایی که کامل نیستند را حذف کنید. سپس با استفاده از پلاگین Redirection و دیگر پلاگینهای ریدایرکت، محتوای قدیمی را به محتوای جدیدی که ایجاد کردهاید ریدایرکت کنید.
محتوای بی کیفیت
صفحاتی با محتوای بسیار کم یا صفحاتی که هیچ ارزشی به سایت شما اضافه نمیکنند، محتوای بیکیفیت نامیده میشوند.
صفحات با محتوای بسیار کم برای موتورهای جستجو جذاب نیستند. سعی کنید تعداد آنها را به حداقل برسانید یا در صورت امکان تمامشان را حذف کنید. یک نمونه از محتوای بیکیفیت، بخش سوالات متداول با لینکهایی برای نشان دادن سوالات و پاسخها است، جایی که هر پرسشوپاسخ از طریق URLهای جداگانه ارائه میشوند.
لینکهای شکسته یا ریدایرکت شده
لینکهای شکسته، لینکهایی هستند که به صفحاتی ارجاع میدهند که دیگر وجود ندارند. لینکهای ریدایرکت شده هم، لینک به URL هایی هستند که به URLهای دیگر هدایت میشوند.
لینکهای شکسته و زنجیرهای طولانی از لینکهای ریدایرکت شده، موتورهای جستجو را به بنبست میرسانند.
سعی کنید تا جای ممکن این لینکها را در سایت خود به حداقل برسانید.
واضح است که با اصلاح لینکهای شکسته و ریدایرکت شده، میتوانید به سرعت کسری بودجه خزش سایتتان را بازیابی کنید. علاوه بر بازیابی کراول باجت، شما با این کار میتوانید به طور قابل توجهی تجربه کاربری بازدیدکنندگان سایتتان را بهبود ببخشید. ریدایرکت و مخصوصا زنجیرههای ریدایرکت، باعث طولانی شدن زمان بارگذاری صفحه میشود و تجربه کاربری بسیار بدی برای بازدیدکنندگان سایت ایجاد میکند.
URLهای اشتباه در سایت مپ سایت
رباتهای گوگل از طریق سایت مپ به سایت شما دسترسی خواهند داشت. اگر نقشه سایت شما پر از صفحات شکسته یا ریدایرکت شده باشند، گوگل به اشتباه آنها را کراول میکند. توصیه میکنیم تا جای ممکن ریدایرکتهای 3xx، 4xx و 5xx را در نقشه XML سایت خود قرار ندهید. همیشه نقشه XML سایتتان را چک کنید و مطمئن شوید که صفحات بیارزش در آن قرار نداشته و صفحات هدف هم حتما در آن موجود باشند.
صفحاتی با سرعت لود پایین
صفحاتی که بارگیری آنها مدت زیادی طول میکشد یا اصلا بارگیری نمیشوند، روی کراول باجت شما تاثیر خیلی بدی میگذارند. این مشکل برای موتورهای جستجو نشانه این است که وبسایت شما از عهده درخواستهای کاربران برنمیآید. بنابراین ممکن است بودجه خزش شما را خیلی کم در نظر بگیرند.
وقتی زمان لود صفحات سایت شما زیاد باشد، موتورهای جستجو صفحات کمتری از سایت شما را کراول میکنند. علاوه بر این نکته منفی، زمان لود بالای صفحه و وقفه زمانی، به طور قابل توجهی به تجربه کاربری بازدیدکنندگان سایت شما آسیب میرساند و نرخ تبدیل را کم میکند.
اگر زمان لود صفحه شما بالای ۲ ثانیه باشد، سایتتان مشکل جدی دارد. در حالت ایده آل، هر صفحه باید در کمتر از یک ثانیه بارگیری شود.
تعداد زیادی صفحات غیر قابل ایندکس
هر وبسایت حاوی صفحات زیادی است که قابل ایندکس شدن نیستند.
اگر وبسایت شما حاوی تعداد زیادی صفحه غیر قابل ایندکس است که این صفحات برای موتورهای جستجو قابل دسترسی هستند، در واقع شما موتورهای جستجو را مشغول غربالگری صفحات بیربط میکنید و این کار میتواند کراول باجت شما را از بین ببرد.
صفحات زیر، غیرقابل ایندکس شدن هستند:
- تغییر مسیرها (3xx)
- صفحاتی که پیدا نمیشوند (4xx)
- صفحاتی با خطاهای سرور مواجهاند (5xx)
- صفحاتی که ایندکسپذیر نیستند (صفحاتی که حاوی دستورالعمل noindex هستند)
ساختار لینک سازی غیراصولی
اگر ساختار لینک سازی داخلی سایت شما به درستی تنظیم نشده باشد، ممکن است موتورهای جستجو به برخی از صفحات توجه کافی نداشته باشند.
چگونگی لینکدهی صفحات در وبسایت شما به یکدیگر، نقش مهمی در بهینهسازی بودجه خزش دارد. ما این ساختار را ساختار لینک سازی داخلی وبسایت مینامیم.
موتورهای جستجو معمولا جذب صفحاتی میشوند که لینکدهی داخلی خوب و زیادی دارند.
سعی کنید لینکدهی داخلی، در طول محتوای سایت پخش شود. مطمئن شوید که مهمترین صفحات سایت شما دارای لینکهای داخلی زیادی هستند. صفحاتی که به تازگی کراول شدهاند، معمولا در موتورهای جستجو رتبه بهتری دارند. این نکته را در ذهن داشته باشید و ساختار لینکدهی داخلی خود را بر این اساس تنظیم کنید.
سخن پایانی
در این مقاله با Crawl Budget و روشهای بهینهسازی آن آشنا شدیم. برطرف کردن مشکلاتی که در بالا به معرفی آن پرداختیم، جدا از بهینه کردن بودجه خزش، تجربه کاربری سایت شما را هم بهتر میکند و باعث میشود تا کاربران بیشتری از سایت شما بازدید کنند. یکی دیگر از راههایی که به خزش بیشتر صفحات سایت شما کمک میکند انتشار رپوتاژ آگهی است. با اینکار کرالرهایی که وارد سایت ناشر شدهاند از صفحه رپورتاژتان وارد صفحه مورد نظر در سایت شما میشوند و به خزش بیشتر آن از این طریق کمک میشود.
تعداد صفحاتی است که گوگل در یک بازه مشخص (مثلا در یک روز) میتواند آنها را کراول کند.
بهینهسازی بودجه خزش یعنی مطمئن شوید هیچ کراول باجتی به هدر نمیرود. اغلب سایتهای بزرگ درگیر مشکلات مشابهی هستند که با برطرفشدن آنها میتوان بودجه خزش را بهینه کرد.
وقتی صفحات جدیدی را به سایتتان اضافه یا صفحات موجود را بهروز میکنید، هرچه زودتر رباتهای گوگل این تغییرات را پیدا کنند، زودتر صفحات شما را ایندکس میکنند و اگر بودجه خزش شما کم باشد این اتفاق دیرتر میافتد و در نتایج جستجو حضور نخواهید داشت.
مقاله خوبی بود ، به نظر شما افزونه yoast seo در زمینه حذف آدرس های جستجو در سایت به طور اتوماتیک کمک می کند ؟
و اینکه داخل سایتی که دارم و مقاله های پزشکی قراردادم ، اینه عکسها ایندکس شوند خوب است یا نه ؟
سلام منصور عزیز
در خصوص سوالتون در مورد Yoast به طور دقیق اطلاعی ندارم اما حالت درست این هست که آدرس سرچ رو در فایل robots.txt ببندید تا ایندکس و کرال نشن.
در خصوص تصاویر هم بله بهتر هست ایندکس بشن به خصوص اگر برای کاربرانتون مفید و کاربردی باشند.
مقاله مفیدی بود
سلام چه مطالب جالبی بود. حالا برام روشن شد بودجه خزش یعنی چی.
خوشحالیم که براتون مفید بوده 🙂
مقاله خوبی بود مرسی از راهنمایی دقیق و کاملتون