فایل robots.txt به زبان ساده رابط بین سایت شما و موتور جستجوهای جستجو مثل گوگل و ربات هایی است که می خواهند سایت شما را بررسی کنند.
در سطح وب ربات های زیادی سایت شما را بررسی می کنند، با استفاده از این فایل شما می توانید میزان دسترسی ربات ها به سایتتان را بررسی کنید.
مثلا به ربات های گوگل می گویید که دسته بندی فیلم های سایت من را بررسی نکن را می توانید کاری کنید که ابزارهای شناسایی بک لینک نتوانند بک لینک های شما را بررسی کنند و از آن گزارشی تهیه کنند.
یا مثلا در وبسایت خودتان بخشی دارید که نوشته های کوتاه و مختصری منتشر کنید و فقط می خواهید افرادی که به سایت شما مراجعه می کنند این نوشته ها را ببینند اما این نوشته ها در گوگل ایندکس نشود، این کار را به آسانی می توانید با فایل robots.txt مدیریت کنید.
با تنظیم درست این فایل می توانید کاری کنید که ربات ها سایت ما راطوری ببینند که شما می خواهید. به زبان ساده به ربات ها می گویید که حق دارند کدام بخش سایت ما را ببینند و کدام بخش سایت ما را نبینند. تنظیمات درست این فایل به شما کمک می کند که سئو سایت خودتان را بهبود دهید. پیشنهاد می کنم حتما مقاله سئو چیست را مطالعه کنید.
فایل robots.txt چیست؟
robots.txt یک فایل متنی است که با دستورات مخصوص نوشته می شود. شما تنظیم می کنید که ربات ها مجوز دسترسی به کدام یک از فایل های سایت شما داشته باشند و اجازه دسترسی به کدام قسمت از سایت شما را ندارند.
این فایل جزو فایل های مهم سایت شما است و باید در قسمت اصلی هاست (Root Directory) قرار بگیرد.
روش دسترسی به robots.txt:
برای دسترسی به این فایل کافی است که بعد از آدرس سایت خودتان عبارت /robots.txt را اضافه کنید. مثلا:
آدرس دامنه :
optmetrix.org
مسیر مشاهده فایل ربات دات تی ایکس تی:
optmetrix.org/robots.txt
نکته : دقت داشته باشید که شما باید آدرس سایت خودتان یا سایتی که می خواهید تنظیمات آن را مشاهده کنید وارد کنید.
کمی عمیق تر شویم
در سطح وب تنها آدم های واقعی کاربران سایت شما نیستند، ربات های مختلفی روزانه به سایت شما سر می زنند و صفحات سایت و لینک ها و عکس های سایت شما را بررسی می کنند. از ربات های گوگل بگیر تا ربات های سایت های دیگری مانند moz و ahrefs.
این ربات ها هر کدام برای انجام کار خاصی وارد سایت شما می شوند. مثلا ربات گوگل Googlebot نام دارد که وارد سایت شما می شود و صفحات سایت شما را بررسی می کند و برای ایندکس کردن در گوگل آماده می کند.
زبان صحبت را این ربات ها استفاده از فایل robots.txt است. در این فایل به ربات ها می گوییم که به چه صفحاتی اجازه ورود دارند و اجازه ندارند از چه صفحاتی دیدن کنند. اغلب ربات ها دستوراتی که در این فایل نوشته اید را رعایت می کنند اما همه ی ربات این دستورات را رعایت نمی کنند(البته جای نگرانی نیست)
پیشنهاد مطالعه:
اگر می خواهید بدانید که چه تعداد افراد وارد سایت شما می شوند و به چه صفخاتی می روند پیشنهاد می کنیم مقاله گوگل آنالیتیکس چیست را مطالعه کنید.
آیا استفاده از فایل robots.txt ضروری است؟
استفاده از این فایل ضروری نیست، در حقیقت اگر شما از این فایل استفاده نکنید موتورهای جستجو می توانند تمام صفحات و محتوای عمومی سایت شما را ایندکس کنند، محتوای عمومی یعنی تمام اطلاعاتی از سایت شما که بدون نیاز به لاگین کردن کاربر قابل مشاهده باشد.
ما می توانید سایتی داته باید که این فایل را نداشته باد اما پیشنهاد می کنیم که حتما این فایل را در دایرکتوری اصلی سایت خودتان ایجاد کنید.
در ادامه مقاله آموزش ساخت این فایل را هم قرار داده ایم
اگر تنظیمات فایل robots.txt اشتباه باشد چه اتفاقی می افتد؟
این مشکل ممکن است به دو صورت رخ دهد:
- اشتباه در نوشتن کد ها(خطا سینتکسی)
- اشتباه در بستن دسترسی ربات ها
اگر به اشتباهی در نوشتن دستورات باشد ربات ها همچنان به سایت شما مراجعه می کنند و مطالب را ایندکس می کنند.
اما اگر به صورت اشتباهی دسترسی ربات ها را به قسمتی هایی از سایت مثلا دسترسی عکس ها، ربات های موتور های جستجو دیگر این مطالب را کراول نمی کنند و این برای سئو سایت شما اصلا مناسب نیست.
آشنایی با رباتهای گوگل
چرا حتما باید از فایل robots.txt استفاده کنیم؟
همانطور که در بالا توضیح دادیم این فایل زبان مشترک بین سایت ما و ربات های موجود در سطح وب است. تمام وبسایت هایی که می خواهند به صورت جدی فعالیت کنند از این فایل استفاده می کنند. چند دلیل عمده را در ادامه شرح می دهیم.
- مدیریت ربات هایی که به سایت سر می زنند
- مدیریت صفحات نمایش داده شده در گوگل
- مدیریت Crawl Budget(کراول باجت)
1-مدیریت ربات هایی که به سایت سر می زنند
توضیح دادیم که علاوه بر انسان ها ربات ها هم به سایت شما سر می زنند، این ربات ها هم مانند هر کاربر دیگری از منابع سرورهای شما استفاده می کنند. وقتی تعداد ربات ربات ها و تعداد دفعاتی که به سایت شما سر می زنند زیاد شود، این باعث می شود که منابع سایت ما استفاده شود و برایتان هزینه بر خواهد بود.
با این فایل می توانید مدیریت کنید که ربات ها فقط به بخش هایی که مد نظر شماست سر بزنند و کاری که شما می خواهید را انجام دهند.
در سایت های کوچک و با بازدید کننده کم شاید این که ربات ها از منابع سرور شما استفاده می کنند زیاد قابل لمس نباشد اما وقتی شما سایتی دارید که 100 هزار صفحه دارد و روزانه هزاران نفر وارد سایت می شوند، ربات های زیادی روزانه وارد سایت شما می شوند تا اطلاعات مورد نظر را جمع آوری کنند.
اگر شما دسترسی های ربات ها را به درستی انجام ندهید باعث می شود که فشار زیادی بر روی سرورهای ما ایجاد کنند و ممکن است باعث شود سایت شما برای کاربران واقعی کند شود.
2- مدیریت صفحات نمایش داده شده در گوگل
با استفاده از دستورات فایل robots.txt می توانید مشخص کنید که چه صفحاتی نباید در موتورهای جستجو نمای داده شوند.
فرض کنید شما می خواهید 1000 صفحه از سایت خودتان را از دید موتورهای جستجو پنهان کنید و بگویید که این صفحات را حتی بررسی (crawl) نکنند چه برسد به این که بخواهند ایندکس کنند. این کار را به آسانی می توانید از طریق دستورات robots.txt انجام دهید.
البته پیشنهاد می شود که اگر می خواهید ایندکس شدن چند صفحه مشخص جلوگیری کنید از تگ noindex استفاده کنید.
اگر سیستم مدیریت محتوا وردپرس استفاده می کنید می توانید این کار را به آسانی با افزونه های سئو انجام دهید.
نکته مهم :البته همیشه این طور نیست که تمام دستورات فایل robots.txt مو به مو انجام شود اما در اغلب اوقات این دستورات کامل اجرا می شوند و وقتی می گویید فایل هایی نباید ایندکس شوند گوگل هم رعایت می کند.
3-مدیریت Crawl Budget(کراول باجت)
این قسمت یکی از مهم ترین بخش هایی است که تاثیر قابل توجهی در رشد سایت شما در موتور جستجو دارد اما اغلب به آن بی توجهی می شود.
با استفاده از فایل robots.txt می توانید به درستی کراول باجت سایت را مدیریت کنید.
Crawl Budget(کراول باجت) چیست؟
به صورت کلی گوگل بودجه مشخصی برای کراول کردن سایت شما در نظر می گیرد. این بودجه بر اساس بزرگی سایت شما ، میزان سلامت سایت شما و لینک های ورودی به سایت شما است.
برای مثال گوگل مدیری است که به شما حقوق می دهد، این حقوق بر اساس میزان تخصص شما و کارهایی که انجام می دهید و تجربه شما متغییر است. ممکن است به فردی که تازه کار است روزانه 30 هزارتومان حقوق دهد و به فرد متخصص روزانه 300 الی 500 هزار تومان حقوق دهد.
کراول باجت تعداد صفحاتی از شما است که گوگل در روز خزش(crawl) می کند. مثلا ممکن است روزی 10 صفحه از سایت شما را ربات های گوگل بگردند. این نرخ برای هر روز متفاوت است، ممکن است گوگل یک روز 10 صفحه از سایت شما را بگردد و یک روز دیگر 200 صفحه این تعداد متغییر است اما همانطور که در اول همین بخش گفتیم بر اساس میزان بزرگی سایت شما، تعداد لینک های ورودی سایت شما و میزان سلامت سایت شما این بودجه متغییر است.
توصیه هایی برای افزایش Crawl Budget
1-ارور های سایت را برطرف کنید
حالا دیگر می دانید که تعداد ارورهای موجود در سایت شما بر میزان Crawl Budget سایت شما تاثیر گذار است. کافی است ارورهای سایت را با ابزارهایی مانند سرچ کنسول بررسی کنید و آن ها را برطرف کنید تا بتوانید حداکثر استفاده را از این خزش گوگل در سایت خودتان ببرید.
2-قسمت هایی که غیر ضروری را بلاک کنید
منابع و صفحاتی در سایت که نیاز نیست در گوگل نمایش داده شوند را با استفاده از فایل robots.txt بلاک کنید و کاری کنید که در موتور جستجو ایندکس نشوند. چه صفحاتی را باید بلاک کنیم؟ صفحاتی که محتوایی دارند که می دانید از لحاظ استاندارد های موتور جستجو دچار مشکل می شوند، مثلا نوشته های کوتاهی که در سایت دارید.
3- ریدایرکت های صفحات را کاهش دهید
این مشکل در سایت هایی که مدتی است فعالیت می کنند شایع است. صفحه ای را ایجاد می کنند و سپس به دلایلی مانند اتمام موجودی محصول صفحه را حذف می کنند و سپس به صفحه دیگری ریدایرکت می کنند و دوباره آن صفحه ریدایرکت شده را هم به یک صفحه دیگر ریدایرکت می کنند و یک زنجیره از ریدایرکت می سازند.
باید زنجیره های ریدایرکت را در سایت خودتان کاهش دهید تا بتوانید رتبه های بهتری در گوگل کسب کنید.
4- لینک های خارجی بیشتری ایجاد کنید
تعداد لینک هایی که از سایت های دیگر دریافت می کنید نقش قابل توجهی در میزان موفقیت سایت شما در سئو دارند. سعی در جذب بک لینک با کیفیت به افزایش رتبه شما در موتور جستجو و افزایش نرج Crawl Budget کمک می کند
آموزش ساخت فایل robots.txt
این مقاله به مرور زمان به روزرسانی می شود
مطالب مفیده اما غلط املاییتون زیاده
ممنونم از نظر خوبتون بابت مطالب. غلط های املایی رو هم اصلاح می کنیم.
بذار ببینیم امشب چقدر می تونیم اینکارو بکنیم