[সিরিয়াল টিউটোরিয়াল] - ৬ - সহজে শিখি এস ই ও । (রোবট টেক্সট)

আমাদের এস ই ও নিয়ে সিরিয়াল টিউটোরিয়াল নিয়ে যে পরিমান রেসপন্স পাচ্ছি তা বলে শেষ করা যাবে না । মাঝে কিছুদিন সময় নিয়েছিলাম পড়ার জন্য । মানে আপনাদের জন্য লেখার আগে আমাকেও পড়তে হয় । জানতে হয় । বেসিক লেভেল সহজে লিখলেও এডভান্স লেভেল নিয়ে পড়াশুনা করে তারপর লিখতে হয় । কারন , সার্চ ইঞ্জিন গুলো প্রতি বছরই কিছু না কিছু নতুন নিয়ম চালু করে । তার সাথে মিলিয়ে আমাদের কে ও এগিয়ে যেতে হবে ।

তো আজকে থাকছে রোবোট টেক্সট এর এস ই ও নিয়ে পোষ্ট । চলুন শুরু করি ।
http://www.chennaiwebdevelopment.com/blog/wp-content/uploads/2013/11/Importance-of-a-Robots.txt-File-for-Your-SEO.png
robots.txt
Tags: robot txt,robot txt generator,robot txt file

 সার্চ ইঞ্জিন মুলত বেশ কিছু প্রোগ্রাম ও এলগরিদমের মাধ্যমে গঠিত । সার্চ ইঞ্জিনের কাজই হল আপনার সাইটের সকল পোষ্ট ক্রল করা বা ঘুরা । সোজা কথায় সাইটের যত পেজ আছে সব পেজেই উনি ঢুঁ মারার ক্ষমতা রাখেন । কারন তিনি প্রোগ্রাম বা রোবট । তাকে বকা দেয়ার কেউ নেই ।
এখন ধরুন আপনার সাইটে তো অনেক পেজই আছে যা আপনার ব্যাক্তিগত বা জনসাধারনের জন্য উন্মুক্ত নয় । কিন্তু সার্চ ইঞ্জিন যদি তা ক্রল করে ফেলে তাহলেতো আপনার ব্যাক্তিগত তথ্য হ্যাকারদের হাতে চলে যাবে ।
 You Must Read:

[সিরিয়াল টিউটোরিয়াল] পার্ট - ৫ - সহজে শিখি এস ই ও । (বেসিক শেষ পর্ব)

[সিরিয়াল টিউটোরিয়াল] - পার্ট- ৪- সহজে শিখি এস ই ও । (নেভিগেশান ও ইউনিক কন্টেন্ট) 

[সিরিয়াল টিউটোরিয়াল] - পার্ট-৩ - সহজে শিখি এস ই ও । ( লিংক স্ট্রাকচার )

 তাহলে???
ভিজিটর আনতে গিয়ে উলটো  নিজের মেরুদন্ড হারাতে বসা । তাইনা ?
আর এই জন্য সার্চ ইঞ্জিন যেহেতু একটা প্রোগ্রাম তাই তাকেও দিকনির্দেশনা দিতে বা মোকাবেলা করতে হবে প্রোগ্রামের মাধমে । একেই বলে robots.txt

“robots.txt” ফাইল এমন একটি ফাইল যেটা সার্চ ইন্জিনকে বলে যে,সার্চ ইন্জিন একটা সাইটের কোন কোন্ পেজ crawl করবে আর কোন কোন পেজ crawl করবেনা।



Try: robot txt seo,robot txt 404,robot txt googlehttp://www.seotechexperts.com/blogs/wp-content/uploads/2016/04/robotx-txt-file.jpg
আপনার সাইটের কিছু পেজ সার্চ রেজাল্টে না দেখানো হোক আপনি হয়ত এটা চাইতে পারেন।কারন হতে পারে সেই পেজগুলির কাজ এখনও শেষ হয়নি বা অন্য যেকোন কারন।এজন্য আপনি একটি robots.txt ফাইল তৈরী করে সেখানে ঠিক করে দিতে পারেবন যে কোন্ কোন্ পেজ সার্চ ইন্জিন crawl করবেনা।আপনার যদি সাবডোমেইন থাকে এবং এর কিছু পেজ যদি সার্চ রেজাল্টে না দেখানো হোক এটা চান তাহলে এটার জন্য আলাদা একটা robots.txt ফাইল তৈরী করতে হবে।robots.txt ফাইলটি তৈরীর পর রুট ফোল্ডারে আপলোড করতে হবে।


http://cdn.poweredbysearch.com/wp-content/uploads/2014/06/robots05.jpg

robots.txt ফাইল দিয়ে সার্চ ইন্জিনের বট,ক্রাউলার এবং স্পাইডার সাইটের কোন্ কোন্ পেজ দেখবে এবং কোন্ কোন্ পেজ দেখবেনা এসব নিয়ন্ত্রন করা যায়।এই নিয়ন্ত্রনের পদ্ধতিকে বলা হয় রোবটস এক্সক্লুসন প্রটোকল (Robots Exclusion Protocol) বা রোবটস এক্সক্লুসন স্টান্ডার্ড (Robots Exclusion Standard) .এই ফাইল তৈরীর আগে এখানে ব্যবহৃত কিছু চিহ্ন চিনে নেয়া যাক:

http://prhubdigital.com/blog/wp-content/uploads/2015/01/robots2.gif
রোবট টেক্সট সিনট্যাক্স

Tags: robot txt wordpress,robot txt disallow all,robot txt test

প্রতিটি লাইন disallow: দিয়ে শুরু হয়।এরপরে আপনি / দিয়ে URL path ঠিক করে দিতে পারেন।এতে করে ওই path বা ফাইল বা ওই পেজ আর রোবট ক্রাউল করবেনা।যদি কোন path না দেন অথ্যাৎ ফাকা থাকে তাহলে disallow কাজ করবে allow এর।


Disallow ফিল্ড আংশিক বা পূর্নাঙ্গ URL উপস্থাপন করতে পারে।/ চিহ্নের পর যে path উল্লেখ থাকবে সেই path রোবট ভিজিট করবেনা।

যেমনঃ
  • Disallow: /help
  •  
  • #disallows both /help.html and /help/index.html, whereas

  • Disallow: /help/

  • # would disallow /help/index.html but allow /help.html

Tags: robot txt no index,robot txt blogger,robot txt sitemap,robot.txt কি

কিছু উদাহরনঃ
সব রোবট অনুমোদন করবে করবে সব ফাইল ভিজিটের জন্য (wildcard “*” নির্দেশ করে সব রোবট)

User-agent: *
Disallow:


সব রোবট কোন ফাইল ভিজিট করবেনা

User-agent: *
Disallow: /


গুগলবট এর শুধু ভিজিটের অনুমোদন থাকবে বাকি কেউ ভিজিট করতে পারবেনা

User-agent: GoogleBot
Disallow:

User-agent: *
Disallow: /


গুগলবট এবং ইয়াহুস্লার্প এর শুধু ভিজিটের অনুমোদন থাকবে বাকি কারো থাকবেনা

User-agent: GoogleBot
User-agent: Slurp
Disallow:

User-agent: *
Disallow: /


কোন একটা নির্দিষ্ট বটের ভিজিট যদি বন্ধ করতে চান তাহলে

User-agent: *
Disallow:

User-agent: Teoma
Disallow: /


এই ফাইলটি দ্বারা যদি আপনার সাইটের কোন URL বা পেজ crawl করা বন্ধ করে দেন তারপরেও কিছু সমস্যার কারনে এই পেজগুলি কোথাও কোথাও দেখাতে পারে।যেমন রেফারেল লগ এ URL গুলি দেখাতে পারে।তাছাড়া কিছু কিছু সার্চ ইন্জিন আছে যাদের এলগরিদম খুব উন্নত নয় ফলে এসব ইন্জিন থেকে যখন স্পাইডার/বোট crawl করার জন্য পাঠায় তখন এরা robots.txt ফাইলের নির্দেশনাকে উপেক্ষা করে আপনার সব URL crawl করে যাবে।

এসব সমস্যা এড়াতে আরেকটা ভাল পদ্ধতি হল এই সমস্ত কনটেন্টকে htaccess ফাইল দিয়ে পাসওয়ার্ড বা বন্ধ করে রাখা।

rel=”nofollow” এর ব্যাপারে সতর্ক থাকুনঃ

কোন লিংকে rel এট্রিবিউট এ “nofollow” সেট করে দিয়ে গুগল বা সার্চ ইন্জিনকে বলে দিতে পারেন যে এই সমস্ত লিংক যেন সে crawl না করে।যদি আপনার সাইট কোন ব্লগ বা ফোরাম হয় যেখানে মন্তব্য করা যায় তাহলে কমেন্ট অংশকে এভাবে nofollow করে দিয়ে রাখতে পারেন।এতে করে আপনার ব্লগ বা ফোরামের খ্যাতি ব্যবহার করে নিজের সাইটের rank বাড়াতে পারবেনা।আবার অনেক সময় অনেকে আপত্তিকর সাইটের ঠিকানা আপনার সাইটে দিতে পারে ফলে যা আপনি চান না। এছাড়াও এমন সাইটের লিংক দিতে পারে যেটা গুগলের কাছে spammer, এতে করে আপনার সাইটের খ্যাতি নষ্ট হবে।

<a href="site url" rel="nofollow">Comme­nt spammer</a>

প্রতিটি লিংকে nofollow না দিয়ে robot মেটা ট্যাগেও nofollow দিলে একই কাজ করবে।
একটি উধাহরনঃ