স্পাইডারিং এবং ওয়েব ক্রলার সংজ্ঞা

মাকড়সা এবং ওয়েব ক্রলার: ওয়েবসাইট ডেটা রক্ষা করার জন্য আপনাকে কি কি প্রয়োজন

মাকড়সা প্রোগ্রামগুলি (বা স্বয়ংক্রিয় স্ক্রিপ্টগুলি) যা ওয়েব অনুসন্ধানের মাধ্যমে 'ক্রল' তথ্য খুঁজছেন। মাকড়সা ওয়েবসাইট URL গুলির মাধ্যমে ভ্রমণ করে এবং ইমেইল ঠিকানাগুলি যেমন ওয়েব পেজ থেকে তথ্য টানতে পারে। স্পাইডারগুলি ওয়েবসাইটগুলিতে অনুসন্ধান ইঞ্জিন অনুসন্ধান করার জন্য ব্যবহৃত হয়।

মাকড়সা, যা 'ওয়েব ক্রলার' হিসাবেও পরিচিত হয় ওয়েব অনুসন্ধান করে এবং সব তাদের অভিপ্রায় মধ্যে বন্ধুত্বপূর্ণ হয় না।

স্প্যামার্স স্পাইডার ওয়েবসাইট তথ্য সংগ্রহ

গুগল, ইয়াহু!

এবং অন্যান্য সার্চ ইঞ্জিনগুলি শুধুমাত্র ক্রলিং ওয়েবসাইটগুলিতে আগ্রহী নয় - তাই স্ক্যামার এবং স্প্যামারস।

স্পাইডারস এবং অন্যান্য স্বয়ংক্রিয় সরঞ্জামগুলি স্প্যামারদের দ্বারা ইমেইল ঠিকানা খুঁজতে (ইন্টারনেটে এই অভ্যাসটি প্রায়ই 'ফসল কাটা' হিসেবে পরিচিত) এবং তারপর স্প্যাম তালিকা তৈরি করার জন্য তাদের ব্যবহার করা হয়।

মাকড়সা আপনার ওয়েবসাইট সম্পর্কে আরও তথ্য জানতে অনুসন্ধান ইঞ্জিন দ্বারা ব্যবহৃত একটি হাতিয়ার হলেও একটি নির্দিষ্ট ওয়েবসাইটের নির্দেশিকা ছাড়া (অথবা 'অনুমতিগুলি') আপনার সাইট ক্রল কিভাবে প্রধান তথ্য নিরাপত্তা ঝুঁকি উপস্থাপন করতে পারেন মাকড়সা নিম্নলিখিত লিঙ্কগুলি দ্বারা ভ্রমণ, এবং তারা উপাত্ত, প্রোগ্রাম ফাইল, এবং অন্যান্য তথ্য যা আপনি তাদের অ্যাক্সেস করতে চান না সংযোগ লিঙ্ক খুঁজে খুব মিতব্যয়ী হয়।

ওয়েবমাস্টার লগগুলি দেখতে পারেন যে স্পাইডার এবং অন্যান্য রোবটরা তাদের সাইটগুলি পরিদর্শন করেছে কিনা। এই তথ্য ওয়েবমাস্টারকে তাদের সাইটকে সূচিত করে, এবং কতবার

এই তথ্যটি দরকারী কারণ এটি ওয়েবমাস্টারগুলিকে তাদের এসইওকে সুরক্ষার অনুমতি দেয় এবং কিছু রোবটকে ভবিষ্যতে তাদের সাইট ক্রল করার জন্য রবোট.txt ফাইল আপডেট করতে দেয়।

অবাঞ্ছিত রোবট ক্রলার্স থেকে আপনার ওয়েবসাইট রক্ষা করার টিপস

অনাকাঙ্ক্ষিত ক্রলার আপনার ওয়েবসাইটের বাইরে রাখার একটি মোটামুটি সহজ উপায় আছে। এমনকি যদি আপনি দূষিত মাকড়সা আপনার সাইট ক্র্যাশ সম্পর্কে উদ্বিগ্ন না হয় (obfuscating ইমেল ঠিকানা আপনি সবচেয়ে ক্রলার থেকে রক্ষা করবে না), আপনি এখনও গুরুত্বপূর্ণ নির্দেশাবলী সঙ্গে সার্চ ইঞ্জিন সরবরাহ করতে হবে।

সমস্ত ওয়েবসাইটের root ফাইলের একটি ফাইল থাকা উচিত যা একটি robots.txt ফাইল বলে। এই ফাইলটি আপনাকে ওয়েব ক্রলগুলি নির্দেশ করতে দেয় যেখানে আপনি তাদের অনুসন্ধান পৃষ্ঠাগুলিতে অনুসন্ধান করতে চান (অন্যথায় কোনও নির্দিষ্ট পৃষ্ঠার মেটা ডেটাতে নো-ইনডেক্সেড না হওয়া পর্যন্ত) যদি তারা একটি সার্চ ইঞ্জিন হয়।

ঠিক যেমনটি আপনি চাইছেন এমন বিপণনকারীকে বলতে পারেন, যেখানে আপনি তাদের ব্রাউজ করতে চান, আপনি তাদের বলতে পারেন যে তারা কোথায় যাবেন না এবং এমনকি আপনার সম্পূর্ণ ওয়েবসাইটের নির্দিষ্ট ক্রলারদেরও ব্লক করতে পারবেন না।

এটা মনে রাখা গুরুত্বপূর্ণ যে robots.txt ফাইলটি একসাথে রাখলে সার্চ ইঞ্জিনগুলির জন্য প্রচুর মূল্য থাকবে এবং আপনার ওয়েবসাইটের কার্যক্ষমতা উন্নত করতে একটি মূল উপাদানও হতে পারে, তবে কিছু রোবট ক্রলার এখনও আপনার নির্দেশাবলী উপেক্ষা করবে এই কারণে, আপনার সমস্ত সফ্টওয়্যার, প্লাগইন এবং অ্যাপ্লিকেশানগুলি সর্বদা আপ টু ডেট রাখা গুরুত্বপূর্ণ।

সম্পর্কিত প্রবন্ধ এবং তথ্য

নেতিবাচক (স্প্যাম) উদ্দেশ্যে ব্যবহার করা হ্রাসের প্রাদুর্ভাবের কারণে, ২003 সালে আইনটি নির্দিষ্ট কিছু আইন অবৈধ করার জন্য গৃহীত হয়। এই ভোক্তা সুরক্ষার আইনগুলি 2003 এর CAN-SPAM অ্যাক্টের অধীনে চলে আসে।

এটি গুরুত্বপূর্ণ যে আপনি আপনার স্প্রেড অ্যাক্টটি পড়ার জন্য সময় নিতে পারেন যদি আপনার ব্যবসা কোন গণনা বা তথ্য সংগ্রহের সাথে জড়িত থাকে।

আপনি অ্যান্টি-স্প্যাম আইনগুলি সম্পর্কে এবং স্প্যামারদের সাথে কীভাবে মোকাবিলা করতে পারেন, এবং নিম্নলিখিত নিবন্ধগুলি পড়ার মাধ্যমে আপনি কোনও ব্যবসায়ের মালিক হিসাবে কী করতে পারেন তা জানতে পারবেন না: