วันจันทร์ที่ 24 สิงหาคม พ.ศ. 2552

การ crawl ของ google



หลายท่านกระซิบถามเข้ามาเกี่ยวกับเรื่องของ google bot แล้วก็เรื่องของการ crawling ของ bot น่ะครับ เลยจะเอ่ยถึงปัจจัยในเรื่องของการ crawl ของ google กันคร่าวๆ ครับ

1. เรื่องของ Backlink กับ Relevant link
เชื่อว่า หลายท่านคงจะพอรู้แล้วครับว่า bot ทั้งหลายแหล่ นั้นวิ่งเก็บเว็บไซตืได้ด้วยลิ้งค์เท่านั้น ดังนั้นการที่ bot จะวิ่งมาได้ ก็ต้องอาศัยลิ้งค์มายังเว็บไซต์ของเราครับ ดังนั้น การที่เรามีเว็บไซต์ ลิ้งค์ มายังที่เว็บเราเยอะ เหมือนกับการสร้างทางมายังเว็บไซต์ ครับ นอกจากนี้ การมี Relevant link จากเว็บไซตืที่เกี่ยวข้องหรือเว็บไซต์ที่คล้ายคลึงกัน จะช่วยให้ การ crawl ของ bot ทำได้ดีขึ้นครับ เพราะเว็บไซต์ เนื้อหาในแต่ละกลุ่มนั้น จะมีอัตราการวิ่งของ bot ที่ต่างกันไปครับ

2. Link Structure
ในที่นี้หมายถึงลิ้งค์ภายในไซต์ของเรานะครับ ว่ามีโคลงสร้าง หรือมีการวางลิ้งค์ในรูปแบบไหนกันบ้าง เป็นประโยชน์หรือเป็นโทษกับ bot ในการวิ่งไปมาในเว็บของเราครับ ซึ่งอันนี้ต้องสงสัยครับ เพราะว่า ถ้าเราวางลิ้งค์ไม่ดี bot ก็วิ่งไม่ทั่วเว็บ ส่งผลต่อ อัตรา crawl ของ bot เหมือนกัน

3.Sitemap.
แน่นอนครับว่า อันนี้้ก็มีผล เช่นกัน แม้ว่า ทั้งน้องๆ ที่ office หรือคนรู้จักที่มาปรึกษาเรื่องนี้ ผมมักจะบอกว่า พร้อมหรือยังที่จะส่งเว็บไปออกรบในแนวหน้า ถ้าพร้อมจะพลีชีพแล้วล่ะก็ ให้ส่ง sitemap ไปเลย

อันนี้ไม่ได้ขุ่นะครับ แม้ว่า มันจะมีข้อดี แต่มันก็มีข้อเสียมากทีเดียวครับ ไม่ขอลงรายละเอียดแล้วกัน เพราะเรื่องของ sitemap เอง ในบล็อกผมก็เอ่ยมาหลายรอบแล้วเช่นกันครับ

4.Site Feed/RSS.
อย่างที่ผมเคยพูดถึงเจ้า Rss/feed เหล่านี้ มาตั้งแต่เมื่อช่วงเปิด Blog ใหม่ๆ และย้ำเสมอว่า มันคือ Format ในอนาคตที่จะช่วยให้เราทำ seo ง่ายขึ้น เพราะนอกจากมันจะมี bot ที่วิ่งเก็บ feed ต่างหากแล้ว ยังมีลักษณะเหมือน sitemap.xml อีกด้วย ดังนั้น จึงไม่แปลกที่ Search engine หลายๆ ที่ให้ความสำคัญ จนเปิดรับการ submit feed ของเราครับ

5.Pinging or Content Update.
เมื่อมีระบบ feed แล้ว การมีระบบ pinging ก็ถือเป็นสิ่งที่ระบบ Blog มาตรฐานทั่วไปต้องมีครับ เพราะระบบนี้มันเป็นเหมือนกับระบบที่เราส่งคนไปกดกริ่งหน้าบ้านของ Bot ทั้งหลายแหล่ครับว่า "Hey! googlebot, my site/blog updated. Please come to see me!"

นอกจากนี้ แม้ว่าเว็บเราจะไม่มีระบบ pinging แต่ว่ามีการ update สม่ำเสมอ ก็จะเป็นการช่วยให้ bot วิ่งบ่อยขึ้นครับ เพราะ bot ทุกค่ายเวลาเข้ามาเก็บ มันจะเก็บวันเวลาที่เข้ามาไว้ด้วย (เวลาที่เก็บไปของ Cache page ไงครับ) และเจ้า bot พวกนี้ ก็จะมีค่าหนึ่งที่กำหนดไว้ว่า ถ้าถึงจุดนี้แล้ว เนื้อหา/หน้าเว็บ ไม่มีการ อัพเดท มันก็จะลดอัตราการแวะเวียนเข้ามาเก็บ และท้ายที่สุด มันก็จะเลิกเก็บครับ ดังนั้น ควร update บ่อยๆ จะเป็นดีนะครับ

6. Server Speed.
อันนี้ เห็นผลมากทีเดียวครับ เพราะแม้ว่า คุณจะ update กันทุกลมหายใจ แต่ bot มาแล้วได้เป็น timeout กลับไป มันก็ไม่ได้ประโยชน์ ในการ crawl เลยแม้แต่น้อย เพราะ index ก็ไม่ได้, Cache ก็ไม่ได้ นอกจากนี้ bot ก็ไม่สามารถวิ่งต่อๆ ไปยังเนื้อหาตัวอื่นๆ ได้ครับ

7.Crawl rate setting in Google webmaster tool.
สำหรับข้อสุดท้ายนี้ สำหรับท่านที่ใช้ google sitemap ครับ แน่นอนหลังจากที่เรา verify site เป็นที่เรียบร้อยแล้ว (ไม่ต้อง submit sitemap ก็ได้นะครับ) จะมีให้เราเลือก set เจ้า crawl rate ตัวนี้ด้วยครับ จะมีให้เลือก 3 level ครับคือ Faster, Normal และ Slower ครับ ซึ่งในแต่ละ level จะมีให้เราเลือกได้ครับ

สำหรับเว็บเล็กๆ จะไม่สามารถเปิดในระดับของ Faster ได้นะครับ จะต้องมีเนื้อหา/page พวกนี้เป็นจำนวนมากๆ และมีการ update เป็นประจำ ถึงจะเปิดได้ครับ นอกจากนี้ การเปิด Faster ก็อาจจะส่งผลเสียต่อ server ได้อีกด้วยครับ จะมีอาการถูก Request จำนวนมาก และถี่ เข้ามาที่ server ครับ จะเรียกว่า น้องๆ ของการยิง server ก็ว่าได้ครับ

ส่วนเว็บไหนที่ server ต้องรับภาระหนักอยู่แล้วหรืออาจจะไม่กล้าแข็งพอที่จะรองรับได้ก็ ให้ลอง set เป็น slow ก็ได้ครับ ประมาณว่า ช้าแต่ชัวร์ อะไรพวกนี้ล่ะครับ

ที่มา

http://www.eblogbiz.com/tag/tags-41

http://www.afflovers.com/?p=442

http://en.wikipedia.org/wiki/Crawl