当天的数据无法最快速度被抓取、被收录,会降低实效性内容获取流量的能力。知道蜘蛛实时抓了什么、收了什么,有助于准确把握当前蜘蛛对站点的喜好,为做内容指清一条路。
也可摸清蜘蛛爬的位置,这时候把一些特别想做排名、特别希望收录的页面丢到这里,有助于快速收录指定页面。
——————————————————
【日志分析】查看紧前5分钟内蜘蛛抓取情况方法
tail -100 /var/log/http/www.ximalaya.com.access.log | grep Baiduspider
含义:查看日志倒序100条记录,匹配出蜘蛛爬的记录。如果频率不够高无法匹配到,可加大倒序条数。
详细指令可参照linux tail命令。