2.建立robots.txt文件。seorobots文件是搜索引擎直接登录网站第一个ftp连接的文件,robots也可以设置愿意被ftp访问的搜索引擎,最主要的肯定可以设置愿意Allow和不愿意Disallow访问的目录和文件,少写Disallow,多写Allow,用意是引导爬虫抓取时间网站的信息。另,在robots文件底部大致知道网站的sitemap文件的目录,爬虫加载其中的sitemap路径,随后抓取其中相链接的网页。增强网站的百度收录量。
案例:??按到ctrl键直接点击:/robots.txt
3.成立网站的sitemap地图文件。sitemap是一个将网站栏目和再连接归类的一个文件,是可以好地将网站影像展示给搜索引擎,能提高爬虫的爬取效率。sitemap地图文件包含html(根据用户)和xml(对于搜索引擎)两种。当网站更新频繁的时候,sitemap文件要可以做到自动出现更新完(程序利用),自动更新不过度的这个可以手动可以更新再提交。
4.图片img标签必须算上alt属性,并写清楚图片的含义。
5.h1~h6标签合理使用。按道理大部分标签都需要依据什么自身的语气合不合理去使用,这里不展开攻击讲述,这里只讲h标签的注意事项。h1标签一个页面只能直接出现1次,h2标签一般充当二级标题也可以文章的小标题。最合算的使用时h1~h6按顺序期限错配下来,好像不行断层或是反序。