robots.txt 文件怎么配置才能做好 SEO？

terry 2个月前 (10-25) 阅读数 481 #Vue

文章标签 txt；SEO

做 SEO 时，很多人知道要优化内容、搞外链，但往往忽略robots.txt这个“藏在网站后台的开关”——它是网站和搜索引擎爬虫对话的“门卫”，配置对了能让爬虫高效抓取优质内容，配错了可能直接让重要页面收录不了，甚至拖累排名，那 robots.txt 到底怎么配置才能给 SEO 加分？这篇从基础到进阶的问答式教程，把关键逻辑和实操细节讲透。

robots.txt 到底是干啥的？

简单说,它是放在网站根目录（www.xxx.com/robots.txt）的纯文本文件，作用是告诉搜索引擎爬虫：“这个页面能不能爬？那个文件夹给不给看？” 举个例子：

电商网站后台（www.xxx.com/admin/）全是订单、库存这些敏感操作，肯定要禁止爬虫爬，否则数据暴露还可能让无效页面被收录；
博客的“草稿箱”页面（www.xxx.com/draft/）全是没写完的内容，也得屏蔽，不然搜索引擎抓到半成品页面，用户体验差还影响权重；
反过来,首页、产品详情页、优质文章页这些核心页面，得明确告诉爬虫“欢迎来爬”，才能让内容更快被收录、参与排名。

要是没这个文件,爬虫会“盲爬”——碰到啥抓啥，可能把你不想公开的页面全抓了，还会因为爬取无效页面浪费爬虫配额（比如百度给每个站点的抓取次数是有限的），导致真正重要的页面没被优先抓取。

配置前必须掌握的基础语法

robots.txt 就像一套“指令语言”，几个核心指令得先搞懂：

① User - agent：指定“对谁下命令”

每个搜索引擎的爬虫都有“代号”，比如百度是 Baiduspider，谷歌是 Googlebot，头条搜索是 Bytespider，如果写 User - agent: *，代表“所有爬虫都要遵守下面的规则”；要是单独针对百度，就写 User - agent: Baiduspider。

② Disallow：“禁止爬哪个路径”

后面跟的是相对路径（从根目录开始算）。Disallow: /admin/，意思是“所有匹配 User - agent 规则的爬虫，不能爬根目录下 admin 文件夹里的内容”；如果写 Disallow: /login.html，就是禁止爬登录页面。

③ Allow：“允许爬哪个路径（优先级更高）”

当 Disallow 和 Allow 规则冲突时，Allow 优先，比如你想禁止整个 /blog/ 文件夹，但其中 /blog/good - article/ 是优质内容要开放，就可以这么写：

User - agent: *  
Disallow: /blog/  
Allow: /blog/good - article/

这样爬虫会绕开 /blog/ 里的其他内容，但会优先爬 /good - article/ 里的页面。

④ Sitemap：“给爬虫指个‘地图’”

用来告诉爬虫“我的站点地图在这，你按这个顺序爬更高效”，格式是 Sitemap: https://www.xxx.com/sitemap.xml（注意要写完整的绝对 URL），站点地图里列了网站所有重要页面的地址和更新时间，爬虫看了能更有针对性地抓内容，收录效率会更高。

核心规则配置：允许与禁止的平衡

配置的核心逻辑是“开放优质内容，屏蔽无效 / 敏感内容”，分两类场景说：

▌必须“允许”的页面

首页：网站的“门面”，承载核心业务信息，必须写 Allow: /（如果是针对所有爬虫，结合 User - agent: *）；
产品 / 文章详情页：比如电商的 https://www.xxx.com/product/123.html，博客的 https://www.xxx.com/post/456.html，这些页面是流量和转化的核心，要确保爬虫能抓到；
栏目页（分类页）：https://www.xxx.com/category/tech/，能引导爬虫发现下属的详情页，也要允许。

▌必须“禁止”的页面

后台管理页：如 /admin/、/wp - admin/（WordPress 后台），里面全是运营操作，既敏感又无价值；
会员中心 / 订单页：如 /user/、/order/，涉及用户隐私和未公开信息；
临时页面：比如促销活动的预热页（/promo - temp/）、测试页（/test/），内容没定稿前别让爬虫抓；页：比如标签聚合页（/tag/SEO/）、日期归档页（/2024/09/），这些页面内容和详情页重复度高，被收录后会分散权重，甚至触发“重复内容惩罚”。

举个实操例子：某美妆博客的 robots.txt 可以这么写（针对所有爬虫）：

User - agent: *  
Allow: /  
Allow: /post/  
Disallow: /admin/  
Disallow: /tag/  
Disallow: /draft/  
Sitemap: https://www.meizhuangblog.com/sitemap.xml

解释：允许爬首页和所有文章详情页（/post/ 下的内容），但屏蔽后台、标签页、草稿页，同时把站点地图地址给爬虫。

不同页面类型的精细化配置

网站页面类型多,光分“允许 / 禁止”不够，还要针对分页、动态参数、多语言等场景细化规则：

▌分页页面：别让爬虫“死循环”

比如资讯站的列表页有分页,URL 是 https://www.xxx.com/news/?page=2、?page=3… 这种页面内容重复度高（只是排序不同），如果全开放，爬虫会一直爬分页，浪费抓取配额，建议：

只允许爬第 1 页（列表首页），禁止后续分页：Disallow: /news/?page=（注意参数匹配，不同站点 URL 结构不同，要对应写）；
如果分页是静态路径（如 /news/page/2/），就写 Disallow: /news/page/，只留 /news/（第 1 页）开放。

▌动态参数页：警惕“无限重复”

电商网站常见带参数的 URL，https://www.xxx.com/product/?sort=price（按价格排序）、?filter=brand（按品牌筛选），这些页面内容和主产品页重复，还会生成无数变种 URL，必须禁止：

Disallow: /product/?sort=  
Disallow: /product/?filter=

不然搜索引擎会认为你在“制造重复内容”，影响排名。

▌多语言页面：分区域管理

做外贸站的同学,网站有 /en/（英文）、/es/（西班牙文）、/zh/（中文）等路径，要针对不同国家的爬虫配置：
比如对 Googlebot（国际爬虫），允许爬 /en/ 和 /es/；对 Baiduspider（国内爬虫），只允许爬 /zh/：

User - agent: Googlebot  
Allow: /en/  
Allow: /es/  
Disallow: /zh/  
User - agent: Baiduspider  
Allow: /zh/  
Disallow: /en/  
Disallow: /es/  
Sitemap: https://www.xxx.com/sitemap - multi.xml

这样能避免不同语言页面被错误抓取,也符合不同地区用户的搜索习惯。

多终端适配：PC 与移动端的区别

现在很多网站是“PC + 移动端”分离（m.xxx.com 是移动端域名），robots.txt 也要“分端配置”：

▌PC 端 robots.txt

放在 www.xxx.com/robots.txt，规则围绕 PC 页面结构来，PC 的导航更复杂，要屏蔽的后台、标签页和之前讲的逻辑一致。

▌移动端 robots.txt

放在 m.xxx.com/robots.txt，注意移动端页面的特点：

页面更简洁,可能没有 PC 端的某些功能页（比如移动端没有复杂的后台入口），但页（如移动端产品详情）必须允许抓取；
针对移动端爬虫（如 Googlebot - Mobile、Baiduspider - mobile）单独写规则，
```
User - agent: Baiduspider - mobile  
Allow: /  
Disallow: /m - admin/  
Sitemap: https://m.xxx.com/sitemap - mobile.xml
```
这样百度移动爬虫就知道“移动端首页能爬，后台不能爬，同时看站点地图”。

如果你的网站是响应式（PC 和移动端用同一个域名，自动适配设备），那 robots.txt 只用一个，规则要同时覆盖两端的页面结构，避免“移动端能爬的页面 PC 端被误屏蔽”。

特殊场景下的 robots 策略

除了日常配置,碰到站点迁移、爬虫陷阱、SEO 测试这些特殊情况，robots.txt 要灵活调整：

▌站点迁移时：先“锁门”再“开门”

比如从旧域名 old.com 迁到 new.com，步骤是：

旧站 robots.txt 里写 User - agent: * Disallow: /（禁止所有爬虫爬旧站，避免新旧站内容冲突）；
新站 robots.txt 正常配置允许规则，同时在新站做 301 跳转（把 old.com 的页面跳转到 new.com 对应页面）；
迁移完成后,旧站 robots.txt 可以恢复（或保留禁止，逐步下线旧站）。

▌屏蔽“爬虫陷阱”：别让爬虫累死

有些页面会生成无限多 URL（比如论坛的“按时间排序 + 按热度排序”组合，生成 ?sort=time&filter=hot 这类 URL），或者带会话 ID 的页面（?session=12345），这些页面毫无价值还浪费爬虫资源，必须禁止：

Disallow: /*?session=  
Disallow: /*?sort=time&filter=

（*代表通配符，匹配任意前缀）

▌SEO 测试阶段：先“闭门造车”

新站上线前,或者大改版时，先在 robots.txt 里写 User - agent: * Disallow: /，这样爬虫进不来，你可以安心测试页面加载速度、内容排版、内链结构，等一切 OK 后，再改成允许规则，避免测试中的半成品页面被收录。

90% 的人会踩的配置雷区

配置时一个小失误,可能让 SEO 努力白费，这些“坑”要避开：

▌雷区 1：Disallow 和 Allow 写反

想禁止爬虫爬 /admin/，结果写成 Allow: /admin/，等于主动邀请爬虫去爬敏感页面，数据泄露风险陡增。

▌雷区 2：路径匹配不精确

比如要禁止的是 /login.html，结果写成 Disallow: /login，这会导致 /login - test.html 这类页面也被误屏蔽；反过来，想禁止整个 /blog/ 文件夹，写成 Disallow: /blog（少了斜杠），可能让 /blog - list.html 这类页面被错误禁止。

▌雷区 3：忘记配置 Sitemap

很多人只写允许 / 禁止规则，忽略 Sitemap，相当于“只告诉爬虫不能去哪，没告诉该去哪”，爬虫抓内容的效率会大打折扣，尤其是页面层级深的网站（比如电商有三级分类），站点地图能帮爬虫快速定位重要页面。

▌雷区 4：多语言 / 多区域站点规则混乱

比如中文站和英文站用同一个 robots.txt，结果把英文页面的规则套到中文页面，导致国内用户搜不到中文内容，国际用户也看不到英文内容。

▌雷区 5：页面改版后不更新规则

比如之前禁止的 /draft/ 草稿页，改版后路径改成了 /unpublished/，但 robots.txt 没改，等于新的草稿页还能被爬虫抓到，半成品内容被收录后影响用户体验。

配置后必做的验证与调试

规则写好不是终点,得验证“爬虫到底听不听话”：

▌用搜索引擎站长工具测试

百度搜索资源平台：进入“站点属性”→“robots 测试工具”，输入要测试的 URL，看是“允许”还是“禁止”；
Google Search Console：打开“Coverage”→“robots testing tool”，同样输入 URL 验证。

▌手动检查 robots.txt

直接在浏览器输入“域名 /robots.txt”（https://www.xxx.com/robots.txt），看规则是否和你配置的一致，有没有语法错误（比如少写 User - agent、路径拼写错）。

▌分析爬虫访问日志

服务器日志（Apache、Nginx 日志）里能看到“Baiduspider”“Googlebot”这些爬虫的访问记录，看它们是否在爬你允许的页面，有没有去爬被禁止的页面，如果发现被禁止的页面还有爬虫访问，说明规则写得有问题，要回头检查路径匹配、User - agent 是否写对。

robots.txt 配置的本质是“给搜索引擎爬虫画路线图”——让它高效抓取优质内容，避开无效页面，从基础语法到多终端、特殊场景，每个环节都要结合自己网站的业务逻辑（比如电商要防爬虫抓订单页，博客要防抓草稿页），配置后一定要验证，别让辛苦写的规则“形同虚设”，SEO 不是一锤子买卖，robots.txt 要随着网站迭代、页面结构变化持续优化，它和内容、外链、页面体验一起，构成网站在搜索引擎里的“竞争力拼图”。

版权声明

本文仅代表作者观点，不代表Code前端网立场。
本文系作者Code前端网发表，如需转载，请注明页面地址。

上一篇：一、什么是网站404页面，为什么要优化它？下一篇：一、网站加载慢为啥会影响SEO？