编辑“︁Next.js robots.txt”︁

= Next.js robots.txt =

== 介绍 ==
'''robots.txt''' 是网站根目录下的一个文本文件，用于指示网络爬虫（如Googlebot）哪些页面可以抓取，哪些应该忽略。在Next.js中，可以通过静态生成或动态生成的方式创建此文件，这对SEO优化至关重要。

Next.js支持两种主要方式处理robots.txt：
* '''静态生成'''：适用于内容不变的场景
* '''动态生成'''：当需要根据不同环境（如开发/生产）返回不同规则时使用

== 基本语法 ==
robots.txt遵循特定语法规则：
<syntaxhighlight lang="text">
User-agent: [爬虫名称]
Disallow: [禁止访问的路径]
Allow: [允许访问的路径]
Sitemap: [网站地图URL]
</syntaxhighlight>

== 静态生成方法 ==
=== public目录放置 ===
最简单的方法是在Next.js项目的<code>public/</code>目录下直接创建robots.txt文件：

<syntaxhighlight lang="text">
# public/robots.txt
User-agent: *
Allow: /
Disallow: /private/
Sitemap: https://example.com/sitemap.xml
</syntaxhighlight>

=== 使用next.config.js ===
可以通过Next.js配置动态生成：

<syntaxhighlight lang="javascript">
// next.config.js
module.exports = {
  async headers() {
    return [
      {
        source: '/robots.txt',
        headers: [
          {
            key: 'Content-Type',
            value: 'text/plain',
          },
        ],
      },
    ];
  },
};
</syntaxhighlight>

== 动态生成方法 ==
对于需要环境判断的场景，可以使用API路由：

<syntaxhighlight lang="javascript">
// pages/api/robots.js
export default function handler(req, res) {
  const isProduction = process.env.NODE_ENV === 'production';
  
  const robotsText = `
User-agent: *
${isProduction ? 'Allow: /' : 'Disallow: /'}
Disallow: /admin/
Sitemap: ${process.env.NEXT_PUBLIC_SITE_URL}/sitemap.xml
  `.trim();

  res.setHeader('Content-Type', 'text/plain');
  res.send(robotsText);
}
</syntaxhighlight>

== 高级配置 ==
=== 多环境处理 ===
可以根据不同环境返回不同规则：

<syntaxhighlight lang="javascript">
// pages/api/robots.js
const getRobotsTxt = (env) => {
  const baseRules = {
    development: `User-agent: *\nDisallow: /`,
    staging: `User-agent: *\nDisallow: /admin/`,
    production: `User-agent: *\nAllow: /\nDisallow: /private/`
  };
  
  return baseRules[env] || baseRules.production;
};

export default (req, res) => {
  const env = process.env.NEXT_PUBLIC_APP_ENV || 'development';
  res.setHeader('Content-Type', 'text/plain');
  res.send(getRobotsTxt(env));
};
</syntaxhighlight>

=== 基于用户代理的规则 ===
可以为不同爬虫设置特定规则：

<syntaxhighlight lang="javascript">
// pages/api/robots.js
const rules = {
  googlebot: {
    allow: ['/search', '/images'],
    disallow: ['/admin']
  },
  bingbot: {
    allow: ['/'],
    disallow: ['/private']
  }
};

export default (req, res) => {
  const userAgent = req.headers['user-agent'] || '';
  const botRules = Object.entries(rules).map(([bot, {allow, disallow}]) => {
    return `User-agent: ${bot}
${allow.map(path => `Allow: ${path}`).join('\n')}
${disallow.map(path => `Disallow: ${path}`).join('\n')}`;
  }).join('\n\n');

  res.setHeader('Content-Type', 'text/plain');
  res.send(botRules);
};
</syntaxhighlight>

== 验证与测试 ==
可以使用以下工具验证robots.txt：
* Google Search Console的robots.txt测试工具
* 在线验证器如https://technicalseo.com/tools/robots-txt/
* 命令行工具：<code>curl https://yourdomain.com/robots.txt</code>

== 最佳实践 ==
1. '''生产环境必须允许爬虫访问'''：除非是开发/测试环境
2. '''保护敏感区域'''：如/admin/, /api/等
3. '''包含sitemap'''：帮助搜索引擎发现内容
4. '''定期检查'''：确保规则与网站结构同步
5. '''避免过度限制'''：可能影响SEO效果

== 常见问题 ==
=== 为什么我的robots.txt不生效？ ===
可能原因：
* 文件未放置在正确位置（应位于根目录）
* 服务器未正确配置MIME类型（应为text/plain）
* 缓存问题（尝试强制刷新）

=== 如何阻止所有爬虫？ ===
<syntaxhighlight lang="text">
User-agent: *
Disallow: /
</syntaxhighlight>

=== 如何仅允许特定爬虫？ ===
<syntaxhighlight lang="text">
User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /
</syntaxhighlight>

== 性能考量 ==
使用静态robots.txt（public目录）比API路由性能更好，因为：
* 无需服务器处理
* 可直接由CDN缓存
* 减少服务器负载

<mermaid>
pie
    title robots.txt生成方式占比
    "静态生成" : 65
    "API路由" : 25
    "服务器配置" : 10
</mermaid>

== 数学表达 ==
robots.txt的覆盖率可以用以下公式表示：

<math>
\text{Coverage} = \frac{\text{Allowed Pages}}{\text{Total Pages}} \times 100\%
</math>

其中：
* '''Allowed Pages''' = 允许爬虫访问的页面数
* '''Total Pages''' = 网站总页面数

== 实际案例 ==
'''电商网站示例'''：
<syntaxhighlight lang="text">
User-agent: *
Allow: /products/
Allow: /categories/
Disallow: /cart/
Disallow: /checkout/
Disallow: /user/
Sitemap: https://shop.example.com/sitemap.xml

# 特别规则
User-agent: Googlebot-Image
Allow: /images/
Disallow: /private-images/
</syntaxhighlight>

'''博客平台示例'''：
<syntaxhighlight lang="text">
User-agent: *
Allow: /posts/
Allow: /tags/
Disallow: /drafts/
Disallow: /admin/
Sitemap: https://blog.example.com/sitemap.xml
</syntaxhighlight>

== 总结 ==
robots.txt是Next.js SEO策略的重要组成部分。通过合理配置：
* 控制搜索引擎爬虫的访问权限
* 保护敏感内容不被索引
* 提高网站内容的可发现性
* 优化搜索引擎爬取效率

无论是静态生成还是动态生成，都应确保规则清晰、准确，并定期审查以适应网站结构变化。

[[Category:后端框架]]
[[Category:Next.js]]
[[Category:Next.js SEO与性能优化]]