자주 묻는 질문
AI 준비도, llms.txt, 웹사이트를 AI 에이전트에 최적화하는 방법에 대해 알아야 할 모든 것.
AI 준비도 기초
AI 준비도는 웹사이트 콘텐츠가 ChatGPT, Claude, Perplexity 같은 AI 에이전트에 의해 얼마나 잘 이해, 추출, 활용될 수 있는지를 측정합니다. AI 기반 도구가 웹 트래픽의 주요 소스가 되면서, AI 준비된 사이트는 더 정확하게 인용되고, AI 생성 답변에 더 자주 나타나며, 처리에 필요한 토큰도 적습니다.
HTML을 시각적으로 렌더링하는 웹 브라우저와 달리, AI 에이전트는 페이지에서 텍스트 콘텐츠를 추출해야 합니다. 복잡한 스타일이 적용된 HTML보다 깔끔하고 잘 구조화된 콘텐츠를 선호합니다. Markdown으로 변환된 잘 구조화된 페이지는 원시 HTML보다 토큰을 70-80% 적게 사용하여 AI 제공업체에게 더 경제적이고 효율적입니다.
주요 AI 크롤러에는 GPTBot(OpenAI/ChatGPT), ClaudeBot(Anthropic/Claude), PerplexityBot(Perplexity), Google-Extended(Google Gemini), Bytespider(ByteDance), CCBot(Common Crawl) 등이 있습니다. 생태계가 성장함에 따라 새로운 AI 에이전트가 정기적으로 등장하고 있습니다.
llms.txt
llms.txt는 AI 에이전트가 웹사이트 구조를 이해하도록 돕는 새로운 표준(llmstxt.org에서 정의)입니다. robots.txt가 검색 엔진 크롤러를 안내하듯, llms.txt는 주요 페이지 링크와 함께 사이트의 Markdown 형식 개요를 제공하여 AI 에이전트가 콘텐츠를 쉽게 탐색할 수 있게 합니다.
llms.txt는 설명과 사이트 주요 페이지 링크가 포함된 간결한 인덱스입니다. llms-full.txt는 해당 페이지의 실제 콘텐츠를 인라인으로 포함하는 확장 버전으로, AI 에이전트가 링크를 따라갈 필요 없이 단일 파일에서 모든 것을 얻을 수 있습니다. 최소한 llms.txt를, 포괄적 커버리지를 위해 llms-full.txt를 사용하세요.
도메인 루트(예: example.com/llms.txt)에 llmstxt.org 사양에 따라 텍스트 파일을 만드세요. # 제목(사이트 이름)으로 시작하고, 인용 형식 설명을 추가한 다음, ## Documentation, ## Main 등의 섹션으로 정리된 링크를 나열하세요. AgentReady는 페이지 분석을 기반으로 추천 llms.txt를 생성할 수 있습니다.
AI를 위한 Markdown
Markdown은 시각적 마크업 잡음(CSS, JavaScript, 레이아웃 div)을 제거하면서 콘텐츠 구조(제목, 목록, 링크, 강조)를 유지하기 때문에 AI 에이전트가 선호하는 형식입니다. 콘텐츠의 Markdown 버전은 토큰을 크게 줄여 AI 시스템의 처리를 더 빠르고 저렴하게 만듭니다.
콘텐츠 협상은 클라이언트의 Accept 헤더에 따라 서버가 같은 페이지의 다른 형식을 제공할 수 있게 합니다. AI 에이전트가 Accept: text/markdown을 보내면 서버가 HTML 대신 Markdown 버전으로 응답할 수 있습니다. 별도의 URL을 만들지 않고 AI 친화적 콘텐츠를 제공하는 가장 효율적인 방법입니다.
두 가지 주요 접근 방식이 있습니다: (1) Accept: text/markdown 헤더를 감지하여 Markdown 콘텐츠를 반환하는 서버 로직 추가; (2) 페이지 옆에 .md 파일 생성(예: /about에 대해 /about.md)하고 llms.txt에서 링크. AgentReady는 자체 페이지에 두 가지 접근 방식을 모두 사용합니다.
구조화 데이터 & JSON-LD
JSON-LD(JavaScript Object Notation for Linked Data)는 Schema.org 어휘를 사용하여 페이지에 구조화 데이터를 포함하는 방법입니다. AI 에이전트는 이 데이터를 사용하여 제품 세부 정보, 기사 메타데이터, 조직 정보 등 사실 기반의 기계 판독 가능 정보를 HTML을 분석하지 않고 추출합니다.
콘텐츠에 가장 맞는 구체적 유형을 사용하세요: 기사에는 Article 또는 BlogPosting, 제품 페이지에는 Product, 회사 페이지에는 Organization, FAQ 페이지에는 FAQPage, 지역 사업체에는 LocalBusiness, 웹 도구에는 WebApplication. 선택한 유형의 name, description, 관련 속성을 항상 포함하세요.
Open Graph 태그(og:title, og:description, og:image)는 소셜 플랫폼과 AI 에이전트 모두가 페이지의 제목, 설명, 메인 이미지를 이해하기 위해 사용하는 표준화된 메타데이터를 제공합니다. 구현이 쉽고 다른 구조화 데이터가 없을 때 신뢰할 수 있는 대안으로 작용합니다.
robots.txt & AI 봇
robots.txt는 어떤 봇이 사이트에 접근할 수 있고 어떤 페이지를 크롤링할 수 있는지를 제어합니다. GPTBot, ClaudeBot 같은 AI 크롤러는 robots.txt 지시를 따릅니다. robots.txt가 이러한 봇을 차단하면 콘텐츠를 색인할 수 없으므로 AI 생성 답변에 사이트가 나타나지 않습니다.
AI 생성 답변에서의 가시성을 최대화하려면 최소한 다음을 허용하세요: GPTBot(OpenAI), ClaudeBot과 Claude-Web(Anthropic), PerplexityBot(Perplexity), Google-Extended(Google Gemini). 다른 봇에 대한 기존 규칙을 유지하면서 이러한 사용자 에이전트에 대한 특정 Allow 규칙을 추가할 수 있습니다.
Content-Signal은 AI 에이전트에게 콘텐츠 사용 방법을 알려주는 HTTP 헤더입니다. 예: Content-Signal: ai-train=yes, search=yes, ai-input=yes는 콘텐츠를 AI 훈련, 검색 색인, AI 답변 입력으로 사용할 수 있음을 나타냅니다. 퍼블리셔에게 AI 사용에 대한 명시적 통제권을 주는 새로운 표준입니다.
AgentReady 채점
AgentReady는 페이지를 가져오고, 콘텐츠를 추출하고, 5개 가중 차원에서 21개 개별 검사를 실행합니다. 각 검사는 0-100으로 평가되며, 차원들이 합산되어 0에서 100까지의 종합 점수가 됩니다. 문자 등급(A-F), 상세 분석, 점수 향상을 위한 우선순위별 권장사항을 받습니다.
5가지 차원은: 시맨틱 HTML(20%) — article, main, 제목, 시맨틱 요소의 올바른 사용; 콘텐츠 효율성(25%) — 토큰 감소율과 콘텐츠 대 잡음 비율; AI 발견 가능성(25%) — llms.txt, robots.txt, 사이트맵, Markdown 협상; 구조화 데이터(15%) — Schema.org, Open Graph, 메타 태그; 접근성(15%) — JavaScript 없이 콘텐츠, 페이지 크기, 콘텐츠 위치.
네! 단일 페이지 분석은 완전 무료이며 가입이 필요 없습니다. 전체 점수, 권장사항, Markdown 변환, llms.txt 미리보기를 받을 수 있습니다. 현재 베타 기간으로 시간당 5회 분석 제한이 있습니다. 전체 도메인 크롤링 및 모니터링 기능이 곧 출시됩니다.
유용한 리소스
- llmstxt.org — llms.txt specification
- schema.org — Schema.org vocabulary
- w3.org/TR/json-ld11 — W3C JSON-LD specification
- ogp.me — Open Graph Protocol
- robotstxt.org — robots.txt standard
- commonmark.org — CommonMark Markdown specification
- RFC 7231 — HTTP Content Negotiation