robots.txt / sitemap.xml 이란?
검색엔진 최적화(SEO, Search Engine Optimization)란 구글, 네이버와 같은 검색엔진의 검색 결과 상위에 랭크되어 많은 사람들이 방문할 수 있도록 하는 것입니다.
검색엔진이 웹사이트를 쉽게 찾아 크롤링하고 색인할 수 있게 해줘야하는데 이때 robots.txt와 sitemap.xml이 필요합니다.
robots.txt 란?
robots.txt 는 웹사이트에 대한 검색엔진 로봇들의 접근을 조절해주고 제어해주는 역할, 그리고 로봇들에게 웹사이트의 사이트맵이 어디 있는지 알려주는 역할을 합니다.
만약 웹사이트 내 특정 페이지가 검색엔진에 노출되지 않기를 바란다면 robots.txt파일을 설정하여 이를 제어할 수 있습니다.
robots.txt 는 일반 텍스트파일로 작성하고 사이트의 루트 디렉토리에 위치해야합니다.
예를들어 사이트 주소가 https://banpick.kr 이라면 https://banpick.kr/robots.txt 에 접근할 수 있어야합니다.
작성 예시:
User-agent: *
Allow: /
Disallow: /manage/
DIsallow: /admin/
위는 모든 웹 크롤러에게 허용하지만 URL/manage/ 페이지와 URL/admin/ 페이지는 색인을 하지 말라고 명시한 내용입니다.
robots.txt 가 크롤러의 동작을 제어하는것이 아니기에 보안적인 측면으로 활용할 수 없고 절대적으로 따른다는 보장은 없습니다.
sitemap.xml
sitemap.xml 은 웹사이트 내 모든 페이지의 목록을 나열한 파일로 웹사이트의 목차와 같은 역할을 합니다. 사이트맵을 제출하면 일반적인 크롤링 과정에서 쉽게 발견되지 않는 웹페이지도 문제없이 크롤링되고 색인될 수 있게 합니다.
sitemap.xml 은 정해진 양식으로 제작해야 합니다. Sitemap.org 사이트를 방문해보면 sitemap.xml 에 관한 샘플 포맷, xml 태그에 대한 자세한 설명을 읽어 볼 수 있습니다. 최근에는 사이트맵을 무료로 생성해주는 온라인 사이트들도 많으니 이러한 사이트를 참고하여 sitemap.xml 을 생성해보세요.
sitemap 은 반드시 UTF-8로 인코딩 되어야합니다.
작성 예시:
<?xml version="1.0" encoding="UTF-8"?>
<urlset
xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9
http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">
<!-- created with Free Online Sitemap Generator www.xml-sitemaps.com -->
<url>
<loc>https://example.com/</loc>
<priority>1.00</priority>
</url>
<url>
<loc>https://example.com/recruit/</loc>
<priority>0.80</priority>
</url>
<url>
<loc>https://example.com/login/</loc>
<priority>0.80</priority>
</url>
<url>
<loc>https://example.com/manage/</loc>
<priority>0.80</priority>
</url>
</urlset>