티스토리 뷰

Study/Web

Method of blocking Web Robot

pursh 2011. 11. 15. 16:24
Web Robot은 흔히 검색 엔진(Search Engine)이라는 말로 표현된다.
다른 용어로는 Web Wanderers, Crawlers, Spiders 라는 표현을 사용하기도 한다.
대표적인 검색엔진으로는 Googlebot(구글)이 있다.
검색엔진을 통해 사이트 내 컨텐츠 확인이 가능하기에 필요시 검색되지 않도록 설정하는 것도 좋을 것 같다.

참고사이트로는 http://www.robotstxt.org 가 있다.
아래에 정리하는 내용 대부분은 위 사이트를 참고한 내용이다.


The Robots Exclusion Protocol

Web Robots이 접근 시  웹사이트에 대한 지침(Instructions)을 전달하기 위해 /robots.txt 파일을 사용할 수 있다.
Web Robots은 웹사이트에 접근 시 http://www.test.com/robots.txt 파일을 먼저 체크한다.

  User-agent: *
  Disallow: /
<Figure. 1>
몇 가지 주의할 점이 있다.
댓글