Method of blocking Web Robot

티스토리 뷰

Study/Web

Method of blocking Web Robot

pursh 2011. 11. 15. 16:24

Web Robot은 흔히 검색 엔진(Search Engine)이라는 말로 표현된다.
다른 용어로는 Web Wanderers, Crawlers, Spiders 라는 표현을 사용하기도 한다.
대표적인 검색엔진으로는 Googlebot(구글)이 있다.
검색엔진을 통해 사이트 내 컨텐츠 확인이 가능하기에 필요시 검색되지 않도록 설정하는 것도 좋을 것 같다.

참고사이트로는 http://www.robotstxt.org 가 있다.
아래에 정리하는 내용 대부분은 위 사이트를 참고한 내용이다.

The Robots Exclusion Protocol

Web Robots이 접근 시 웹사이트에 대한 지침(Instructions)을 전달하기 위해 /robots.txt 파일을 사용할 수 있다.
Web Robots은 웹사이트에 접근 시 http://www.test.com/robots.txt 파일을 먼저 체크한다.

User-agent: *
Disallow: /

<Figure. 1>

몇 가지 주의할 점이 있다.

홈페이지 보안 취약점을 스캔하는 악성 로봇(Malware Robots), 스패머가 사용하는 이메일 주소 수집기 등은 /robots.txt를 확인하지 않는다.
/robots.txt 파일은 누구나 접근할 수 있으며, 검색 엔진이 접근하는 막기 위해 설정해 놓은 URL을 누구나 확인할 수 있다.

두 가지 주의할 점을 참고한다면, 특정 정보를 숨기기 위해 /robots.txt 를 사용하는 것은 좋지 않은 것 같다.

How to create a /robots.txt file

/robots.txt 파일은 웹서버 최상위 디렉터리에 만들어야 한다.
Robots은 URL에 있는 path component("/")를 제거한 후 '/robots.txt"을 삽입한다.
따라서 메인 웹사이트 "index.html"이 있는 곳에 /robots.txt 파일을 생성해야 한다.

What to put in it

/robots.txt 파일에는 하나 이상의 레코드(records)를 입력할 수 있다.

   User-agent: *
   Disallow: /cgi-bin/
   Disallow: /tmp
   Disallow: /~joe/

<Figure. 2>

"Disallow:"에 URL을 입력할 때 한 라인에 추가할 수 없으며 라인별로 "Disallow:"를 입력해 주어야 한다.

Disallow: /cgi-bin/ /tmp/

<Figure. 3>

<Figure. 3>처럼 입력해서 사용할 수 없고

Disallow: /cgi-bin/
Disallow: /tmp/

<Figure. 4>

<Figure. 4>형식으로 입력해서 사용해야 한다.

그리고 User-agent 나 Disallow 에 내용을 입력할 때 <Figure. 5>처럼 정규표현식을 사용할 수 없다.

   User-agent: *bot*
   Disallow: /tmp/*
   Disallow: *.gif

<Figure. 5>

/robots.txt 파일 내용에 대해 몇 가지 예시들고자 한다.

User-agent: *
Disallow: /

<Figure. 6>

<Figure. 6>은 전체 Robots에 대해 모든 URL 검색을 차단하는 것이다.

User-agent: *
Disallow:

<Figure. 7>

<Figure. 7>은 전체 Robots이 제한 없이 모든 URL 검색이 가능하다.

   User-agent: *
   Disallow: /cgi-bin/
   Disallow: /tmp/
   Disallow: /junk/

<Figure. 8>

<Figure. 8>은 전체 Robots에 대해 "/cgi-bin/", "/tmp/", "/junk/" URL 접근을 차단한다.

   User-agent: Google
   Disallow:

   User-agent: *
   Disallow: /

<Figure. 9>

<Figure. 9>는 Google Bots만 검색을 허용하며 나머지 Bots은 검색을 차단한다.

저작자표시 비영리 (새창열림)

'Study > Web' 카테고리의 다른 글

Chrome Standalone 설치 파일 다운로드 (0)	2022.07.06
아파치 모듈 mod_log_config (아파치 상세 로그 설정) (0)	2011.11.16

공유하기 링크

페이스북
카카오스토리
트위터

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

BoanHack

티스토리 뷰

Method of blocking Web Robot

'Study > Web' 카테고리의 다른 글

티스토리툴바