본문 바로가기

728x90

Crawling2

웹 크롤링에 robots.txt 적용하기 웹 크롤링을 수행할 때 robots.txt 파일의 규칙을 준수하는 것은 매우 중요합니다. robots.txt는 웹사이트가 웹 크롤러에게 어떤 부분을 크롤링해도 되고 어떤 부분을 크롤링하지 말아야 하는지를 알려주는 파일입니다. 이 파일을 존중하고 준수함으로써, 웹사이트의 리소스를 보호하고, 크롤러가 차단되는 상황을 피할 수 있습니다. robots.txt 파일 이해하기robots.txt 파일은 주로 웹사이트의 루트 디렉토리에 위치하며, 다음과 같은 형식으로 작성됩니다:User-agent: *Disallow: /some-directory/Disallow: /another-directory/위 예에서 User-agent: *는 모든 크롤러에게 적용된다는 것을 의미하며, Disallow 지시어는 크롤러가 접근을 .. 2024. 4. 30.

웹 크롤링이란 무엇인가? "크롤링"이라는 용어는 영어 단어 "crawl"에서 유래되었습니다. 이 단어는 '기어다니다'라는 뜻을 가지고 있습니다. 웹 크롤링에서, 이 용어는 인터넷 상의 웹 페이지를 체계적으로 순회하며 정보를 수집하는 소프트웨어 '크롤러'의 작업 방식을 비유적으로 표현합니다. 마치 작은 벌레나 거미가 망을 타고 이동하듯이, 웹 크롤러는 웹사이트의 한 페이지에서 다른 페이지로 링크를 따라 '기어가며' 데이터를 수집합니다. 이러한 메커니즘은 크롤러가 웹의 광범위한 네트워크를 천천히 및 체계적으로 탐색하는 방식을 잘 나타냅니다. 웹 크롤링(Web crawling)은 인터넷 상의 웹 페이지들로부터 정보를 자동으로 수집하는 과정을 말합니다. 이 과정은 "크롤러"라고 불리는 자동화된 소프트웨어(또는 '봇')를 사용하여 수행됩.. 2024. 4. 18.

이전 1 다음

728x90

티스토리툴바