Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
Tags
- Spring Batch
- oracle
- write by chatGPT
- 뉴턴역학
- 고전역학
- 자바
- Database
- python
- 코틀린
- NIO
- 유닉스
- lombok
- Java
- android
- 자바네트워크
- 소프트웨어공학
- Spring boot
- GIT
- write by GPT-4
- chatGPT's answer
- 역학
- 시스템
- 리눅스
- GPT-4's answer
- 파이썬
- 웹 크롤링
- JVM
- kotlin
- 인프라
- 자바암호
Archives
- Today
- Total
목록2024/04/30 (1)
728x90
Akashic Records
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/GqX48/btsG0VRMuoO/jBnIw0Kjhi22HoF3PcEX8k/img.webp)
웹 크롤링을 수행할 때 robots.txt 파일의 규칙을 준수하는 것은 매우 중요합니다. robots.txt는 웹사이트가 웹 크롤러에게 어떤 부분을 크롤링해도 되고 어떤 부분을 크롤링하지 말아야 하는지를 알려주는 파일입니다. 이 파일을 존중하고 준수함으로써, 웹사이트의 리소스를 보호하고, 크롤러가 차단되는 상황을 피할 수 있습니다. robots.txt 파일 이해하기robots.txt 파일은 주로 웹사이트의 루트 디렉토리에 위치하며, 다음과 같은 형식으로 작성됩니다:User-agent: *Disallow: /some-directory/Disallow: /another-directory/위 예에서 User-agent: *는 모든 크롤러에게 적용된다는 것을 의미하며, Disallow 지시어는 크롤러가 접근을 ..
Web Crawling for Beginners
2024. 4. 30. 14:06