일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- 인프라
- Java
- 웹 크롤링
- 유닉스
- JVM
- 뉴턴역학
- Spring boot
- kotlin
- Database
- write by GPT-4
- 리눅스
- 자바네트워크
- 자바
- Spring Batch
- 고전역학
- oracle
- 코틀린
- android
- NIO
- write by chatGPT
- 파이썬
- 역학
- 소프트웨어공학
- 자바암호
- python
- chatGPT's answer
- GIT
- 시스템
- GPT-4's answer
- lombok
- Today
- Total
목록2024/04/24 (4)
Akashic Records
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/R4X3C/btsGSjSqrr8/HIevSX92jUCv00P8fcpulK/img.webp)
http://quotes.toscrape.com/ 사이트를 너비 우선 탐색(BFS) 방법으로 크롤링하고, 크롤링된 데이터를 엑셀 파일에 저장하는 파이썬 스크립트를 작성해드리겠습니다. 이 스크립트는 각 페이지에서 인용구, 저자, 태그를 추출하고, 설정된 최대 깊이(max_depth)까지 탐색합니다. 필요한 라이브러리 설치다음 라이브러리를 설치하세요. requests와 BeautifulSoup는 웹 크롤링을 위해, pandas와 openpyxl은 엑셀 파일 작업을 위해 사용됩니다.pip install beautifulsoup4 requests pandas openpyxl 너비 우선 탐색(BFS) 웹 크롤러 코드import requestsfrom bs4 import BeautifulSoup..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/3ZW3s/btsGRqj8zWX/8Qt06x6yuAg9LlBbk5yOQ1/img.webp)
http://books.toscrape.com/ 사이트를 너비 우선 탐색(BFS) 방식으로 크롤링하는 파이썬 스크립트를 제공하겠습니다. 이 스크립트는 각 페이지를 방문하고, 각 책의 정보(제목, 가격, 재고 상태)를 추출하며, 모든 페이지를 방문할 때까지 'Next' 버튼을 통해 다음 페이지로 넘어갑니다. 필요한 라이브러리 설치pip install beautifulsoup4 requests 너비 우선 탐색(BFS) 웹 크롤러 코드import requestsfrom bs4 import BeautifulSoupfrom urllib.parse import urljoinfrom collections import dequedef get_books_from_page(soup): ""..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cRUVOp/btsGRhNXvgZ/jamWgHwN7Tacj9ZtRMPDu1/img.webp)
깊이 우선 탐색(DFS) 알고리즘을 사용하여 웹 페이지를 크롤링하는 파이썬 코드를 설계하겠습니다. DFS 알고리즘은 각 링크를 따라 최대한 깊이 들어가면서 크롤링을 진행하며, 스택이나 재귀 함수를 사용하여 구현할 수 있습니다. 여기서는 재귀 함수를 사용하여 구현하겠습니다. 필요한 라이브러리 설치pip install beautifulsoup4 requests 깊이 우선 탐색(DFS) 웹 크롤러 코드import requestsfrom urllib.parse import urljoin, urlparsefrom bs4 import BeautifulSoupdef is_valid_url(base_url, url): """ 동일 도메인 내의 URL인지 검사하고, 유효한 링크인지 확인합니..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/zdp7O/btsGRqc4lrq/ZgfSl1D1TFKBIPKksdYNzk/img.webp)
웹 페이지의 태그 링크를 따라가면서 연속적으로 URL을 찾아 분석하는 웹 크롤러를 만드는 것은 깊이 우선 탐색(DFS)이나 너비 우선 탐색(BFS)의 로직을 따를 수 있습니다. 여기서는 너비 우선 탐색을 사용한 기본적인 웹 크롤러를 설계하겠습니다. 이 크롤러는 시작 URL에서 링크를 추출하고, 각 링크를 방문하여 다시 링크를 추출하는 과정을 반복합니다. 몇 가지 단순화된 가정을 하고, 외부 링크는 무시하고 동일 도메인 내에서만 크롤링하도록 설정하겠습니다. 필요한 라이브러리 설치pip install beautifulsoup4 requests BFS 웹 크롤러 코드import requestsfrom urllib.parse import urljoin, urlparsefrom bs4 imp..