Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 소프트웨어공학
- Database
- chatGPT's answer
- 리눅스
- python
- 자바암호
- lombok
- flet
- write by GPT-4
- GPT-4's answer
- GIT
- 유닉스
- NIO
- 역학
- 파이썬
- android
- 자바
- oracle
- 코틀린
- 웹 크롤링
- 뉴턴역학
- 시스템
- 자바네트워크
- 고전역학
- 인프라
- kotlin
- Spring boot
- Java
- write by chatGPT
- JVM
Archives
- Today
- Total
목록web crawler (1)
728x90
Akashic Records
Scrapy, Pipelines
Scrapy 파이프라인Scrapy는 웹 크롤링과 스크레이핑을 위한 파이썬 프레임워크로, 웹 사이트로부터 데이터를 추출하고 이를 다양한 형식으로 저장할 수 있게 해줍니다. Scrapy 프로젝트의 중요한 구성 요소 중 하나는 파이프라인(pipeline)입니다. 파이프라인은 데이터 처리를 위한 일련의 과정을 정의하며, 크롤링 과정에서 수집된 아이템을 처리하고 저장하는 역할을 합니다. Scrapy 파이프라인의 주요 기능클린업: 수집된 데이터의 포맷을 정리하거나, 타이핑 오류를 수정하는 등의 클린업 작업을 수행합니다.유효성 검사: 아이템이 완전하고 유효한지 확인합니다. 예를 들어 필수 필드가 비어 있지 않은지 검사할 수 있습니다.아이템 중복 제거: 동일한 아이템이 여러 번 수집되는 것을 방지합니다.데이터 저장: ..
Web Crawling for Beginners
2024. 7. 10. 13:15