일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- android
- 유닉스
- write by chatGPT
- python
- 웹 크롤링
- 역학
- GIT
- GPT-4's answer
- 자바암호
- 자바
- lombok
- 소프트웨어공학
- kotlin
- Spring boot
- Spring Batch
- 시스템
- 코틀린
- JVM
- 파이썬
- 뉴턴역학
- oracle
- Database
- 자바네트워크
- write by GPT-4
- 리눅스
- 인프라
- NIO
- 고전역학
- Java
- chatGPT's answer
- Today
- Total
목록Web Crawling for Beginners (20)
Akashic Records
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/IZzds/btsHxEHWurY/beyas8u1QRzlI0u1oqe39K/img.png)
파이썬에서 데이터 시각화를 위해 사용할 수 있는 여러 도구와 라이브러리가 있습니다. 여기 몇 가지 주요 옵션을 소개하겠습니다:Matplotlib: 파이썬에서 가장 널리 사용되는 데이터 시각화 라이브러리 중 하나로, 다양한 플롯과 그래프를 만드는 데 유용합니다. 선 그래프, 막대 그래프, 히스토그램, 산점도 등을 쉽게 생성할 수 있습니다.Seaborn: Matplotlib을 기반으로 하여 보다 현대적이고 시각적으로 아름다운 그래픽을 만드는 데 초점을 맞춘 라이브러리입니다. 통계적 데이터 시각화에 특화되어 있어 복잡한 데이터 구조를 보다 쉽게 해석할 수 있습니다.Pandas Visualization: Pandas 데이터 구조를 직접 시각화할 수 있는 기능을 제공합니다. 이는 데이터 처리와 시각화를 동시에 할..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/eagmh1/btsHqbteAGx/7E3UIBAhNatphqA8RydxoK/img.webp)
Scrapy에서 로그를 작성하는 방법은 여러 가지가 있습니다. 로깅 시스템을 사용하면 크롤링 프로세스의 세부 사항을 기록하여 디버깅을 쉽게 하고 문제를 빠르게 해결할 수 있습니다. Scrapy 로깅 설정Scrapy는 Python의 내장 logging 라이브러리를 사용하여 로그를 관리합니다. 기본적으로 Scrapy는 다양한 로그 레벨(INFO, WARNING, ERROR 등)로 메시지를 출력합니다. 기본 로그 설정Scrapy의 settings.py 파일에서 로그 레벨을 설정할 수 있습니다. 예를 들어, 로그 레벨을 DEBUG로 설정하면 다음과 같이 할 수 있습니다:LOG_LEVEL = 'DEBUG'이렇게 하면 DEBUG 레벨 이상의 모든 로그가 출력됩니다. 로그 파일 설정로그 메시지를 파일에 저장하고 싶다..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/lAxlJ/btsHq8bbZJP/j1lyqorallZlwo3uVf11f1/img.webp)
여러 페이지로 구성된 웹사이트에서 크롤링된 데이터를 Excel 파일로 저장하도록 Scrapy 스파이더를 수정하기 위해 pandas 라이브러리를 사용하여 데이터 프레임을 처리하고 이를 .xlsx 파일로 저장합니다. 이전에 제공된 다중 페이지 크롤러 예제를 조정하여 데이터를 Excel 파일에 저장하는 방법은 다음과 같습니다. 필수 Libraries 설치하기시작하기 전에 필요한 Python 라이브러리가 설치되어 있는지 확인해야 합니다. 아직 설치하지 않았다면 pip를 사용하여 설치할 수 있습니다.pip install scrapy pandas openpyxlopenpyxl is needed as it is a dependency for writing Excel files with pandas. 1단계: 새 Sc..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/m8AOG/btsHn4te4Qk/kQbfu8GBLOzl0xZ8UZOBm0/img.webp)
Scrapy는 웹 크롤링 및 데이터 스크래핑을 위해 사용되는 오픈 소스 파이썬 프레임워크입니다. 웹 사이트에서 데이터를 추출하고 파싱하는 데 필요한 모든 도구를 제공합니다. Scrapy는 비교적 쉽게 사용할 수 있으며, 강력한 성능을 제공하여 대규모 웹 사이트의 데이터를 효율적으로 수집할 수 있습니다. 주요 특징유연성과 확장성: Scrapy는 사용자의 요구에 맞게 확장할 수 있는 구조를 갖추고 있습니다. 사용자는 필요에 따라 새로운 기능을 추가하거나 기존 기능을 수정할 수 있습니다.데이터 추출: Scrapy는 XPath와 CSS 선택자를 사용하여 HTML 및 XML에서 데이터를 추출할 수 있습니다. 이를 통해 원하는 데이터를 정확하고 효율적으로 선택할 수 있습니다.비동기 처리: Twisted, 비동기 네..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/chrJWo/btsHipYomjC/7mabdifKG1rX4ttTk7ooo0/img.webp)
Here's a digital artwork depicting a Python code on a computer screen using the Selenium library. The setting includes a modern office desk with elements typical of a programming environment. Feel free to take a closer look at the image above! Selenium의 주요 특징다양한 브라우저 지원: Selenium은 Chrome, Firefox, Safari, Edge 등 다양한 웹 브라우저를 지원합니다. 각 브라우저에 맞는 드라이버를 사용하여 자동화 작업을 수행할 수 있습니다.언어 지원: Python, Java, C#,..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/GqX48/btsG0VRMuoO/jBnIw0Kjhi22HoF3PcEX8k/img.webp)
웹 크롤링을 수행할 때 robots.txt 파일의 규칙을 준수하는 것은 매우 중요합니다. robots.txt는 웹사이트가 웹 크롤러에게 어떤 부분을 크롤링해도 되고 어떤 부분을 크롤링하지 말아야 하는지를 알려주는 파일입니다. 이 파일을 존중하고 준수함으로써, 웹사이트의 리소스를 보호하고, 크롤러가 차단되는 상황을 피할 수 있습니다. robots.txt 파일 이해하기robots.txt 파일은 주로 웹사이트의 루트 디렉토리에 위치하며, 다음과 같은 형식으로 작성됩니다:User-agent: *Disallow: /some-directory/Disallow: /another-directory/위 예에서 User-agent: *는 모든 크롤러에게 적용된다는 것을 의미하며, Disallow 지시어는 크롤러가 접근을 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/rrfup/btsGWJYeOSU/7pkbypuk0uaEdSD4mxbhUK/img.webp)
파이썬에서 MySQL 데이터베이스를 사용하여 유틸리티 모듈을 만드는 것은 매우 효과적인 방법입니다. 여기서 설명하는 모듈은 MyBatis와 유사하게 데이터베이스 연결, 쿼리 실행, 트랜잭션 관리 등을 쉽게 처리할 수 있도록 도와줍니다. 다음은 기본적인 파이썬 데이터베이스 유틸리티 모듈을 설계하는 방법에 대한 개요입니다. 1. 필요한 라이브러리 설치MySQL과의 연동을 위해 mysql-connector-python 패키지를 사용할 수 있습니다. 이 라이브러리는 MySQL 서버와의 연결 및 쿼리 실행을 지원합니다.pip install mysql-connector-python 2. 데이터베이스 연결 관리데이터베이스 연결을 관리하는 클래스를 만들어 보겠습니다. 이 클래스는 데이터베이스에 연결하고 연결을 종료하는..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cUQN7M/btsGVViRlzY/yRm3mrX3pRtu8nv9sNUckK/img.webp)
웹 API에 Authorization 헤더를 추가하여 JWT (JSON Web Token)를 사용한 인증 방법을 사용할 때는 requests 라이브러리의 headers 매개변수를 사용하여 요청을 보낼 수 있습니다. 이 방법은 API가 JWT 인증을 요구하는 경우 자주 사용됩니다. JWT를 사용한 Authorization 헤더 설정 예제import requestsfrom bs4 import BeautifulSoupdef fetch_jwt(response): # URL에서 웹 페이지를 가져옵니다. if response.status_code == 200: return response.headers.get('Authorization') else: return YO..