[LINUX] Wget으로 크롤링하기

Wget Install

## 설치에 필요한 패키지 목록 업데이트 후 wget 설치
sudo apt update
sudo apt install wget


wget 명령어를 바로 실행하면 어떤 링크의 최상위 HTML 페이지인 index.html이 다운됩니다.
If the wget command is executed directly, index.html, the top HTML page of a certain link, is down.
wget link
ex) wget https://bddung1014.blogspot.com/


-O 옵션으로 파일 이름을 따로 지정할 수 있습니다.
You can specify a separate file name with the -O option.


자주 사용되는 Wget 옵션 Frequently used Wget options

옵션(Option) 설명(Explain)
-V, --version Wget 버전 출력(Output Wget Version)
-h, --help 도움말 출력(Help output)
-q, --quiet 진행 상황 출력하지 않음(Does not output progress)
-O <file>, --output-document=<file> file에 저장(Save to File)
-c, --continue 이전 상태에서 계속 이어서 파일 다운로드(Continue Downloading Files from Previous State)
-r, --recursive 링크를 돌며 재귀적으로 다운로드(Download Recursively by Traversing a Link)
-l depth, --level=<depth> 재귀적으로 다운로드할 때 링크의 순회 깊이를 depth만큼으로 제한(Limit the traversal depth of links to "depth" when downloading recursively)
-w <seconds>, --wait=<seconds> 재귀적으로 다운로드할 때 다운로드 간격을 seconds 초로 지정(Specify the download interval in "seconds" when downloading recursively)
-np, --np-parent 재귀적으로 다운로드할 때 부모 폴더는 크롤링하지 않음(When downloading recursively, parent folders are not crawled.)
-I <list>, --include <list> 재귀적으로 다운로드할 때 list에 포함돼 있는 폴더만 실행(When downloading recursively, only the folders included in the list are run.)
-N, --timestamping 파일이 변경됐을 때만 다운로드(Download only when a file has changed)
-m, --mirror 미러링 전용 옵션 활성화(Enable Mirroring Only Option)

The End

댓글 쓰기

0 댓글