概要
- pythonのフレームワーク
- Webクローラー
- Scrapyより軽く柔軟性があるらしい。
Notes
- install
- 最小限の動作(グーグル画像検索で猫を探す)
- グーグルの検索エンジンで猫(cat)を検索して、表示された画像を収集する。
from icrawler.builtin import GoogleImageCrawler
google_crawler = GoogleImageCrawler(storage={'root_dir': 'your_image_dir'})
google_crawler.crawl(keyword='cat', max_num=100)
from icrawler.builtin import GreedyImageCrawler
greedy_crawler = GreedyImageCrawler(storage={'root_dir': 'pic'})
greedy_crawler.crawl(domains='https://www.example.com', max_num=0,
min_size=None, max_size=None)
- Github
- https://github.com/hellock/icrawler
Youtubeでもまとめました。
コメント