MARC状态:审校 文献类型:中文图书 浏览次数:59
- 题名/责任者:
- 网络爬虫全解析:技术、原理与实践/罗刚著
- 出版发行项:
- 北京:电子工业出版社,2017
- ISBN及定价:
- 978-7-121-31071-3/CNY79.00
- 载体形态项:
- 429页:图;25cm
- 其它题名:
- 技术、原理与实践
- 个人责任者:
- 罗刚 著
- 学科主题:
- 软件工具-程序设计
- 中图法分类号:
- TP311.561
- 提要文摘附注:
- 本书介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息,以及针对抓取到的文本进行有效信息的提取。为了扩展抓取能力,本书介绍了实现分布式网络爬虫的关键技术。另外,本书介绍了从图像和语音等多媒体格式文件中提取文本信息,以及如何使用大数据技术存储抓取到的信息。*后,以实战为例,介绍了如何抓取微信和微博,以及在电商、医药、金融等领域的案例应用。其中,电商领域的应用介绍了使用网络爬虫抓取商品信息入库到网上商店的数据库表。
全部MARC细节信息>>