博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
初识网络爬虫
阅读量:4984 次
发布时间:2019-06-12

本文共 1641 字,大约阅读时间需要 5 分钟。

再学习正则表达式之后,可以利用正则表达式进行网络爬虫

首先利用网络编程把网页加载到内存,并且保存到本地

利用正则抽取有用的信息。最终打印输出到控制台

爬取网易首页的所有连接

public class SpiderTest {    public static String getUrlContent(String toUrl){        BufferedReader br =null;        StringBuilder sb = new StringBuilder();        try {            URL url = new URL(toUrl);            try {                br = new BufferedReader(new InputStreamReader(url.openStream()));                String temp = "";                while((temp= br.readLine())!=null){                    sb.append(temp);                }            } catch (IOException e) {                e.printStackTrace();            }        } catch (MalformedURLException e) {            e.printStackTrace();        }        return sb.toString();    }    public static void main(String[] args) {        String str = getUrlContent("https://www.163.com");        //Pattern p = Pattern.compile("
");//取得超链接的所有内容 Pattern p2 = Pattern.compile("href=\".+?\""); //Pattern p2 = Pattern.compile("href=\"(.+?)\""); Matcher m = p2.matcher(str); while(m.find()){ System.out.println(m.group()); //System.out.println(m.group(1)); } }}

结果显示:

href="https://ent.163.com/19/0628/07/EIOA5VR000038FO9.html"href="https://ent.163.com/19/0628/07/EIO7VG3U00038FO9.html"href="http://fashion.163.com/"href="http://lady.163.com/photoview/00A70026/115916.html#p=EIOGR4FS00A70026NOS"href="http://lady.163.com/photoview/00A70026/115915.html#p=EIOGI7DD00A70026NOS"href="http://dy.163.com/"href="http://dy.163.com/v2/article/detail/EINGAP5J05259Q0E.html"后面还有很多。。。。

 

转载于:https://www.cnblogs.com/5aixin/p/11105473.html

你可能感兴趣的文章
微服务实践沙龙-上海站
查看>>
Ubuntu中Could not get lock /var/lib/dpkg/lock解决方案
查看>>
c#必会知识点
查看>>
网页使用MD5加密
查看>>
JS 基础
查看>>
HBase shell 中的十六进制数值表示
查看>>
Python3 中 configparser 模块解析配置的用法详解
查看>>
新手android环境搭建、debug调试及各种插件安装__图文全解
查看>>
未在本地计算机上注册“Microsoft.Jet.OLEDB.4.0”提供程序 win2008R2 X64 IIS7.5
查看>>
Diffuse贴图+Lightmap+Ambient
查看>>
[Linux内存]slab分配器学习笔记(二)--slab着色
查看>>
spring cloud 配置文件application.yml和bootstrap.yml 的定位,区别和联系
查看>>
用户控件UserControl添加Load加载事件
查看>>
python3 时间和日期
查看>>
学习 WCF (3)--开发WCF客户程序
查看>>
逆向最大匹配分词算法C#
查看>>
php 利用fsockopen GET/POST 提交表单及上传文件
查看>>
科研过程
查看>>
180316
查看>>
矩阵树定理
查看>>