服务器之家:专注于服务器技术及软件下载分享
分类导航

PHP教程|ASP.NET教程|Java教程|ASP教程|编程技术|正则表达式|C/C++|IOS|C#|Swift|Android|VB|R语言|JavaScript|易语言|vb.net|

服务器之家 - 编程语言 - C# - C#网络爬虫代码分享 C#简单的爬取工具

C#网络爬虫代码分享 C#简单的爬取工具

2021-12-01 14:40 C#

这篇文章主要为大家详细介绍了C#网络爬虫代码,教大家如何制作了简单的爬取工具,感兴趣的小伙伴们可以参考一下

公司编辑妹子需要爬取网页内容,叫我帮忙做了一简单的爬取工具

C#网络爬虫代码分享 C#简单的爬取工具

这是爬取网页内容,像是这对大家来说都是不难得,但是在这里有一些小改动,代码献上,大家参考

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
private string gethttpwebrequest(string url)
    {
      httpwebresponse result;
      string strhtml = string.empty;
      try
      {
        uri uri = new uri(url);
        webrequest webreq = webrequest.create(uri);
        webresponse webres = webreq.getresponse();
 
        httpwebrequest myreq = (httpwebrequest)webreq;
        myreq.useragent = "user-agent:mozilla/4.0 (compatible; msie 6.0; windows nt 5.2; .net clr 1.0.3705";
        myreq.accept = "*/*";
        myreq.keepalive = true;
        myreq.headers.add("accept-language", "zh-cn,en-us;q=0.5");
        result = (httpwebresponse)myreq.getresponse();
        stream recevicestream = result.getresponsestream();
        streamreader readerofstream = new streamreader(recevicestream, system.text.encoding.getencoding("utf-8"));
        strhtml = readerofstream.readtoend();
        readerofstream.close();
        recevicestream.close();
        result.close();
      }
      catch
      {
        uri uri = new uri(url);
        webrequest webreq = webrequest.create(uri);
        httpwebrequest myreq = (httpwebrequest)webreq;
        myreq.useragent = "user-agent:mozilla/4.0 (compatible; msie 6.0; windows nt 5.2; .net clr 1.0.3705";
        myreq.accept = "*/*";
        myreq.keepalive = true;
        myreq.headers.add("accept-language", "zh-cn,en-us;q=0.5");
        //result = (httpwebresponse)myreq.getresponse();
        try
        {
          result = (httpwebresponse)myreq.getresponse();
        }
        catch (webexception ex)
        {
          result = (httpwebresponse)ex.response;
        }
        stream recevicestream = result.getresponsestream();
        streamreader readerofstream = new streamreader(recevicestream, system.text.encoding.getencoding("gb2312"));
        strhtml = readerofstream.readtoend();
        readerofstream.close();
        recevicestream.close();
        result.close();
      }
      return strhtml;
    }

这是根据url爬取网页远吗,有一些小改动,很多网页有不同的编码格式,甚至有些网站做了反爬取的防范,这个方法经过能够改动也能爬去 

C#网络爬虫代码分享 C#简单的爬取工具

以下是爬取网页所有的网址链接

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
/// <summary>
   /// 提取html代码中的网址
   /// </summary>
   /// <param name="htmlcode"></param>
   /// <returns></returns>
   private static list<string> gethyperlinks(string htmlcode, string url)
   {
     arraylist al = new arraylist();
     bool isgenxin = false;
     stringbuilder weburlsb = new stringbuilder();//sql
     stringbuilder linksb = new stringbuilder();//展示数据
     list<string> weburllistzx = new list<string>();//新增
     list<string> weburllist = new list<string>();//旧的
     string productioncontent = htmlcode;
     regex reg = new regex(@"http(s)?://([\w-]+\.)+[\w-]+/?");
     string wangzhanyuming = reg.match(url, 0).value;
     matchcollection mc = regex.matches(productioncontent.replace("href=\"/", "href=\"" + wangzhanyuming).replace("href='/", "href='" + wangzhanyuming).replace("href=/", "href=" + wangzhanyuming).replace("href=\"./", "href=\"" + wangzhanyuming), @"<[aa][^>]* href=[^>]*>", regexoptions.singleline);
     int index = 1;
     foreach (match m in mc)
     {
       matchcollection mc1 = regex.matches(m.value, @"[a-za-z]+://[^\s]*", regexoptions.singleline);
       if (mc1.count > 0)
       {
         foreach (match m1 in mc1)
         {
           string linkurlstr = string.empty;
           linkurlstr = m1.value.replace("\"", "").replace("'", "").replace(">", "").replace(";", "");
           weburlsb.append("$-$");
           weburlsb.append(linkurlstr);
           weburlsb.append("$_$");
           if (!weburllist.contains(linkurlstr) && !weburllistzx.contains(linkurlstr))
           {
             isgenxin = true;
             weburllistzx.add(linkurlstr);
             linksb.appendformat("{0}<br/>", linkurlstr);
           }
         }
       }
       else
       {
         if (m.value.indexof("javascript") == -1)
         {
           string amstr = string.empty;
           string wangzhanxiangduilujin = string.empty;
           wangzhanxiangduilujin = url.substring(0, url.lastindexof("/") + 1);
           amstr = m.value.replace("href=\"", "href=\"" + wangzhanxiangduilujin).replace("href='", "href='" + wangzhanxiangduilujin);
           matchcollection mc11 = regex.matches(amstr, @"[a-za-z]+://[^\s]*", regexoptions.singleline);
           foreach (match m1 in mc11)
           {
             string linkurlstr = string.empty;
             linkurlstr = m1.value.replace("\"", "").replace("'", "").replace(">", "").replace(";", "");
             weburlsb.append("$-$");
             weburlsb.append(linkurlstr);
             weburlsb.append("$_$");
             if (!weburllist.contains(linkurlstr) && !weburllistzx.contains(linkurlstr))
             {
               isgenxin = true;
               weburllistzx.add(linkurlstr);
               linksb.appendformat("{0}<br/>", linkurlstr);
             }
           }
         }
       }
       index++;
     }
     return weburllistzx;
   }

这块的技术其实就是简单的使用了正则去匹配!接下来献上获取标题,以及存储到xml文件的方法

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
/// <summary>
    /// // 把网址写入xml文件
    /// </summary>
    /// <param name="strurl"></param>
    /// <param name="alhyperlinks"></param>
    private static void writetoxml(string strurl, list<string> alhyperlinks)
    {
      xmltextwriter writer = new xmltextwriter(@"d:\hyperlinks.xml", encoding.utf8);
      writer.formatting = formatting.indented;
      writer.writestartdocument(false);
      writer.writedoctype("hyperlinks", null, "urls.dtd", null);
      writer.writecomment("提取自" + strurl + "的超链接");
      writer.writestartelement("hyperlinks");
      writer.writestartelement("hyperlinks", null);
      writer.writeattributestring("datetime", datetime.now.tostring());
      foreach (string str in alhyperlinks)
      {
        string title = getdomain(str);
        string body = str;
        writer.writeelementstring(title, null, body);
      }
      writer.writeendelement();
      writer.writeendelement();
      writer.flush();
      writer.close();
    }
    /// <summary>
    /// 获取网址的域名后缀
    /// </summary>
    /// <param name="strurl"></param>
    /// <returns></returns>
    private static string getdomain(string strurl)
    {
      string retval;
      string strregex = @"(\.com/|\.net/|\.cn/|\.org/|\.gov/)";
      regex r = new regex(strregex, regexoptions.ignorecase);
      match m = r.match(strurl);
      retval = m.tostring();
      strregex = @"\.|/$";
      retval = regex.replace(retval, strregex, "").tostring();
      if (retval == "")
        retval = "other";
      return retval;
    }
/// <summary>
    /// 获取标题
    /// </summary>
    /// <param name="html"></param>
    /// <returns></returns>
    private static string gettitle(string html)
    {
      string titlefilter = @"<title>[\s\s]*?</title>";
      string h1filter = @"<h1.*?>.*?</h1>";
      string clearfilter = @"<.*?>";
 
      string title = "";
      match match = regex.match(html, titlefilter, regexoptions.ignorecase);
      if (match.success)
      {
        title = regex.replace(match.groups[0].value, clearfilter, "");
      }
 
      // 正文的标题一般在h1中,比title中的标题更干净
      match = regex.match(html, h1filter, regexoptions.ignorecase);
      if (match.success)
      {
        string h1 = regex.replace(match.groups[0].value, clearfilter, "");
        if (!string.isnullorempty(h1) && title.startswith(h1))
        {
          title = h1;
        }
      }
      return title;
    }

这就是所用的全部方法,还是有很多需要改进之处!大家如果有发现不足之处还请指出,谢谢!

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持服务器之家。

延伸 · 阅读

精彩推荐
  • C#深入理解C#的数组

    深入理解C#的数组

    本篇文章主要介绍了C#的数组,数组是一种数据结构,详细的介绍了数组的声明和访问等,有兴趣的可以了解一下。...

    佳园9492021-12-10
  • C#C#微信公众号与订阅号接口开发示例代码

    C#微信公众号与订阅号接口开发示例代码

    这篇文章主要介绍了C#微信公众号与订阅号接口开发示例代码,结合实例形式简单分析了C#针对微信接口的调用与处理技巧,需要的朋友可以参考下...

    smartsmile20127762021-11-25
  • C#VS2012 程序打包部署图文详解

    VS2012 程序打包部署图文详解

    VS2012虽然没有集成打包工具,但它为我们提供了下载的端口,需要我们手动安装一个插件InstallShield。网上有很多第三方的打包工具,但为什么偏要使用微软...

    张信秀7712021-12-15
  • C#C#设计模式之Strategy策略模式解决007大破密码危机问题示例

    C#设计模式之Strategy策略模式解决007大破密码危机问题示例

    这篇文章主要介绍了C#设计模式之Strategy策略模式解决007大破密码危机问题,简单描述了策略模式的定义并结合加密解密算法实例分析了C#策略模式的具体使用...

    GhostRider10972022-01-21
  • C#三十分钟快速掌握C# 6.0知识点

    三十分钟快速掌握C# 6.0知识点

    这篇文章主要介绍了C# 6.0的相关知识点,文中介绍的非常详细,通过这篇文字可以让大家在三十分钟内快速的掌握C# 6.0,需要的朋友可以参考借鉴,下面来...

    雨夜潇湘8272021-12-28
  • C#利用C#实现网络爬虫

    利用C#实现网络爬虫

    这篇文章主要介绍了利用C#实现网络爬虫,完整的介绍了C#实现网络爬虫详细过程,感兴趣的小伙伴们可以参考一下...

    C#教程网11852021-11-16
  • C#SQLite在C#中的安装与操作技巧

    SQLite在C#中的安装与操作技巧

    SQLite,是一款轻型的数据库,用于本地的数据储存。其优点有很多,下面通过本文给大家介绍SQLite在C#中的安装与操作技巧,感兴趣的的朋友参考下吧...

    蓝曈魅11162022-01-20
  • C#如何使用C#将Tensorflow训练的.pb文件用在生产环境详解

    如何使用C#将Tensorflow训练的.pb文件用在生产环境详解

    这篇文章主要给大家介绍了关于如何使用C#将Tensorflow训练的.pb文件用在生产环境的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考借鉴...

    bbird201811792022-03-05