一小时掌握：使用ScrapySharp和C#打造新闻下载器

编程日记2024-03-20 15:35:44

亿牛云

## 引言

爬虫技术是指通过编程的方式，自动从互联网上获取和处理数据的技术。爬虫技术有很多应用场景，比如搜索引擎、数据分析、舆情监测、电商比价等。爬虫技术也是一门有趣的技术，可以让你发现网络上的各种有价值的信息。

本文将介绍如何使用ScrapySharp和C#语言，打造一个简单的新闻下载器，可以从指定的新闻网站上抓取新闻标题、摘要、正文、作者、发布时间等信息，并保存到本地文件中。本文的目的是让你在一小时内掌握ScrapySharp和C#的基本用法，以及爬虫技术的基本原理和技巧。

### ScrapySharp和C#的介绍

ScrapySharp是一个基于.NET的爬虫框架，它提供了一系列的类和方法，可以方便地实现爬虫的功能，比如发送请求、解析响应、提取数据、保存数据等。ScrapySharp的核心类是ScrapingBrowser，它模拟了一个浏览器的行为，可以执行JavaScript、处理Cookie、设置代理等。ScrapySharp还支持CSS选择器和XPath语法，可以灵活地定位网页中的元素。

C#是一种面向对象的编程语言，它是.NET平台的主要语言，可以运行在Windows、Linux、Mac等操作系统上。C#语言简洁、强大、高效，拥有丰富的类库和工具，可以开发各种类型的应用程序，包括桌面应用、网站、移动应用、游戏等。C#还支持多线程编程，可以充分利用CPU的资源，提高程序的性能。

### 新闻下载器的设计

本文的新闻下载器的设计思路如下：

- 首先，定义一个News类，用来存储新闻的各种属性，比如标题、摘要、正文、作者、发布时间等。

- 然后，定义一个NewsDownloader类，用来实现新闻下载器的主要逻辑，包括以下几个方法：

- 构造方法，用来初始化ScrapingBrowser对象，设置代理、超时、用户代理等参数。

- GetNewsUrls方法，用来从指定的新闻网站的首页上，获取所有新闻的链接，并返回一个字符串列表。

- GetNewsContent方法，用来从指定的新闻链接上，获取新闻的内容，并返回一个News对象。

- SaveNews方法，用来将一个News对象保存到本地文件中，文件名为新闻的标题，文件格式为txt。

- DownloadNews方法，用来下载所有新闻，并保存到本地文件夹中，文件夹名为新闻网站的域名。

- 最后，定义一个Program类，用来作为程序的入口，创建一个NewsDownloader对象，并调用其DownloadNews方法，传入要爬取的新闻网站的地址。

### 新闻下载器的代码

本文的新闻下载器的代码如下：

```csharp

using System;

using System.Collections.Generic;

using System.IO;

using System.Linq;

using System.Net;

using System.Text;

using System.Threading.Tasks;

using HtmlAgilityPack;

using ScrapySharp.Extensions;

using ScrapySharp.Network;

namespace NewsDownloader

{

// 定义一个News类，用来存储新闻的各种属性

public class News

{

public string Title { get; set; } // 标题

public string Summary { get; set; } // 摘要

public string Content { get; set; } // 正文

public string Author { get; set; } // 作者

public string Time { get; set; } // 发布时间

}

// 定义一个NewsDownloader类，用来实现新闻下载器的主要逻辑

public class NewsDownloader

{

private ScrapingBrowser browser; // 定义一个ScrapingBrowser对象，用来模拟浏览器的行为

//亿牛云设置爬虫代理加强版

private string proxyDomain = "http://www.16yun.cn"; // 定义代理的域名

private int proxyPort = 9010; // 定义代理的端口

private string proxyUser = "16YUN"; // 定义代理的用户名

private string proxyPass = "16IP"; // 定义代理的密码

// 构造方法，用来初始化ScrapingBrowser对象，设置代理、超时、用户代理等参数

public NewsDownloader()

{

browser = new ScrapingBrowser();

browser.Timeout = TimeSpan.FromSeconds(10); // 设置超时时间为10秒

browser.UserAgent = new FakeUserAgent("Chrome", 88.0); // 设置用户代理为Chrome 88.0

browser.UseDefaultCookiesParser = false; // 禁用默认的Cookie解析器

browser.Proxy = new WebProxy(proxyDomain, proxyPort); // 设置代理

browser.Proxy.Credentials = new NetworkCredential(proxyUser, proxyPass); // 设置代理的凭证

}

// GetNewsUrls方法，用来从指定的新闻网站的首页上，获取所有新闻的链接，并返回一个字符串列表

public List<string> GetNewsUrls(string url)

{

List<string> newsUrls = new List<string>(); // 定义一个字符串列表，用来存储新闻的链接

try

{

WebPage homePage = browser.NavigateToPage(new Uri(url)); // 使用ScrapingBrowser对象访问新闻网站的首页，并获取WebPage对象

HtmlNode homeNode = homePage.Html; // 从WebPage对象中获取HtmlNode对象，表示网页的HTML文档

IEnumerable<HtmlNode> newsNodes = homeNode.CssSelect("a[href*='/news/']"); // 使用CSS选择器，从HtmlNode对象中获取所有包含'/news/'的a标签的HtmlNode对象，表示新闻的链接

foreach (HtmlNode newsNode in newsNodes) // 遍历所有新闻的链接

{

string newsUrl = newsNode.GetAttributeValue("href", null); // 从HtmlNode对象中获取href属性的值，表示新闻的链接

if (newsUrl != null && !newsUrls.Contains(newsUrl)) // 如果新闻的链接不为空，且不在字符串列表中

{

newsUrls.Add(newsUrl); // 将新闻的链接添加到字符串列表中

}

catch (Exception ex) // 捕获异常

{

Console.WriteLine("GetNewsUrls error: " + ex.Message); // 在控制台输出异常信息

}

return newsUrls; // 返回字符串列表

}

// GetNewsContent方法，用来从指定的新闻链接上，获取新闻的内容，并返回一个News对象

public News GetNewsContent(string url)

{

News news = new News(); // 定义一个News对象，用来存储新闻的内容

try

{

WebPage newsPage = browser.NavigateToPage(new Uri(url)); // 使用ScrapingBrowser对象访问新闻的链接，并获取WebPage对象

HtmlNode newsNode = newsPage.Html; // 从WebPage对象中获取HtmlNode对象，表示网页的HTML文档

HtmlNode titleNode = newsNode.CssSelect("h1").FirstOrDefault(); // 使用CSS选择器，从HtmlNode对象中获取第一个h1标签的HtmlNode对象，表示新闻的标题

HtmlNode summaryNode = newsNode.CssSelect("p.summary").FirstOrDefault(); // 使用CSS选择器，从HtmlNode对象中获取第一个p标签，且class属性为summary的HtmlNode对象，表示新闻的摘要

HtmlNode contentNode = newsNode.CssSelect("div.article-content").FirstOrDefault(); // 使用CSS选择器，从HtmlNode对象中获取第一个div标签，且class属性为article-content的HtmlNode对象，表示新闻的正文

HtmlNode authorNode = newsNode.CssSelect("span.author").FirstOrDefault(); // 使用CSS选择器，从HtmlNode对象中获取第一个span标签，且class属性为author的HtmlNode对象，表示新闻的作者

HtmlNode timeNode = newsNode.CssSelect("span.time").FirstOrDefault(); // 使用CSS选择器，从HtmlNode对象中获取第一个span标签，且class属性为time的HtmlNode对象，表示新闻的发布时间

if (titleNode != null) // 如果标题节点不为空

{

news.Title = titleNode.InnerText.Trim(); // 从HtmlNode对象中获取文本内容，并去除两端的空白字符，赋值给News对象的Title属性

}

if (summaryNode != null) // 如果摘要节点不为空

{

news.Summary = summaryNode.InnerText.Trim(); // 从HtmlNode对象中获取文本内容，并去除两端的空白字符，赋值给News对象的Summary属性

}

if (contentNode != null) // 如果正文节点不为空

{

news.Content = contentNode.InnerText.Trim(); // 从HtmlNode对象中获取文本内容，并去除两端的空白字符，赋值给News对象的Content属性

}

if (authorNode != null) // 如果作者节点不为空

{

news.Author = authorNode.InnerText.Trim(); // 从HtmlNode对象中获取文本内容，并去除两端的空白字符，赋值给News对象的Author属性

}

if (timeNode != null) // 如果时间节点不为空

{

news.Time = timeNode.InnerText.Trim(); // 从HtmlNode对象中获取文本内容，并去除两端的空白字符，赋值给News对象的Time属性

}

catch (Exception ex) // 捕获异常

{

Console.WriteLine("GetNewsContent error: " + ex.Message); // 在控制台输出异常信息

}

return news; // 返回News对象

}

// SaveNews方法，用来将一个News对象保存到本地文件中，文件名为新闻的标题，文件格式为txt

public void SaveNews(News news, string folder)

{

try

{

string fileName = news.Title + ".txt"; // 定义文件名为新闻的标题加上.txt后缀

string filePath = Path.Combine(folder, fileName); // 定义文件路径为文件夹和文件名的组合

using (StreamWriter writer = new StreamWriter(filePath, false, Encoding.UTF8)) // 使用StreamWriter对象，以UTF-8编码，覆盖模式，打开或创建文件

{

writer.WriteLine("标题：" + news.Title); // 写入新闻的标题

writer.WriteLine("摘要：" + news.Summary); // 写入新闻的摘要

writer.WriteLine("正文：" + news.Content); // 写入新闻的正文

writer.WriteLine("作者：" + news.Author); // 写入新闻的作者

writer.WriteLine("时间：" + news.Time); // 写入新闻的时间

}

catch (Exception ex) // 捕获异常

{

Console.WriteLine("SaveNews error: " + ex.Message); // 在控制台输出异常信息

}

// DownloadNews方法，用来下载所有新闻，并保存到本地文件夹中，文件夹名为新闻网站的域名

public void DownloadNews(string url)

{

try

{

Uri uri = new Uri(url); // 定义一个Uri对象，表示新闻网站的地址

string folder = uri.Host; // 定义文件夹名为Uri对象的Host属性，表示新闻网站的域名

if (!Directory.Exists(folder)) // 如果文件夹不存在

{

Directory.CreateDirectory(folder); // 创建文件夹

}

List<string> newsUrls = GetNewsUrls(url); // 调用GetNewsUrls方法，获取所有新闻的链接

Parallel.ForEach(newsUrls, newsUrl => // 使用Parallel类的ForEach方法，对所有新闻的链接进行并行处理，提高采集效率

{

News news = GetNewsContent(newsUrl); // 调用GetNewsContent方法，获取新闻的内容

SaveNews(news, folder); // 调用SaveNews方法，将新闻保存到本地文件中

Console.WriteLine("Downloaded: " + news.Title); // 在控制台输出下载成功的新闻的标题

});

Console.WriteLine("Download completed!"); // 在控制台输出下载完成的提示

}

catch (Exception ex) // 捕获异常

{

Console.WriteLine("DownloadNews error: " + ex.Message); // 在控制台输出异常信息

}

// 定义一个Program类，用来作为程序的入口

class Program

{

static void Main(string[] args)

{

NewsDownloader downloader = new NewsDownloader(); // 创建一个NewsDownloader对象

downloader.DownloadNews("https://www.bbc.com/news"); // 调用其DownloadNews方法，传入要爬取的新闻网站的地址

Console.ReadKey(); // 等待用户按键

}

```

## 结论

本文介绍了如何使用ScrapySharp和C#语言，打造一个简单的新闻下载器，可以从指定的新闻网站上抓取新闻标题、摘要、正文、作者、发布时间等信息，并保存到本地文件中。本文的目的是让你在一小时内掌握ScrapySharp和C#的基本用法，以及爬虫技术的基本原理和技巧。

本文的技术文章和代码仅供参考，你可以根据自己的需求和兴趣，修改或扩展它们，实现更多的功能，比如添加异常处理、日志记录、数据清洗、数据分析等。希望本文能对你的学习和开发有所帮助。

查看全文

相关文章：