使用C#和HtmlAgilityPack库编写一个爬虫程序
作者:野牛程序员:2023-12-28 15:34:57C#阅读 2825
使用C#和HtmlAgilityPack库编写一个简单的爬虫程序可以帮助你提取网页上的信息。以下是一个基本的示例代码,该代码演示了如何使用HtmlAgilityPack来解析HTML并提取链接:
using System;
using HtmlAgilityPack;
class Program
{
static void Main()
{
// 指定目标网页的URL
string targetUrl = "https://example.com";
// 创建HtmlWeb实例并加载网页
HtmlWeb web = new HtmlWeb();
HtmlDocument document = web.Load(targetUrl);
// 选择要提取的链接的XPath表达式
string xpathExpression = "//a[@href]";
// 通过XPath选择器选择所有包含href属性的链接
HtmlNodeCollection linkNodes = document.DocumentNode.SelectNodes(xpathExpression);
// 输出提取的链接
if (linkNodes != null)
{
foreach (HtmlNode linkNode in linkNodes)
{
// 获取链接的href属性值
string linkUrl = linkNode.GetAttributeValue("href", "");
// 输出链接
Console.WriteLine(linkUrl);
}
}
else
{
Console.WriteLine("未找到链接");
}
}
}使用爬虫程序时,请始终遵循网站的robots.txt文件和相关政策,以确保你的爬虫行为合法和合规。
野牛程序员教少儿编程与信息学奥赛-微信|电话:15892516892

- 上一篇:C语言指针的使用
- 下一篇:使用Python的Scrapy库来编写一个爬虫程序
