使用C#和HtmlAgilityPack库编写一个爬虫程序

作者：野牛程序员：2023-12-28 15:34:57C#阅读 2952

使用C#和HtmlAgilityPack库编写一个简单的爬虫程序可以帮助你提取网页上的信息。以下是一个基本的示例代码，该代码演示了如何使用HtmlAgilityPack来解析HTML并提取链接：

using System;
using HtmlAgilityPack;

class Program
{
    static void Main()
    {
        // 指定目标网页的URL
        string targetUrl = "https://example.com";

        // 创建HtmlWeb实例并加载网页
        HtmlWeb web = new HtmlWeb();
        HtmlDocument document = web.Load(targetUrl);

        // 选择要提取的链接的XPath表达式
        string xpathExpression = "//a[@href]";

        // 通过XPath选择器选择所有包含href属性的链接
        HtmlNodeCollection linkNodes = document.DocumentNode.SelectNodes(xpathExpression);

        // 输出提取的链接
        if (linkNodes != null)
        {
            foreach (HtmlNode linkNode in linkNodes)
            {
                // 获取链接的href属性值
                string linkUrl = linkNode.GetAttributeValue("href", "");

                // 输出链接
                Console.WriteLine(linkUrl);
            }
        }
        else
        {
            Console.WriteLine("未找到链接");
        }
    }
}

使用爬虫程序时，请始终遵循网站的robots.txt文件和相关政策，以确保你的爬虫行为合法和合规。

野牛程序员教少儿编程与信息学奥赛-微信|电话：15892516892

上一篇：C语言指针的使用
下一篇：使用Python的Scrapy库来编写一个爬虫程序

使用C#和HtmlAgilityPack库编写一个爬虫程序

相关推荐

最新推荐

热门点击