当前位置:首页C# > 正文

使用C#和HtmlAgilityPack库编写一个爬虫程序

作者:野牛程序员:2023-12-28 15:34:57C#阅读 2630

使用C#和HtmlAgilityPack库编写一个简单的爬虫程序可以帮助你提取网页上的信息。以下是一个基本的示例代码,该代码演示了如何使用HtmlAgilityPack来解析HTML并提取链接:

using System;
using HtmlAgilityPack;

class Program
{
    static void Main()
    {
        // 指定目标网页的URL
        string targetUrl = "https://example.com";

        // 创建HtmlWeb实例并加载网页
        HtmlWeb web = new HtmlWeb();
        HtmlDocument document = web.Load(targetUrl);

        // 选择要提取的链接的XPath表达式
        string xpathExpression = "//a[@href]";

        // 通过XPath选择器选择所有包含href属性的链接
        HtmlNodeCollection linkNodes = document.DocumentNode.SelectNodes(xpathExpression);

        // 输出提取的链接
        if (linkNodes != null)
        {
            foreach (HtmlNode linkNode in linkNodes)
            {
                // 获取链接的href属性值
                string linkUrl = linkNode.GetAttributeValue("href", "");

                // 输出链接
                Console.WriteLine(linkUrl);
            }
        }
        else
        {
            Console.WriteLine("未找到链接");
        }
    }
}

使用爬虫程序时,请始终遵循网站的robots.txt文件和相关政策,以确保你的爬虫行为合法和合规。

野牛程序员教少儿编程与信息学奥赛-微信|电话:15892516892
野牛程序员教少儿编程与信息学竞赛-微信|电话:15892516892
相关推荐

最新推荐

热门点击