用于查找 URL 并检查其有效性的库。

项目描述

urlfinderlib

这是一个 Python (3.6+) 库，用于在文档中查找 URL 并检查其有效性。

支持的文件

从以下类型的文档中提取 URL：

二进制文件（在字符串中查找 URL）
CSV 文件
HTML 文件
iCalendar/vCalendar 文件
PDF 文件
文本文件（ASCII 或 UTF-8）
XML 文件

每个提取的 URL 都经过验证，以使其包含具有有效 TLD（或有效 IP 地址）的域并且不包含任何无效字符。

网址排列

这最初是为了找到恶意行为者使用的有效和混淆或轻微格式错误的 URL，并将它们用作危害指标 (IOC)。因此，提取的 URL 还将包括以下排列：

其域中包含任何 Unicode 字符的 URL
带有任何 Unicode 字符的 URL 转换为其 IDNA 等效项

对于这两种域变体，还返回以下排列：

带有路径 % 编码的 URL
URL 及其路径 %-decoded
路径中包含编码 HTML 实体的 URL
路径中包含解码的 HTML 实体的 URL
具有路径 %-decoded 和 HTML 实体已解码的 URL

子 URL

该库还尝试提取或解码在 URL 路径中找到的子 URL。支持以下格式：

梭子鱼保护的 URL
在 URL 的路径中找到 Base64 编码的 URL
谷歌重定向网址
Mandrill/Mailchimp 重定向 URL
Outlook 安全链接 URL
Proofpoint 受保护的 URL
在 URL 的路径查询参数中找到的 URL

基本用法

from urlfinderlib import find_urls

with open('/path/to/file', 'rb') as f:
    print(find_urls(f.read())

base_url 参数

如果您尝试在 HTML 文件中查找 URL，则 URL 中的路径通常与其在托管 HTML 的服务器上的位置相关。在这种情况下，您可以使用base_url参数来提取这些“相对”URL。

from urlfinderlib import find_urls

with open('/path/to/file', 'rb') as f:
    print(find_urls(f.read(), base_url='http://example.com')

项目详情

发布历史发布通知| RSS订阅

这个版本

0.18.5

2021 年 10 月 23 日

0.18.4

2021 年 10 月 23 日

0.18.3

2021 年 10 月 14 日

0.18.2

2021 年 10 月 13 日

0.18.0

2021 年 8 月 26 日

0.17.8

2021 年 8 月 12 日

0.17.7

2021 年 8 月 12 日

0.17.6

2021 年 8 月 6 日

0.17.5

2021 年 4 月 17 日

0.17.4

2021 年 4 月 9 日

0.17.3

2021 年 4 月 9 日

0.17.2

2021 年 3 月 31 日

0.17.1

2021 年 3 月 31 日

0.17.0

2021 年 3 月 31 日

0.16.1

2021 年 3 月 9 日

0.16.0

2021 年 2 月 6 日

0.15.6

2020 年 12 月 4 日

0.15.5

2020 年 12 月 1 日

0.15.4

2020 年 10 月 6 日

0.15.3

2020 年 10 月 6 日

0.15.2

2020 年 9 月 24 日

0.15.1

2020 年 9 月 7 日

0.15.0 猛拉

2020 年 9 月 7 日

0.14.4

2020 年 9 月 2 日

0.14.3

2020 年 8 月 25 日

0.14.2

2020 年 8 月 18 日

0.14.1

2020 年 8 月 12 日

0.14.0

2020 年 8 月 11 日

0.13.3

2020 年 8 月 8 日

0.13.2

2020 年 8 月 7 日

0.13.1

2020 年 8 月 5 日

0.13.0

2020 年 8 月 2 日

0.12.5

2020 年 8 月 1 日

0.12.4

2020 年 7 月 29 日

0.12.3

2020 年 7 月 29 日

0.12.2

2020 年 7 月 29 日

0.12.1

2020 年 7 月 28 日

0.12.0

2020 年 7 月 27 日

0.11.12

2020 年 7 月 2 日

0.11.11

2019 年 12 月 23 日

0.11.10

2019 年 12 月 23 日

0.11.9

2019 年 12 月 5 日

0.11.8

2019 年 12 月 5 日

0.11.7

2019 年 12 月 5 日

0.11.6

2019 年 12 月 5 日

0.11.5

2019 年 12 月 3 日

0.11.4

2019 年 12 月 3 日

0.11.3

2019 年 12 月 3 日

0.11.2

2019 年 8 月 6 日

0.11.1

2019 年 8 月 2 日

0.11.0

2019 年 7 月 18 日

0.10.1

2019 年 7 月 5 日

0.10.0

2019 年 7 月 3 日

0.9.0

urlfinderlib 0.18.5

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

urlfinderlib

支持的文件

网址排列

子 URL

基本用法

base_url 参数

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史发布通知| RSS订阅

urlfinderlib 0.18.5

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

urlfinderlib

支持的文件

网址排列

子 URL

基本用法

base_url 参数

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史 发布通知| RSS订阅

发布历史发布通知| RSS订阅