Skip to main content

一个多处理网络抓取应用程序,用于抓取 wiki 页面并找到两个给定 wiki 页面之间的最小链接数。

项目描述


wikilink 是一个多处理网络抓取应用程序,用于抓取 wiki 页面、提取 url 并找到 2 个给定 wiki 页面之间的最小链接数。

我在博客中简要讨论了该项目的动机和概述。

该项目目前的版本为v0.3.0.post1,有关发布历史的更多详细信息,另请参阅更改日志

如果你喜欢这个项目,请在这里留下几句感谢的话说谢谢!

建造 构建状态 覆盖状态
质量 可维护性 需求状态
支持 加入聊天 博客
平台 蟒蛇版本 执行

目录

  1. 用法
  2. 贡献
  3. 执照

用法

使用 pip 安装

$ pip install wikilink

数据库支持

wikilink 目前支持MysqlPostgreSQL

API

setup_db(db, username, password, ip="127.0.0.1", port=3306): set up database

Args:
	db(str): Database engine, currently support "mysql" and "postgresql"
	name(str): database username
	password(str): database password
	ip(str): IP address of database (Default = "127.0.0.1")
	port(str): port that databse is running on (default=3306)

Returns:
	None
min_link(source, destination, limit=6, multiprocessing=False): find minimum number of link from source url to destination url within limit 

Args:
	source(str): source wiki url, i.e. "https://en.wikipedia.org/wiki/Cristiano_Ronaldo"
	destination(str): Destination wiki url, i.e. "https://en.wikipedia.org/wiki/Cristiano_Ronaldo"
	limit(int): max number of links from the source that will be considered (default=6)
	multiprocessing(boolean): enable/disable multiprocessing mode (default=False)

Returns:
	(int) minimum number of sepration between source and destination urls
	return None and print messages if exceeding limits or no path found

Raises:
	DisconnectionError: error connecting to DB

例子

>>> from wikilink import WikiLink
>>> app = WikiLink()
>>> app.setup_db("mysql", "root", "12345", "127.0.0.1", "3306")
>>> source = "https://en.wikipedia.org/wiki/Cristiano_Ronaldo"
>>> destination = "https://en.wikipedia.org/wiki/Lionel_Messi"
>>> app.min_link(source, destination, 6)
1

贡献开源助手

如何贡献

请在贡献说明行为准则中遵守我们的贡献约定。

要设置开发环境,只需运行:

$ pip install -r requirements.txt

请查看问题文件以获取需要帮助的问题列表。

欣赏

随意将您的名字添加到贡献者列表中。您将自动入选名人堂,以表达我对您的贡献的感谢。

名人堂


执照

有关许可权利和限制(Apache 许可 2.0),请参阅许可文件。

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

wikilink-0.3.0.post1.tar.gz (18.4 kB 查看哈希

已上传 source

内置分布

wikilink-0.3.0.post1-py3-none-any.whl (16.9 kB 查看哈希

已上传 py3