一个多处理网络抓取应用程序,用于抓取 wiki 页面并找到两个给定 wiki 页面之间的最小链接数。
项目描述
wikilink 是一个多处理网络抓取应用程序,用于抓取 wiki 页面、提取 url 并找到 2 个给定 wiki 页面之间的最小链接数。
我在博客中简要讨论了该项目的动机和概述。
该项目目前的版本为v0.3.0.post1,有关发布历史的更多详细信息,另请参阅更改日志。
| 建造 | ||
|---|---|---|
| 质量 | ||
| 支持 | ||
| 平台 |
目录
用法
使用 pip 安装
$ pip install wikilink
数据库支持
wikilink 目前支持Mysql和PostgreSQL
API
setup_db(db, username, password, ip="127.0.0.1", port=3306): set up database
Args:
db(str): Database engine, currently support "mysql" and "postgresql"
name(str): database username
password(str): database password
ip(str): IP address of database (Default = "127.0.0.1")
port(str): port that databse is running on (default=3306)
Returns:
None
min_link(source, destination, limit=6, multiprocessing=False): find minimum number of link from source url to destination url within limit
Args:
source(str): source wiki url, i.e. "https://en.wikipedia.org/wiki/Cristiano_Ronaldo"
destination(str): Destination wiki url, i.e. "https://en.wikipedia.org/wiki/Cristiano_Ronaldo"
limit(int): max number of links from the source that will be considered (default=6)
multiprocessing(boolean): enable/disable multiprocessing mode (default=False)
Returns:
(int) minimum number of sepration between source and destination urls
return None and print messages if exceeding limits or no path found
Raises:
DisconnectionError: error connecting to DB
例子
>>> from wikilink import WikiLink
>>> app = WikiLink()
>>> app.setup_db("mysql", "root", "12345", "127.0.0.1", "3306")
>>> source = "https://en.wikipedia.org/wiki/Cristiano_Ronaldo"
>>> destination = "https://en.wikipedia.org/wiki/Lionel_Messi"
>>> app.min_link(source, destination, 6)
1
贡献
如何贡献
要设置开发环境,只需运行:
$ pip install -r requirements.txt
请查看问题文件以获取需要帮助的问题列表。
欣赏
随意将您的名字添加到贡献者列表中。您将自动入选名人堂,以表达我对您的贡献的感谢。
名人堂
执照
有关许可权利和限制(Apache 许可 2.0),请参阅许可文件。
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。
源分布
wikilink-0.3.0.post1.tar.gz
(18.4 kB
查看哈希)
内置分布
wikilink-0.3.0.post1-py3-none-any.whl
(16.9 kB
查看哈希)
关
wikilink- 0.3.0.post1 -py3-none-any.whl 的哈希值
| 算法 | 哈希摘要 | |
|---|---|---|
| SHA256 | 0a4d7b74fef81a880339be27c1157bb20ea2854e656766d2ae8379339631ea94 |
|
| MD5 | 308a4ecbf598115b7032e0a2dbc033ad |
|
| 布莱克2-256 | 008dd423436ac2fcba1f715c66c426d051738d39076cd51e7218613ede6b96ad |