作者rc840327 (小强ex)
看板CodeJob
标题[发案] mediawiki 家教
时间Sun Nov 6 00:16:01 2022
发案人:本人
联络方式:站内信+LINE
所在地区:台北
有效时间:徵到为止
专案说明:
目标: 建立一个 offline wikipedia ,只须包含 zhwiki data
预期结果:建立一个 mediawiki server,资料库用 mysql,开发环境 rhel
目前状态:已建立了一个 mediawiki server,会从 mediawiki dump data
下载 pages-articles.xml,把下载的 xml data 用 mwdumper 转换成 sql file 後
塞入资料库,mysql 使用 master-slave 来进行读写分离
目前遇到几个问题,看了文件後还是不知如何处理:
对於 mediawiki dump data:
- 想了解资料之间的关系,xml dump file 和 sql dump file 所包含的资料有
何不同?不同 table 所含的资料 (text, revision, page, pagelinks,
page_restrictions, ...) 的之间的关联性?
- 在不用 mwdumper 的话,该如何去把资料塞入资料库?
- 对於 mwdumper ,由於该工具不再更新了,是否有其他工具也可以取代他,做
到把 xml data 转换成 sql data
对於 mysql:
- 对於资料库有基本概念,大致理解 master-slave 运作原理,为了加速 slave
塞入资料的速度,让 slave db 可以 multithread 处理资料,但不确定现在
的参数是否恰当,若 parallel worker 太少,塞入资料一阵子可能会遇到
lost connection 的问题,worker 太多则记忆体可能会撑不住
由於自己研究感到瓶颈了,希望可以找其他人教学指导
预算:一小时 1000,+LINE後详谈
接案者要求:熟悉 mediawiki、mysql、PHP、docker
附注:上课地点可线上,也可实体约在台北捷运沿线的咖啡厅,确切时间地点可再讨论
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 122.116.219.120 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/CodeJob/M.1667664963.A.046.html
※ 编辑: rc840327 (122.116.219.120 台湾), 11/06/2022 01:23:44