CodeJob 板


LINE

 发案人:曾先生 联络方式1:站内信 联络方式2:站内信联系後交换Skype,WhatsApp,Line或Telegram 所在地区 :海外(UTC+2) 有效时间:自宣告接案起16小时(时间认定详附注)。 为保障接案者,本人声明同一时间仅宣告一位接案者(会推文更新案件状态), 亦不接受非接案者抢答。 但接案者若逾时,则视同专案完全失败解约,本人将迳行与下一位有意者面谈。 专案说明:修改newspaper3k程式库(Python) 解决句子分隔问题。 详见附注。   预算:NT$10000(估计合格接案者能在10个工时内解决) 接案者要求: 1. 有能力深入Python开源程式库(newspaper3k)修正问题程式码。 2. 熟悉 Python 下的新闻网页处理,包括下列程式库的使用: newspaper3k(必), lxml(必), beautifulsoup4(选) 3. 工作成果须保密至2024-05-31 (有不便说明的理由 故无法立刻开源)   附注: 一、问题描述 * newspaper3k 是一个用来解析新闻网页的 Python 程式库。但它有一个问题:就是处理 英语新闻的时候,parse 出来的文章不时会发生前一句的句点跟下一句的首个字母之间漏 掉空白字元的情形。例如"...in the city.The mayor said..."这样。这会导致两个句子 被错误的辨识成同一句,句子长度加长、文法结构无法正确解析,进而对训练诸多AI模型 带来负面影响。 本专案希望藉由修改此程式库,来消除上述问题。 下面是一些问题文章范例: https://tinyurl.com/2cz9vxx5 https://bulawayo24.com/news/national/169936 https://tinyurl.com/bfdk3kdn https://www.jpost.com/Opinion/Another-tack-Sympathy-for-the-scarecrow-415892 下列程式码可以验证上述文章经newspaper3k解析後,部份句子之间遗漏空白。 =========================================================== from newspaper import Article url = "" # 注意不要填入tinyurl缩过的网址 article = Article(url=url, fetch_images=False) article.download() article.parse() # 这个函式的内部逻辑需要修正 print(article.text) =========================================================== 二、解决方案要求 1. 接案者须将成果上传至发案者的GitHub或GitLab,并新增一个pull request。 联系时发案者会给予存取权限,成功设定後宣告计时开始。 专案完成时刻,则以接案者通知发案者的时刻认定。 2. 通知发案者专案完成後,须立即Demo,解释程式码修正了哪些逻辑, 并以单元测试或直接执行等适当方式证明解方有效。Demo出错可容许当场 做出3分钟以内的小修正。如3分钟内未能解决,视同专案完全失败。 3. 上面提供的4个案例皆须成功解析,否则视同专案完全失败。 4. 恕不能接受下列解决方案: (A) 用类似 "[a-z0-9]\.[A-Z0-9]" 的 regex 去直接拆分解析後的文句: 团队已经确认过,这种事後解法基本不能接受。因为还是太容易误拆 v.100 或 K.v.K 之类的名词,造成模型的正确性比原本更糟。 (B) 更换library:目前团队已有其他修正建立在newspaper3k上 (C) 使用AI模型:我们每天处理几十万篇文章,如此算力成本太高。 (D) 解方能正确的分隔句子,但文章其他部份出现原本没有的损坏。 (E) 最後,虽然有能力修正开源程式库的先进显然不会这样取巧,但下面这点还是 要提一下,以防不必要的纠纷: 只为了通过单元测试,而根据特定网页或特定的domain name去做个案处理的方式, 是不可接受的。例如:if "jpost.com" in article.url,这种针对单一网站的处理 逻辑,就不可接受。 当然,如果认定某一类别的网页结构是元凶,是可以撰写特殊逻辑去处理的。但这个结构 必须能够适用复数的新闻网站。举两个例子: 例1:假设您认定 <br /> 没有被正确处理,那麽在article.parse()的内部逻辑某处, 把这个tag取代成换行符号是OK的,因为显然许多新闻网页都包含<br />的元素 (这边只是举例....我其实看过这部份的逻辑但没发现它做错)。 例2:找到 itemprop="articleBody" 之类的区块做特殊处理,也是属於一般性的逻辑 感谢您的耐心阅读! --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 77.161.173.88 (荷兰)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/CodeJob/M.1685870161.A.426.html ※ 编辑: oNeChanPhile (77.161.173.88 荷兰), 06/04/2023 17:30:47 ※ 编辑: oNeChanPhile (77.161.173.88 荷兰), 06/04/2023 17:57:55
1F:→ oNeChanPhile: 目前有人来信 即将洽谈 06/05 16:33
2F:→ oNeChanPhile: 问题已解决 06/05 17:20







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BuyTogether站内搜寻

TOP