Ruby 板


LINE

※ 引述《shelary (台中喵小咩)》之铭言: : 於是我用 info.split(//u)[0..100] 去切100个字 : 可是 info 里面已经有 HTM 语法了..去切 100 个字不旦切不准 : 而且还造成 HTML 的语法被切的不完整 : 所以我想说在显示第一页的那个 100 字时...先把 HTML 语法都删掉 : 删掉HTML後..再去切 100 个字.... : 等点选 more... 之後...才会显示有含 HTML 的完整版 : 我的问题是....怎样把 HTML 语法删掉比较容易? 如果不保留 html 的话,那我目前想到的办法还算可以处理。 刚刚在想的是,如果要保留 html 再 truncate 的话,实在不好处理, 如: 「今天是我<b>一岁</b>生日」 假设要 truncate 掉一半且保留 html, 这恐怕会变得很复杂。 或许要用纯递回的方式才会好做,这我暂时还没什麽好想法。 : 我想的是去寻找 < 和 > 包起来的东西.... : 但是如果使用者的自介里有 >_< 这类的表情图案时怎麽办? : 或是有更好的方法? 请教大家罗 基本上,html parsing 这种复杂到爆炸的事,最好不要自己写, 人家是一个完整的 project, 自己写的话会累死的 XD 要灌 tidy, 我自己电脑上是这样灌的: sudo port install tidy sudo gem install tidy 本程式开始: $KCODE = 'u' require 'jcode' # 拿来算字数 require 'rubygems' require 'tidy' # 由於他不是直接把 lib 吃进去,所以要给他 .so/.dll/.dylib 的路径: Tidy.path = '/opt/local/lib/libtidy.dylib' require 'open-uri' # 这满好用的,rails 的话 open 那边再自己改吧 msg = Tidy.open{ |tidy| tidy.options.input_xml = true tidy.options.output_xml = true # 这两个要设,不然输出会有 html header tidy.options.input_encoding = :utf8 tidy.options.output_encoding = :utf8 # 网页还是 utf-8 好 tidy.clean '<message>' + open('test.xml') + '</message>' # 多加 <message></message> 是为了避免吃掉头尾 } require 'rexml/document' msg = REXML::Document.new msg words = [] def extract words, elements if elements.kind_of? REXML::Text words << elements.to_s # 是文字就直接储存 elsif elements.kind_of? REXML::Element elements.each{ |e| extract words, e } # 不是文字就要全部依序抓出来 else raise TypeError.new('what is it? : ' + elements.inspect) # 我不知道会不会有其他 type 的东西? end end extract words, msg puts words.join # 你要的纯文字 puts words.join.jsize # 字数 如果真的要保留 html, 应该要在 elements.each 那边动手脚, 可能要用递回的方式,我不是很确定,要再研究。 truncate 时也要考虑 tag 完整性,会非常复杂。 -- Nobody can take anything away from him. Nor can anyone give anything to him. What came from the sea, has returned to the sea. Chrono Cross --



※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 220.134.30.220 ※ 编辑: godfat 来自: 220.134.30.220 (10/03 23:03)
1F:→ shelary:要保留HTML又要切是太困难了..只能把HTML全清掉再切字数 10/06 12:20







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BuyTogether站内搜寻

TOP