Re: [问题] 把 HTML 指令删除

时间Wed Oct 3 21:23:55 2007

※ 引述《shelary (台中喵小咩)》之铭言： : 於是我用 info.split(//u)[0..100] 去切100个字 : 可是 info 里面已经有 HTM 语法了..去切 100 个字不旦切不准 : 而且还造成 HTML 的语法被切的不完整 : 所以我想说在显示第一页的那个 100 字时...先把 HTML 语法都删掉 : 删掉HTML後..再去切 100 个字.... : 等点选 more... 之後...才会显示有含 HTML 的完整版 : 我的问题是....怎样把 HTML 语法删掉比较容易? 如果不保留 html 的话，那我目前想到的办法还算可以处理。刚刚在想的是，如果要保留 html 再 truncate 的话，实在不好处理，如：「今天是我<b>一岁</b>生日」假设要 truncate 掉一半且保留 html, 这恐怕会变得很复杂。或许要用纯递回的方式才会好做，这我暂时还没什麽好想法。 : 我想的是去寻找 < 和 > 包起来的东西.... : 但是如果使用者的自介里有 >_< 这类的表情图案时怎麽办? : 或是有更好的方法? 请教大家罗基本上，html parsing 这种复杂到爆炸的事，最好不要自己写，人家是一个完整的 project, 自己写的话会累死的 XD 要灌 tidy, 我自己电脑上是这样灌的： sudo port install tidy sudo gem install tidy 本程式开始： $KCODE = 'u' require 'jcode' # 拿来算字数 require 'rubygems' require 'tidy' # 由於他不是直接把 lib 吃进去，所以要给他 .so/.dll/.dylib 的路径： Tidy.path = '/opt/local/lib/libtidy.dylib' require 'open-uri' # 这满好用的，rails 的话 open 那边再自己改吧 msg = Tidy.open{ |tidy| tidy.options.input_xml = true tidy.options.output_xml = true # 这两个要设，不然输出会有 html header tidy.options.input_encoding = :utf8 tidy.options.output_encoding = :utf8 # 网页还是 utf-8 好 tidy.clean '<message>' + open('test.xml') + '</message>' # 多加 <message></message> 是为了避免吃掉头尾 } require 'rexml/document' msg = REXML::Document.new msg words = [] def extract words, elements if elements.kind_of? REXML::Text words << elements.to_s # 是文字就直接储存 elsif elements.kind_of? REXML::Element elements.each{ |e| extract words, e } # 不是文字就要全部依序抓出来 else raise TypeError.new('what is it? : ' + elements.inspect) # 我不知道会不会有其他 type 的东西？ end end extract words, msg puts words.join # 你要的纯文字 puts words.join.jsize # 字数如果真的要保留 html, 应该要在 elements.each 那边动手脚，可能要用递回的方式，我不是很确定，要再研究。 truncate 时也要考虑 tag 完整性，会非常复杂。 -- Nobody can take anything away from him. Nor can anyone give anything to him. What came from the sea, has returned to the sea. Chrono Cross --

※ 发信站: 批踢踢实业坊(ptt.cc) ◆ From: 220.134.30.220 ※ 编辑: godfat 来自: 220.134.30.220 (10/03 23:03)

1^F：→ shelary:要保留HTML又要切是太困难了..只能把HTML全清掉再切字数 10/06 12:20

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Ruby 板

Re: [问题] 把 HTML 指令删除

热门看板

赞助商连结