Python 板


LINE

我现在有一些问题 我找了网路上的东西稍微改一点点 import urllib.request, urllib.parse, urllib.error from html.parser import HTMLParser class MyHTMLParser(HTMLParser): def handle_starttag(self, tag, attrs): print("Encountered a {} start tag".format(tag)) def handle_data(self, data): print("Attrs is {}".format(data)) def handle_endtag(self, tag): print("Encountered a {} end tag".format(tag)) p = MyHTMLParser() page = """<html><h1>Title</h1><p>I'm a paragraph!</p></html>""" p.feed(page) p.close() 我现在是可以印出一些东西 有功能可以只印出我想要的东西,例如 其他的html 连结 或是不光只是印出还可以将连结存起来 方便之後还要去抓网页资料 我另外一个版本的程式在执行的时候会有问题 import urllib.request, urllib.parse, urllib.error #import html.parser from html.parser import HTMLParser class MyHTMLParser(HTMLParser): def handle_starttag(self, tag, attrs): print("Encountered a {} start tag".format(tag)) def handle_data(self, data): print("Attrs is {}".format(data)) def handle_endtag(self, tag): print("Encountered a {} end tag".format(tag)) p = MyHTMLParser() sock = urllib.request.urlopen("http://www.google.com/") p.feed(sock.read()) sock.close() p.close() Traceback (most recent call last): File "D:\workspace\Test\src\main.py", line 17, in <module> p.feed(sock.read()) File "C:\Python31\lib\html\parser.py", line 107, in feed self.rawdata = self.rawdata + data TypeError: Can't convert 'bytes' object to str implicitly 是哪里出问题了呢?? 还有一个不太了解的地方 HTMLParser.feed(data)¶ 这边看起来只要一个值 但是我有遇过执行的时候跟说我少一个参数 所以是HTMLParser.feed(slef, data) 才对吗?? 谢谢大家 -- 我不是宅 我只是比较居家 --



※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 108.6.70.125 ------------------------------------- 我查了一点资料 好像是因为喂进去的资料要先经过转换 #!/usr/bin/python # -*- coding: utf-8 -*- from html.parser import HTMLParser import urllib.request, urllib.parse, urllib.error import sys #定义HTML解析器 class LinkPrinter(HTMLParser): def handle_starttag(self,tag,attrs): if tag == 'a': for name,value in attrs: if name == 'href': print(value) #创建HTML解析器的实例 lParser = LinkPrinter() #打开HTML文件 data = urllib.request.urlopen("http://google.com.tw").read() lParser.feed(data.decode('UTF-8')) lParser.close() 现在遇到一个问题是 Traceback (most recent call last): File "D:\workspace\WebHW1\src\main.py", line 19, in <module> lParser.feed(data.decode('UTF-8')) UnicodeDecodeError: 'utf8' codec can't decode byte 0xa9 in position 3632: invalid start byte 但是google的首页是用utf-8编码 为什麽会不能转换呢? 谢谢大家 ※ 编辑: rock1985 来自: 128.238.241.105 (02/08 05:25)
1F:→ rock1985:结果我换成 google.com 就OK了 越来越混乱 = =a 02/08 05:29







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:e-shopping站内搜寻

TOP