作者yobook (@@)
看板Soft_Job
标题[请益] 备份网站的技术?
时间Sat Oct 9 09:40:57 2021
花了很多P币,跟时间再研究google跟备份网站
备份网站不是用多线程爬虫技术吗?
但是好像发现了,没有这麽简单
好像每个版,测试过,被备份的方式不同....
说简单,但也不简单
这类网站所依赖的技术,其实满简单的
但是PTT只要发文权限跟方式不改,永远都一定会被备份
发文的那个瞬间,因为很多地方不能改变,只能发文後再改
所以,第一次的文章标题,还有发文者一定会被纪录
本文可以修改,所以必须等第二次才能解决
想问一下,PTT备份网站,像是PTTWEB 所仰赖的技术.....
谢谢!
损失好多P币跟时间,血泪,才得到这种结论.....
人脑真的比不上电脑QQ
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 101.137.62.1 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1633743659.A.19F.html
1F:→ gasbomb: ……有人看得懂这篇吗? 10/09 10:03
2F:→ yinxuanh: 伸手文啊 10/09 10:08
3F:→ loadingN: 为什麽会损失p币 10/09 10:09
5F:推 PttLite: 看标题进来因为是DB backup或snapshot结果是爬虫...我快 10/09 11:08
6F:→ PttLite: 跟不上时代了.. 10/09 11:08
7F:→ qrtt1: 看不懂想要干麻 10/09 11:55
8F:推 wahaha279: 看不懂在说什麽 10/09 11:58
9F:→ yougigun: 我也跟不上你的脑 10/09 12:02
10F:→ brianhsu: 请先阅读「提问的智慧」,谢谢。 10/09 12:09
11F:→ chocopie: 先定义你要备份的内容是甚麽。 10/09 12:50
12F:→ chocopie: 是原本的内容一模一样?还是只爬文章文字内容? 10/09 12:50
13F:→ JimRoid: 看标题我以为你是要问快照之类的 10/09 12:55
14F:推 utdsml: 原 po 应该是想问备份 PTT 里面所有发推文纪录的网站 10/09 13:02
15F:→ moom50302: ctrl+S…? 10/09 13:05
16F:推 eduishappy: 我觉得PTT备份文章的网站真的好厉害喔!全都可以记录 10/09 13:06
17F:推 stupid0319: 偷取别人网站内容叫备份¿¿¿ 10/09 13:37
18F:推 geroge0820: 这就是工程师和客户之间的思维差异 10/09 13:43
19F:推 kyoe: 只要格式固定,都可以被解析 10/09 13:47
20F:推 flypaper: 我程度太差看不懂 QQ 10/09 14:31
21F:推 roccqqck: 爬虫作业自己写欸 本来每个网站爬虫都不一样 10/09 15:18
22F:→ roccqqck: 都要修改 10/09 15:18
23F:→ Olwen: 明明是中文,我确听不懂 10/09 15:45
24F:推 PttLite: 要用眼看 10/09 15:54
25F:→ ChungLi5566: 看不懂的都没有成为PM的资质 10/09 16:33
26F:→ ChungLi5566: 客户说的备份 要跟工程师说逆向工程才听得懂 10/09 16:35
27F:→ wave1et: ptt有个allpost版吧 10/09 17:19
28F:推 PttLite: 为什麽要对自己的网站做逆向工程 10/09 18:12
29F:推 RINPE: 没有什麽是复制贴上解决不了的 10/09 18:18
30F:推 sniper2824: 2012做到现在发文发问还像完全不懂程式的外行着实厉害 10/09 19:25
31F:推 bill0205: 对不起我还真的看不懂 10/09 20:21
32F:推 aidansky0989: 这个表达能力不愧是工程师 10/09 20:22
33F:→ OrzOGC: 我看得懂,有人可以捡我去当PM吗?QQ 10/09 20:22
34F:推 viper9709: 看不懂想问什麽+1 10/09 20:45
35F:推 pilor: 我看得懂中文看不懂这篇文 10/09 20:54
36F:推 boy70263: Ctrl+A+C+P 10/09 21:34
37F:→ ChungLi5566: 偷别人网站内容 然後做出相似的东西放出来 他想知道 10/09 21:57
38F:→ ChungLi5566: 那些网站怎麽办到的 10/09 21:57
39F:推 wulouise: 没讲解决要解决什麽,一百遍都猜不透吧 10/09 23:41
40F:推 BignoZe: 看得懂 还好我有看完新上的通灵王 10/09 23:54
好吧~ 我直说1.是用甚麽技术做出的网站? 2.如何防止一发文就被备份
3.可以从备份网站删文吗?
41F:推 Kazimir: 公开网站要怎麽防止备份 你要他们删文不然写信去问看看R 10/10 04:46
写了3封,没人鸟~
42F:→ qrtt1: 只有一开始就不存在的东西不会被备份 10/10 08:31
43F:推 MarcoReus: 反向思考 你可以发加密文 10/10 08:48
44F:推 art1: 去跟 ptt 站方要求禁止来自这些网站的爬虫 10/10 09:38
45F:→ art1: 应该说请求才对 10/10 09:38
46F:→ FantasyRyu: 公开网站可以防爬虫的话,那一开始你就发加密网站就好 10/10 09:50
47F:→ daddy29: 砍站 10/10 10:19
我连这网站的技术都不知道~ 要怎麽砍?
※ 编辑: yobook (101.137.139.78 台湾), 10/10/2021 10:20:25
48F:→ aa06697: 公开网站 网站也不是你拥有的话 你单纯发文没办法防吧 10/10 10:56
49F:推 WJAider: 哪篇啊? 我架个网站备份那篇,你想删联络我一定删 10/10 13:10
50F:嘘 sppmg: 我看唯一的问题应是:如何发文不留痕迹? 10/10 14:01
51F:→ Apache: 不要上网 10/10 15:30
52F:→ ChungLi5566: 骇进去砍啊 不然就走法律途径 10/10 17:08
53F:→ MonyemLi: 如果你是说删除,那叫特权,工程师不能任意删除的。公 10/10 17:59
54F:→ MonyemLi: 司主管授权维运工程师,政府公权力要求私人企业 10/10 17:59
55F:→ longlongint: 问netflix怎麽防止用直播截取卡把鱿鱼游戏录下来 10/10 18:28
56F:→ longlongint: 阿你文章就发出来了 10/10 18:28
57F:→ chocopie: 1. 直接爬BBS、爬PTT网页版、爬别人的爬虫 10/10 19:04
58F:→ chocopie: 2. 如何防止? 1. 发在有读取权限的版 2. 不要发文 10/10 19:04
59F:→ chocopie: 3. 台面上方法有许多,台面下方法不好说 10/10 19:04
60F:推 mathrew: 砍东西就是骇客行为啊,资讯资产保留的有一定的规范, 10/10 19:27
61F:→ mathrew: 不是你要砍就砍 10/10 19:27
62F:推 Apache: 你可以用GDPR去要求删除 10/10 19:30
63F:→ TakiDog: 支离破碎的发言 10/12 12:58
64F:→ realbout: 这篇是三小.... 10/12 15:10
65F:推 andrew5106: 啊不就爬虫 10/12 18:11
66F:→ andrew5106: 之前试过在文章开头加个HTML注解,有些备份网站就抓不 10/12 18:12
67F:→ andrew5106: 到内文 10/12 18:13
68F:→ andrew5106: 尝试更改你的内文阿,或是故意加一些语法让爬虫程式错 10/12 18:15
69F:→ andrew5106: 乱认不出来 10/12 18:15
70F:→ andrew5106: 爬虫只能抓固定Pattern的东西吧 10/12 18:15
71F:推 uglykidjoe: 怎麽这麽多会通灵的人,真是太厉害了 10/22 17:24
72F:→ cathychg: 程式码,资料库 系统环境安装啊 02/09 12:48
73F:→ cathychg: 资料库比较麻烦 动态客户资料要利用闲置时间备份。否则 02/09 12:49
74F:→ cathychg: 资料会漏的 02/09 12:49