谁来预测一下第 2 & 3 亿张 flickr 图片产生的时间?

转载

最早是发现 [url]http://www.flickr.com/photos[/url] 每次刷新都不一样,于是穷极无聊的写了一个正则分析页面的一段 code,每三秒抓一次,取得那页的 16 个图片的 id,保留最大和最小的两个(这两个 id 的平均差距在 97 左右)。当时是想搞清楚他这页的规律或者说机制,可分析可比抓取要难的多,而且我无法抓取全部时段,因为我保证不了这东西一直运行。中途 5 月份因为数据表出错结果隔了一个月才发现。

这个表列举的是每次抓取所能得到的最大 id,如果花点时间,还是可以从这个残缺的表里找出规律的。另外我觉得 worldcup 这类事件也会导致 flickr 增长速度的波动。

这只是一个 GROUP BY 后的结果,如果你真有兴趣,可以找我要一个完整抓取记录,大约 70 万条记录的(我承认这有些恶劣……我很感谢 flickr 没封我 ip,或者仅仅是因为封 ip 的成本比继续让我抓的成本要高)

[quote]
120217457 2006-03-30 18:04:18
120534505 2006-03-31 10:53:22
120775706 2006-04-01 00:00:01
121302601 2006-04-02 00:00:02
121917293 2006-04-03 00:00:01
122648915 2006-04-04 00:00:04
123252762 2006-04-05 00:01:26
123778884 2006-04-06 00:00:00
124253419 2006-04-07 00:00:05
124723565 2006-04-08 00:00:03
125169947 2006-04-09 00:00:11
125732695 2006-04-10 00:00:05
127381096 2006-04-12 17:07:51
127495430 2006-04-13 00:00:05
127972095 2006-04-14 00:00:06
128419154 2006-04-15 00:00:02
128916096 2006-04-16 00:00:00
129468322 2006-04-17 00:00:02
130181657 2006-04-18 00:01:15
130839276 2006-04-19 00:00:02
131395654 2006-04-20 00:00:01
131920760 2006-04-21 00:00:01
132421744 2006-04-22 00:00:00
132897274 2006-04-23 00:00:00
133506145 2006-04-24 00:00:00
134233785 2006-04-25 00:00:03
134867585 2006-04-26 00:00:01
135917439 2006-04-27 22:46:16
135949341 2006-04-28 00:00:08
156210492 2006-05-30 13:56:24
157030264 2006-05-31 14:56:04
157267704 2006-06-01 00:00:01
158521183 2006-06-02 14:32:03
158737606 2006-06-03 00:00:03
159342282 2006-06-04 00:00:02
160671610 2006-06-05 14:30:46
160955704 2006-06-06 00:00:03
161748471 2006-06-07 00:00:00
162435305 2006-06-08 00:00:05
163052475 2006-06-09 00:00:10
163672152 2006-06-10 00:00:15
164233797 2006-06-11 00:00:03
164906566 2006-06-12 00:00:01
165769045 2006-06-13 00:00:02
166513413 2006-06-14 00:00:04
167142937 2006-06-15 00:01:25
167744341 2006-06-16 00:00:02
168357238 2006-06-17 00:00:01
168946718 2006-06-18 00:00:07
170092152 2006-06-19 10:01:50
170550187 2006-06-20 00:00:06
171336725 2006-06-21 00:00:04
172023180 2006-06-22 00:00:03
172987543 2006-06-23 10:37:12
175289871 2006-06-26 16:19:59
176040038 2006-06-27 12:46:40
176349113 2006-06-28 00:00:03
177088699 2006-06-29 00:00:00
177764645 2006-06-30 00:00:04
178435586 2006-07-01 00:00:01
179107209 2006-07-02 00:00:00
180333154 2006-07-03 10:48:29
180764935 2006-07-04 00:00:02
181641203 2006-07-05 00:00:01
182530475 2006-07-06 00:00:02
183394665 2006-07-07 00:00:01
186049018 2006-07-10 10:30:19
186500493 2006-07-11 00:00:02
187367587 2006-07-12 00:00:02
188127209 2006-07-13 00:00:03
191305038 2006-07-17 09:53:54
[/quote]

现在距离 flickr 突破 2 亿图片已经太近了,因此这个表可能没什么意义——谁能借此预测一下第三亿张图片产生的时间?

相比绝大部分应用都可以归结为简单的 CMS,flickr 和 del.icio.us 是最让我着迷的两个 web 系统,在这种量级下的一些操作有些不可思议,一直在毫无头绪的琢磨这东西,希望实现同样的功能。很多东西(比方说 tag)当然不可能是真实的运算,一些障眼法,flickr 可以很明显的看到一些缺陷了,del.icio.us 没仔细做实验,相信也很容易找到。兴趣就在于如何模拟出那些效果,并且完好的伪装自己。