文章64
标签4
分类5

论大数据和采集对生活的影响!

大数据(英语:Big data),或称巨量数据、海量数据、大资料,指的是.....

简介

大数据

大数据(英语:Big data),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。在总数据量相同的情况下,与个别分析独立的小型数据集(data set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。

采集

程序按照指定的规则定向获取其他网站数据的一种方式。网络采集器是用来批量采集网页,论坛等的内容,直接保存到数据库或发布到网站的一种工具,是一个从目标网页中摘取某些数据形成统一的本地数据库的一个过程。

初闻

关于采集:大约2008年在网上看到了火车头采集器,看着很深奥很强大的样子。那时自己并未涉及互联网研究,所以只是觉得很牛逼哄哄的样。

关于大数据:初次听闻是2013年大年所有人回家时 百度自己做的大数据全国回家分布的图表,当时我就觉得这东西真酷

击撞

第一次碰到被采集吧!至少是发现的。经同一个博客群的友友小寂同学的告知,在搜索WP主题时发现可疑站点有本人的群聊天记录。看着小寂发来的截图我瞬间的亚历山大了。 我:@XXX 看这名字脑子里就嚎叫着 萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉萝莉 SM君:@我 你可耻的硬了吗 我:不会啊 又没脱 我:估计脱完我的心也就碎了 SM君: 只是心碎而已吗 XXX: 我: 莫非会对身体和精神造成不可挽回的影响? CD: CD: 妹纸 你变质了 (以上均用化名以防检索) 本身这个是没什么的,只是说着说着说的有点过了。没抓住说话的节奏和引导性罢了。对方通过什么样的渠道完成的采集和发布当时不太清楚。只是觉得对方有点无聊了,没东西可写了复制粘贴罢了。只是感觉这个站点蛮奇怪的发现了好多其他群的聊天记录文章。直到翻了一页后我愣了!坑怎么还有啊,再翻,再翻,再翻。我去 发到群里@其他人点名上榜去。群里主要成员都完成了点名工作。那个群起激昂啊: D掉它! 查它备案! 没啥更新的也不能搞聊天内容啊!是机器人吗? 还好我一直提倡低碳环保低调处事没想到还是被拿上网站了。 此网站意义何在就是收集聊天记录去发? 我这么活跃竟然没有我,一定要D掉它! 别人是防黑防水 防dd 的主机 好危险 还吧消息记录了 用它的域名可以查到他的姓名,用它的姓名可以查到他的QQ啊 需要组织一波ddcc么 连jae的也中枪 你说我们现在的聊天明天会不会出现在网上

到现在我发帖为止最后采集日期为昨天晚上。最终我联系了所在两个群的管理反应了情况 管理们都很坚决的说要严肃处理这件事,所在j群管理说第二天找腾讯反映情况。另一个群实战派管理直接撸袖子查域名查备案去锁定人去了。

我觉的里面包括已知的两个群似乎有两个群的群成员名字和我所在的其他群中一样的。我开始在所有群中检索是否真的一样,如果一样就证明有关联性!即为可能是再扫我的聊天记录并采集发布,也就是说可能我的密码被对方得知并依照我的聊天记录检索。但是事实认为查找到有可能拥有相关性的可能性。

继续查找可能有相关性的昵称检索, 发现一昵称有熟悉感, 开始检索, 查询到该用户存在于我所在被采集博客群内, 继续检索, 检索完毕, 无其他群相关性, 向该用户发出询问请求, 该用户回复请求, 发出聊天记录询问是否和该用户昵称一样的聊天记录中用户是否是对方,。。。。。。

在和对方谈话中对方承认该站点为其所有,误以为我发现。而正式询问对我是否造成影响,我向其说明了大数据和网络最近频繁的被扒裤事件和可能被某些不坏好意的利用来组成一个“个人信息数据链”来完成对该网络用户的个人情况,消费情况,家庭情况,以及情感和性格情况的整理,完全可以以诈骗,诱导,哄骗,接触,冒充的方法骗钱甚至威胁等情况!对方最终选择了在两天内删除站点并作301处理来解决,而同时群管理已经将其人所有现实数据查找到了。我不得不说网络无隐私啊!!!!!!!!!!

(关于以上描写均用化名或对方来防检索防查询)(该“击撞”章节的所有描写为真实但仅用于说明事情经过和采集中可能造成的问题和社会以及隐私问题)

深思

相对于大数据而言虽没有国家的管制但一般的大型网站都有开放相关的api接口给你用可以算是比较和谐(至少是明面上)这个可是个高大上的职业。采集数据文章,这个嘛。其实所有人都会有笔墨用尽的时候,所以有所谓的转载。之后又有人发展成自动转载,最后成了多站采集发布。越来越省事,但相对的是越来越不愿动脑子去想一个创意,文章,等等之类的。人们开始出现了惰性,采集插件的多平台化也让一切变的更加得其所哉。也出现了没采集站点没法活的这种说法还有网站上线基本靠采集,不然无法维持更新。而现在已知的是百度(这个庞然大物)你博客没有定期更新可能就会不怎么收录你的站点。这也变相助涨了刷流量和采集的风潮,做站群的更甚。

相对的现在这种情况已经不是一个人或一些人能改变的了,就像是被推着前进。无法停止的继续,是否终有一天那些原创博客不再同意转载开始添加各种防采集的插件或代码以及采集发布的博文开始被用户厌烦。这是不是会最终走向消亡呢?但相信那应该是很久以后别人应该去想的事了,毕竟我活在当下!

(本文因使用真实记录所以无法允许转载抱歉)

本文作者:寒喵
本文链接:https://moe.mwulu.com/dashuju-caiji/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可