设为标签?方便下次阅读

首页> >

第二百七十九章 潮水退去,全是大虾 (17 / 36)_

        而且这痕迹里,往往带着很浓重的个人特色。

        汇报人员继续说:“然后我们根据这四万个id,逐一在微博上进行了搜索,然后爬取了这些用户名的所有的发言,再利用这些用户动态的相似性,进行深度挖掘。”

        这是个极大的工作量。

        一个id在微博上有可能有成千上万个同名的账号。

        这些帐号的动态内容都得爬下来(这不违法,在地球上,好像是在2017年12月份,微博才关闭了api接口的。)。

        爬下来之后还得对这些id曾经发布的动态和内容进行关键词提取、照片信息提取,然后存档。

        注意哦,这只是一个id的工作量。

        比如说有一个人在豆半上注册了一个帐号叫张三,你按照这个名字在微博上搜索,结果出现了一万个叫张三。

        那这些张三的人的所有的动态都得爬下来。

        可是你怎么知道这一万个张三里面,哪一个是你想要的呢。

        内容未完,下一页继续阅读

×

安卓APP测试上线!

一次下载,永不丢失