太行山有Python爬取微博数据

今天就跟大家聊聊有关太行山有Python爬取微博数据，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

创新互联是一家集网站建设,信阳企业网站建设,信阳品牌网站建设,网站定制,信阳网站建设报价,网络营销,网络优化,信阳网站推广为一体的创新建站企业，帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿，时刻以成就客户成长自我，坚持不断学习、思考、沉淀、净化自己，让我们为更多的企业打造出实用型网站。

爬虫的最大功能之一就是整合数据，能弄到更全面的信息，真正做好大数据的分析，在这个数据说话的年代，影响是决定性的。（注意别侵权）

♦思路流程

1、利用chrome浏览器，获取自己的cookie。

2、获取你要爬取的用户的微博User_id

3、将获得的两项内容填入到weibo.py中，替换代码中的YOUR_USER_ID和#YOUR_COOKIE，运行代码。

♦完整代码

import requestsimport reimport pandas as pdimport time as tmimport random# ------------------------id = "2304132803301701"timedata = []for p in range(1,3):    page = str(p)    url = "https://m.weibo.cn/api/container/getIndex?containerid=" + id + "_-_WEIBO_SECOND_PROFILE_WEIBO&luicode=10000011&lfid=" + id + "&page_type=03&page=" + page    data = requests.get(url)    data_text = data.text    data_num = re.findall(r'\"mid\"\:\"(\d{16})\"', data_text)    num = len(data_num)    for i in range(0,num):        url_detail = "https://m.weibo.cn/detail/" + data_num[i]        html = requests.get(url_detail)        time = re.search(r'\"created_at\"\:\s\"(\w\w\w\s\w\w\w\s\d\d\s\d\d\:\d\d\:\d\d)\s\+\d{4}\s\d{4}\"', html.text)        timedata.append(time.group(1))        tm.sleep(random.uniform(1,4)) #反爬间隔        print("采集第%d页第%d条微博数据"%(p,i))name =["time"]data_save = pd.DataFrame(columns=name, data=timedata)data_save.to_csv('./data.csv')

用wordcloud等软件生成词云，它会根据信息的频率、权重按比列显示关键字的字体大小。

看完上述内容，你们对太行山有Python爬取微博数据有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注创新互联行业资讯频道，感谢大家的支持。

网页名称：太行山有Python爬取微博数据
当前路径：http://kswsj.cn/article/pspiji.html

关于创新互联

太行山有Python爬取微博数据

其他资讯