博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
一个完整的大作业
阅读量:5267 次
发布时间:2019-06-14

本文共 1367 字,大约阅读时间需要 4 分钟。

1.选一个自己感兴趣的主题。

 https://s.taobao.com/search?q=

2.网络上爬取相关的数据。

 

import requests

import re

def getHTMLText(url):

try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""

def parsePage(ilt, html):

try:
plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)
tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
for i in range(len(plt)):
price = eval(plt[i].split(':')[1])
title = eval(tlt[i].split(':')[1])
ilt.append([price , title])
except:
print("")

def printGoodsList(ilt):

tplt = "{:4}\t{:8}\t{:16}"
print(tplt.format("序号", "价格", "商品名称"))
count = 0
for g in ilt:
count = count + 1
print(tplt.format(count, g[0], g[1]))

def main():

goods = '手机'
depth = 3
start_url = 'https://s.taobao.com/search?q=' + goods
infoList = []
for i in range(depth):
try:
url = start_url + '&s=' + str(44*i)
html = getHTMLText(url)
parsePage(infoList, html)
except:
continue
printGoodsList(infoList)

main()

 
 

3.进行文本分析,生成词云。

 

import jieba

from wordcloud import WordCloud
import matplotlib.pyplot as plt
txt=open('ye.txt','r',encoding='utf-8').read()
mywc = WordCloud().generate(txt)
plt.imshow(mywc)
plt.axis("off")
plt.show()

 

4.对文本分析结果解释说明。

从生成的云词看出iphone手机还是在搜索中占的量最多,也就是说销售的量也是最多,但是xiaomi,honor,vivo,huawei等国产手机的量还是不少的。可以说国产手机的产品力已经渐渐追上国际名牌手机。

5.写一篇完整的博客,附上源代码、数据爬取及分析结果,形成一个可展示的成果。

 

转载于:https://www.cnblogs.com/djye/p/7766124.html

你可能感兴趣的文章
Round B APAC Test 2017
查看>>
MySQL 字符编码问题详细解释
查看>>
Ubuntu下面安装eclipse for c++
查看>>
让IE浏览器支持CSS3圆角属性的方法
查看>>
巡风源码阅读与分析---nascan.py
查看>>
LiveBinding应用 dataBind 数据绑定
查看>>
Linux重定向: > 和 &> 区别
查看>>
nginx修改内核参数
查看>>
C 筛选法找素数
查看>>
TCP为什么需要3次握手与4次挥手(转载)
查看>>
IOC容器
查看>>
Windows 2003全面优化
查看>>
URAL 1002 Phone Numbers(KMP+最短路orDP)
查看>>
web_day4_css_宽度
查看>>
electron入门心得
查看>>
格而知之2:UIView的autoresizingMask属性探究
查看>>
我的Hook学习笔记
查看>>
js中的try/catch
查看>>
寄Android开发Gradle你需要知道的知识
查看>>
简述spring中常有的几种advice?
查看>>