当前位置: 首页 > news >正文

网站服务器有问题怎么办啊制作链接的小程序

网站服务器有问题怎么办啊,制作链接的小程序,本地免费发布信息网站,html网站系统搜索引擎日志分析 要求: 读取文件转换成RDD,并完成: 打印输出:热门搜索时间段(小时精度)Top3打印输出:热门搜索词Top3打印输出:统计黑马程序员关键字在哪个时段被搜索最多将数据转…

搜索引擎日志分析

要求:

读取文件转换成RDD,并完成:

  • 打印输出:热门搜索时间段(小时精度)Top3
  • 打印输出:热门搜索词Top3
  • 打印输出:统计黑马程序员关键字在哪个时段被搜索最多
  • 将数据转换为JSON格式,写出为文件

代码:

"""
综合案例
要求:读取文件转换成RDD,并完成:打印输出:热门搜索时间段(小时精度)Top3打印输出:热门搜索词Top3打印输出:统计黑马程序员关键字在哪个时段被搜索最多将数据转换为JSON格式,写出为文件
"""
# 构建执行环境入口对象
import json
from pyspark import SparkConf, SparkContext
import osos.environ['PYSPARK_PYTHON'] = "D:/Python/Python311/python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
conf.set('spark.default.parallelism', '1')
sc = SparkContext(conf=conf)# 读取文件转换成RDD,并完成:
rdd = sc.textFile("E:/百度网盘/1、Python快速入门(8天零基础入门到精通)/资料/第15章资料/资料/search_log.txt")
# print(rdd.collect())
# TOOP 需求1:热门搜索时间段(小时精度)Top3
# 1.1 取出全部的时间并转换为小时
# 1.2 转换为(小时,1)的二元元组
# 1.3 Key分组聚合Value
# 1.4 排序(降序)
# 1.5 取前三
# result1 = rdd.map(lambda x: x.split("\t")).\
#     map(lambda x: x[0][:2]).\
#     map(lambda x: (x, 1)).\
#     reduceByKey(lambda a, b: a + b).\
#     sortBy(lambda x: x[1], ascending=False, numPartitions=1).\
#     take(3)
# print("需求1的结果:", result1)
result1 = rdd.map(lambda x: (x.split("\t")[0][:2], 1)). \reduceByKey(lambda a, b: a + b). \sortBy(lambda x: x[1], ascending=False, numPartitions=1). \take(3)
print("需求1的结果:", result1)# TOOP 需求2:热门搜索词Top3
# 2.1 取出全部的搜索词
# 2.2 (词,1)二元元组
# 2.3 分组聚合
# 2.4 排序
# 2.5 Top3
result2 = rdd.map(lambda x: (x.split("\t")[2], 1)). \reduceByKey(lambda a, b: a + b). \sortBy(lambda x: x[1], ascending=False, numPartitions=1). \take(3)
print("需求2的结果:", result2)# TOOP 需求3:统计黑马程序员关键字在哪个时段被搜索最多
# 3.1 过滤内容,只保留黑马程序员关键字
# 3.2 转换为(小时,1)的二元元组
# 3.3 Key分组聚合Value
# 3.4 排序(降序)
# 3.5 取前1
result3 = rdd.map(lambda x: x.split("\t")).\filter(lambda x: x[2] == '黑马程序员').\map(lambda x: (x[0][:2], 1)).\reduceByKey(lambda a, b: a + b).\sortBy(lambda x: x[1], ascending=False, numPartitions=1).\take(1)
print("需求3的结果:", result3)# TOOP 需求4:将数据转换为JSON格式,写出为文件
# 4.1 转换为JSON格式的RDD
# 4.2 写出为文件
rdd.map(lambda x: x.split("\t")).\map(lambda x: {'time': x[0], 'user_id': x[1], 'key_word': x[2], 'rank1': x[3], 'rank2': x[4], 'url': x[5]}).\saveAsTextFile("D:/output_json")

 

 

 

http://www.gaoduandz.com/news/286.html

相关文章:

  • 威联通做网站网络推广的调整和优化
  • 温州平阳县企业网站搭建推荐微信seo排名优化软件
  • 帝国cms关闭网站百度网站统计
  • 女人与黑狗做视频网站国外搜索引擎优化
  • 网站文件夹命名seo竞价推广代运营服务
  • 怎么在macromedia做网站怎么在百度上发帖推广
  • 石家庄个人做网站百度视频免费下载
  • 网站维护建设费入什么科目网站建设推广多少钱
  • 深圳宝安网站建设网络推广方法技巧
  • 做公司+网站建设价格上海网络推广营销策划方案
  • 网络管理中心网站2022适合小学生的简短新闻摘抄
  • 网站运营成本搜索引擎营销seo
  • 制作静态网页刷神马seo排名首页排名
  • 上外国黄色网站网站提交收录入口
  • dreameaver注册用户网站怎么做推广神器app
  • 陕西大型网站建设网络软文范文
  • 用node和vue做的网站站长之家音效
  • 杭州哪家公司做网站好怎样进行网络营销吸引顾客
  • 中国中小企业信息网官网seo求职信息
  • 宝鸡网站优化哪家好新网站推广最直接的方法
  • 网站建设怎么设置渐变色长沙百度seo
  • 自己有网站想制作个程序seo免费优化软件
  • 东莞网站建设哪家好杭州排名推广
  • 乐山网站建设公司seo网站推广seo
  • 钦州公司做网站长沙建站工作室
  • 哈尔滨做网站搭建的seo系统源码出售
  • 求职网站建设如何完善百度一下下载
  • 做游戏网站赚钱吗今日关注
  • 怎么做 在线电影网站产品优化是什么意思
  • phpcms获取网站名称南京百度快速排名优化