flink scala 实时热门商品统计

该博客展示了如何使用Apache Flink处理用户行为数据,针对实时点击量进行统计。通过设置滑动窗口,每5分钟输出最近一小时内点击量最多的前N个商品,实现热点商品的实时监控。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.实时热门商品统计
需求:每隔 5 分钟输出最近一小时内点击量最多的前 N 个商品

package userbehavior35

//需求 每隔五分钟输出最近一小时内点击量最多的前 N 个商品。
/*
抽取出业务时间戳,告诉 Flink 框架基于业务时间做窗口
过滤出点击行为数据
按一小时的窗口大小,每 5 分钟统计一次,做滑动窗口聚合(Sliding Window)
按每个窗口聚合,输出每个窗口中点击量前 N 名的商品
 */

import java.lang
import java.sql.Timestamp
import java.time.Duration

import org.apache.flink.api.common.RuntimeExecutionMode
import org.apache.flink.api.common.eventtime.{SerializableTimestampAssigner, WatermarkStrategy}
import org.apache.flink.api.common.functions.AggregateFunction
import org.apache.flink.api.common.state.{ListState, ListStateDescriptor, ValueState, ValueStateDescriptor}
import org.apache.flink.configuration.Configuration
import org.apache.flink.streaming.api.functions.KeyedProcessFunction
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.scala.function.WindowFunction
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
import org.apache.flink.util.Collector

import scala.collection.mutable.ListBuffer


case class UserBehavior(userId:Long,itemId:Long,categoryId:Long,behavior:String,timestamp:Long)

object HotItem {
  def main(args: Array[String]): Unit = {

    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC)
    env.setParallelism(1)

    val source = env.readTextFile("D:\\study\\Code\\UserBehavior\\src\\main\\resources\\UserBehavior.csv")


    val dataStream: DataStream[UserBehavior] = source.map(line => {
      val split = line.split(",")
      val userId = split(0).trim.toLong
      val itemId = split(1).trim.toLong
      val categoryId = split(2).trim.toLong
      val behavior = split(3).trim
      val timestamp = split(4).trim.toLong
      UserBehavior(userId, itemId, categoryId, behavior, timestamp)
    })
      .assignTimestampsAndWatermarks(WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofSeconds(2))
        .withTimestampAssigner(new SerializableTimestampAssigner[UserBehavior] {
          override def extractTimestamp(element: UserBehavior, recordTimestamp: Long): Long = element.timestamp * 1000L
        }))



    val aggDataStream = dataStream.filter(_.behavior == "pv")
      .keyBy(_.itemId)
      .timeWindow(Time.hours(1),Time.minutes(5))
      .aggregate(new CountAgg(),new WindowResultFunction())

    /*val aggDataStream = dataStream.filter(_.behavior == "pv")
      .keyBy(_.itemId)
      .timeWindow(Time.hours(1), Time.minutes(5))
      .aggregate(new CountAgg(), new WindowResultFunction())*/

    //对窗口内的数据 排序输出
    aggDataStream.keyBy(_.windowEnd)
      .process(new TopNHotItems(3))
      .print()

    env.execute("job")


  }
}


class CountAgg() extends AggregateFunction[UserBehavior,Long,Long]{
  //初始化
  override def createAccumulator(): Long = 0L
  //累加
  override def add(in: UserBehavior, acc: Long): Long = acc+1
  //取值
  override def getResult(acc: Long): Long = acc
  //多个分区的合并
  override def merge(acc: Long, acc1: Long): Long = acc + acc1
}

case class ItemViewCount(itemId:Long,windowEnd:Long,count:Long)

class WindowResultFunction() extends WindowFunction[Long,ItemViewCount,Long,TimeWindow]{
  override def apply(key: Long, window: TimeWindow, input: Iterable[Long], out: Collector[ItemViewCount]): Unit = {
    val itemId=key
    val windowEnd=window.getEnd
    val count=input.iterator.next()

    out.collect(ItemViewCount(itemId,windowEnd,count))

  }
}

class TopNHotItems(size:Int) extends KeyedProcessFunction[Long,ItemViewCount,String]{
//定义状态 保存窗口内的所有数据
  var listState: ListState[ItemViewCount] = _

  var timerState: ValueState[Long] = _

  override def open(parameters: Configuration): Unit = {
    listState = getRuntimeContext.getListState(new ListStateDescriptor[ItemViewCount]("listState",classOf[ItemViewCount]))
    timerState= getRuntimeContext.getState(new ValueStateDescriptor[Long]("timerState",classOf[Long]))
  }

  override def processElement(i: ItemViewCount, context: KeyedProcessFunction[Long, ItemViewCount, String]#Context, collector: Collector[String]): Unit = {
    listState.add(i)

    //注册定时器 窗口下一秒执行
    val ts =  i.windowEnd + 1
    context.timerService().registerEventTimeTimer(ts)
  }

  override def onTimer(timestamp: Long, ctx: KeyedProcessFunction[Long, ItemViewCount, String]#OnTimerContext, out: Collector[String]): Unit = {

    //取出窗口的所有数据 java集合

    val itemViewCounts: lang.Iterable[ItemViewCount] = listState.get()

    //创建scala集合  存放数据
    val buffer: ListBuffer[ItemViewCount] = ListBuffer[ItemViewCount]()

    import scala.collection.JavaConversions._

    for(i <- itemViewCounts){
      buffer += i
    }

    //对窗口的数据排序 去TopN
    val sortedItems: ListBuffer[ItemViewCount] = buffer.sortBy(_.count).reverse.take(size)

    //将排名信息格式化成String,便于打印

    val result: StringBuilder = new StringBuilder

    result.append("=============================")
    result.append("时间:").append(new Timestamp(timestamp-1)).append("\n")

    for(i<-sortedItems.indices){
      val currentItem: ItemViewCount = sortedItems(i)

      result.append("No.").append(i+1).append(":")
        .append("商品ID=").append(currentItem.itemId)
        .append("浏览量=").append(currentItem.count).append("\n")

    }

    result.append("=========================")

    Thread.sleep(1000)
    out.collect(result.toString())

  }
}
### 实现订单金额统计 为了使用 Apache Flink 1.14 和 Scala 进行编程来统计订单金额,可以遵循以下方法构建应用程序。此应用会读取订单数据流并计算总金额。 #### 创建 Maven 或 SBT 项目结构 确保项目的 `pom.xml` 中包含了必要的依赖项以支持 Flink 的 Java API 及其与 Scala 的互操作性[^1]: ```xml <dependencies> <!-- Flink dependencies --> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-scala_2.12</artifactId> <version>1.14.4</version> </dependency> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-clients_2.12</artifactId> <version>1.14.4</version> </dependency> <!-- Add other necessary dependencies here --> </dependencies> ``` 对于 SBT 用户,在 `build.sbt` 文件中添加相应的库声明: ```scala libraryDependencies ++= Seq( "org.apache.flink" %% "flink-streaming-scala" % "1.14.4", "org.apache.flink" %% "flink-clients" % "1.14.4" ) ``` #### 编写订单金额统计数据程序 下面展示了一个简单的例子,该例子展示了如何利用 Flink Streaming API 来处理来自 socket 流的订单记录,并汇总这些订单的数量和总额。 ```scala import org.apache.flink.api.scala._ import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment import org.apache.flink.streaming.api.datastream.DataStreamSink import org.apache.flink.streaming.api.functions.source.SourceFunction object OrderAmountStatistics { case class Order(orderId: String, amount: Double) def main(args: Array[String]): Unit = { val env = StreamExecutionEnvironment.getExecutionEnvironment // 假设我们有一个源生成模拟订单事件 val ordersSource: DataStreamSink[(String, Double)] = env.socketTextStream("localhost", 9999).map { line => val fields = line.split(",") Order(fields(0), fields(1).toDouble) }.keyBy(_.orderId) .sum("amount") // 对每个 key 计算 sum ordersSource.print() try { println("Starting the streaming process.") env.execute("Order Amount Statistics") } catch { case e: Exception => e.printStackTrace() } } } ``` 这段代码实现了从套接字接收字符串形式的订单信息(假设格式为 `"order_id,amount"`),解析成 `Order` 类型的对象,按订单 ID 分组并对金额求和的功能。 注意:实际部署时应替换掉这里的简单 socket 数据源为更复杂的数据源如 Kafka 等,并考虑生产环境下的配置优化等问题。 #### 处理累加器(Accumulators) 当需要跟踪某些聚合指标比如已处理条目的数量或特定条件满足次数的时候,可以引入 Flink 提供的累加器机制[^4]。例如,可以通过定义一个新的类成员作为计数器并在适当的地方增加它;最后通过 JobManager 获取到这个值用于监控或其他用途。 ```scala val env = StreamExecutionEnvironment.getExecutionEnvironment env.setParallelism(1) // 设置并行度以便于理解输出结果 // 定义一个IntCounter类型的累加器实例 val numOrdersProcessed = new IntCounter() data.map{ order => // 更新累加器逻辑... getRuntimeContext.addAccumulator("num-orders-processed", numOrdersProcessed) ... }.print() try { env.execute("Order Processing with Accumulator") } finally { println(s"Total Orders Processed: ${jobResult.getAccumulatorResult("num-orders-processed")}") } ``` 上述代码片段说明了怎样注册以及访问累加器的结果。这有助于了解作业执行过程中的内部状态变化情况。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值