云计算课设 - Zsm's blog

云计算课设#

这个课设是一个基于MapReduce的倒排索引系统，核心是Hadoop+docker+k8s

整体架构#

前端 vue+nodejs

后端 nodejs+express+redis+sqlite3

部署方法 dockerfile+k8s

数据处理方法 Hadoop

课设灵感#

自己blog的搜索功能很弱，采用的是js插件的全局遍历搜索，就在网上查了一下优化方法，顺便知道了倒排索引这种方法，结合云计算课堂的docker和Hadoop知识，便有了这个课设

倒排索引介绍#

什么是正排索引#

可以简单的理解为通过文档找词

1
文档--> 单词1 ,单词2
2

3
单词1 出现的次数  单词出现的位置； 单词2 单词2出现的位置  ...

正排索引的优势在于可以快速的查找某个文档里包含哪些词项。同理，正排不适用于查找包含某个词项的文档有哪些。

什么是倒排索引#

倒排索引（Inverted Index）是一种常用的文本索引数据结构，用于加快文本搜索和信息检索的速度。它是一种反转（Inverted）的索引结构，将文档中的每个单词映射到包含该单词的文档列表。

通常，倒排索引由两个主要组成部分构成：词项表（Term Dictionary）和倒排列表（Inverted List）。

词项表（Term Dictionary）：词项表是一个词项到倒排列表的映射，它记录了所有不重复的单词（或词项）以及它们对应的倒排列表的位置信息。

倒排列表（Inverted List）：倒排列表包含了一个单词在文档集合中的出现位置。对于每个单词，倒排列表记录了包含该单词的文档的标识符（例如文档ID）以及该单词在文档中的位置信息（例如单词出现的位置或出现的频率）。

用一个图直观展示两者的区别 yjs

前端设计#

文件结构#

1
│  .dockerignore
2
│  Dockerfile
3
│  index.html
4
│  package-lock.json
5
│  package.json
6
│  results.html
7
│  server.js
8
│  vite.config.js
9
│
10
├─public
11
│      favicon-16x16.png
12
│      icon_search.svg
13
│      leetcode.png
14
│      title.ttf
15
│
16
└─src
17
    └─assets
18
            base.css
19
            main.css

文件介绍#

.html文件就是用户搜索/显示题目的页面
public存的图片
src存的样式(ai完成的，自己真的不会写)
dokcerfile和.dockerignore生成docker用
server.js本地启动项目并且用于后续k8s部署时同步环境
package.json用来配置项目依赖，package-lock.json自动生成

交互设计#

前后端通过POST互通，经过解析后显示

后端设计#

文件结构#

1
├── data/                #数据存放
2
├── src/
3
│   ├── config/         # 配置文件
4
│   ├── controllers/    # 控制器
5
│   ├── models/        # 数据模型
6
│   ├── routes/        # 路由
7
│   ├── services/      # 业务逻辑
8
│   └── utils/         # 工具函数
9
├── Dockerfile        # Docker 配置
10
├── package.json      # 项目配置
11
└── README.md         # 项目说明

数据获取#

拿的力扣的数据，他们的api用的graphql，本来想用牛客的，结果76跟我说牛客没有这种接口，期末时间紧，也懒得爬了xd

拉数据非常简单，比如

1
https://leetcode.com/graphql?query=query
2
{
3
      userContestRanking(username:  "YOUR_USERNAME")
4
      {
5
        attendedContestsCount
6
        rating
7
        globalRanking
8
        totalParticipants
9
        topPercentage
10
      }
11
      userContestRankingHistory(username: "YOUR_USERNAME")
12
      {
13
        attended
14
        trendDirection
15
        problemsSolved
16
        totalProblems
17
        finishTimeInSeconds
18
        rating
19
        ranking
20
        contest
21
        {
22
          title
23
          startTime
24
        }
25
      }
26
}

在浏览器里面搜这个，就可以得到一堆数据了

存到数据里面并把url删除，存于data/input.txt里面，类似1 Two Sum Easy array hash-table，准备进行mapreduce的分词

Hadoop处理#

首先把数据ftp传上去，然后在hdfs里面搞个文件夹，并且数据扔进去

hdfs dfs -mkdir /input hdfs dfs -put ~/input.txt /input/

使用mapreduce进行分词

根据Hadoop streaming 的规则，只要我们使用标准的输入输出，什么语言都行，直接nodejs启动了，mapper.js起到这个作用。

在map阶段，我们按行读取内容，并将处理后的内容分为docId 和单词，并使用标准输入输出进行输出方便后续reduce处理，所以就有了reduce.js。

生成并且拉出数据

hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-3.3.6.jar -D mapreduce.job.maps=4 -D mapreduce.job.reduces=4 -files mapper.js,reducer.js -mapper “node mapper.js” -reducer “node reducer.js” -input /input/input.txt -output /output

hdfs dfs -get /output ~/hadoop_output

存入redis 具体来说，我们读取处理好的单词与文章的映射，并根据单词在某个文章中出现的次数对其进行排序，如 ZSM (46,1),(589,1),(32,1),(42,2),(22,1) 变成ZSM (42,2),(46,1),(589,1),(32,1),(22,1)

docker部署#

前端#

1
# 使用基础的 Node.js 镜像作为基础
2
FROM node:18
3

4
# 设置工作目录
5
WORKDIR /usr/src/app
6

7
# 将 package.json 和 package-lock.json 复制到工作目录
8
COPY package*.json ./
9

10
# 安装依赖
11
RUN  npm  install
12

13
# 复制项目文件到工作目录
14
COPY . .
15

16
# 暴露容器的端口（根据你的项目配置）
17
EXPOSE 5173
18

19
# 运行前端应用
20
CMD ["node", "server.js"]

全部文件拉进去，运行进行了，一定要在里面去npm install，要不然会有环境问题，比如arm和x86的包不兼容

后端#

这里我把sqlite3也包进去了，反正比较轻量

1
FROM node:18-alpine
2

3
# 安装构建 better-sqlite3 所需的依赖
4
RUN apk add --no-cache python3 make g++ sqlite-dev
5

6
WORKDIR /app
7

8
COPY package*.json ./
9

10
RUN npm install
11

12
COPY . .
13

14
EXPOSE 9999
15

16
CMD ["npm", "start"]

k8s部署#

redis部署#

首先要理解，每个pod都是和主机环境直接隔离的，如果我想用主机docker上面部署的redis是可以的，但是需要的url就是http://ip:port，是固定的，那你换个网本地调试是不是炸了，所以拿一个port部署redis是很有必要的

1
apiVersion: apps/v1
2
kind: Deployment
3
metadata:
4
  name: redis
5
spec:
6
  replicas: 1
7
  selector:
8
    matchLabels:
9
      app: redis
10
  template:
11
    metadata:
12
      labels:
13
        app: redis
14
    spec:
15
      containers:
16
        - name: redis
17
          image: redis:7.2
18
          ports:
19
            - containerPort: 6379
20
---
21
apiVersion: v1
22
kind: Service
23
metadata:
24
  name: redis-service
25
spec:
26
  selector:
27
    app: redis
28
  ports:
29
    - protocol: TCP
30
      port: 6379
31
      targetPort: 6379

前端部署#

这里我采用docker+k8s，可以看k8s的那个文章，讲了一点点原理，所以本地docker搭建的时候是docker build -t yunjisuanfront:latest .

1
apiVersion: apps/v1
2
kind: Deployment
3
metadata:
4
  name: yunjisuan-frontend
5
spec:
6
  replicas: 1
7
  selector:
8
    matchLabels:
9
      app: yunjisuan-frontend
10
  template:
11
    metadata:
12
      labels:
13
        app: yunjisuan-frontend
14
    spec:
15
      containers:
16
      - name: yunjisuan-frontend
17
        image: yunjisuanfront:latest
18
        imagePullPolicy: Never  # 使用本地镜像
19
        ports:
20
        - containerPort: 5173  # 根据你的前端实际端口调整
21
        env:
22
        - name: BACKEND_URL
23
          value: "http://yunjisuan-backend-service:9999"
24
---
25
apiVersion: v1
26
kind: Service
27
metadata:
28
  name: yunjisuan-frontend-service
29
spec:
30
  selector:
31
    app: yunjisuan-frontend
32
  ports:
33
  - port: 5173
34
    targetPort: 5173
35
  type: LoadBalancer  # 负载均衡

后端部署#

1
apiVersion: apps/v1
2
kind: Deployment
3
metadata:
4
  name: yunjisuan-backend
5
spec:
6
  replicas: 1
7
  selector:
8
    matchLabels:
9
      app: yunjisuan-backend
10
  template:
11
    metadata:
12
      labels:
13
        app: yunjisuan-backend
14
    spec:
15
      containers:
16
      - name: yunjisuan-backend
17
        image: yunjisuan-backend:latest
18
        imagePullPolicy: Never  # 使用本地镜像
19
        ports:
20
        - containerPort: 9999
21
        env:
22
        - name: DB_PATH
23
          value: "/app/data/questions.db"
24
        - name: REDIS_HOST
25
          value: "redis-service"
26
        - name: REDIS_PORT
27
          value: "6379"
28
        - name: NODE_ENV
29
          value: "production"
30
        volumeMounts:
31
        - name: data-volume
32
          mountPath: /app/data
33
      volumes:
34
      - name: data-volume
35
        persistentVolumeClaim:
36
          claimName: yunjisuan-data-pvc
37
---
38
apiVersion: v1
39
kind: Service
40
metadata:
41
  name: yunjisuan-backend-service
42
spec:
43
  selector:
44
    app: yunjisuan-backend
45
  ports:
46
  - port: 9999
47
    targetPort: 9999
48
  type: ClusterIP

注意要去吃到数据库和redis的路径/端口，然后再挂个持久化

1
apiVersion: v1
2
kind: PersistentVolumeClaim
3
metadata:
4
  name: yunjisuan-data-pvc
5
spec:
6
  accessModes:
7
    - ReadWriteOnce
8
  resources:
9
    requests:
10
      storage: 1Gi

关于自动化#

以上方法虽然用的是last版本，但是有bug的话你就要删掉重建，很麻烦，如何自动推送启用last版本的docker镜像呢？？？

方法一
利用自动化sh脚本

1
#!/bin/bash
2
PREVIOUS_DIGEST=""
3
while true; do
4
  DIGEST=$(docker image inspect yunjisuanfront:latest --format='{{index .Id}}')
5
  if [[ "$DIGEST" != "$PREVIOUS_DIGEST" ]]; then
6
    echo "镜像已更新，重启 Deployment..."
7
    kubectl rollout restart deployment yunjisuan-frontend
8
    PREVIOUS_DIGEST="$DIGEST"
9
  fi
10
  sleep 10
11
done

方法二 使用本地 registry + 镜像 tag 唯一化

每次你 build 镜像时，给它一个唯一 tag（比如使用时间戳、Git 提交哈希），然后更新 Deployment 镜像地址。这样 Kubernetes 会认为镜像变了，从而重建 Pod。

本地搭建 Docker Registry

docker run -d -p 5000:5000 —name registry —restart=always registry:2

构建并推送带唯一 tag 的镜像

TIMESTAMP= $(date +%s) docker build -t localhost:5000/yunjisuanfront:$ TIMESTAMP . docker push localhost:5000/yunjisuanfront:$TIMESTAMP

更新 Deployment 的镜像地址

image: localhost:5000/yunjisuanfront:{{TIMESTAMP}} imagePullPolicy: Always

可以使用脚本/CI 工具（如 GitHub Actions）自动完成 build → push → update YAML → apply。
比如

1
#!/bin/bash
2
set -e
3

4
# 1. 生成唯一 tag
5
TAG=$(date +%s)
6

7
# 2. 构建镜像
8
docker build -t localhost:5000/yunjisuanfront:$TAG .
9

10
# 3. 推送到本地 registry
11
docker push localhost:5000/yunjisuanfront:$TAG
12

13
# 4. 渲染模板
14
envsubst < deploy/frontend.yaml.template > deploy/frontend.yaml
15

16
# 5. 应用到 K8s
17
kubectl apply -f deploy/frontend.yaml
18

19
echo "✅ 镜像 yunjisuanfront:$TAG 已部署到 Kubernetes"

鸽子时间#

如果有时间，可能会研究持久化抓取数据->Hadoop自动化处理->推送数据库->重建镜像->pod重启，但是比较复杂，而且吃性能，后面再说吧。
咕咕咕

本地小bug(6.12更新)#

在本地部署成功之后，需要把后端port转发到本地，原因是，Pod 和 Service 默认是内网通信的，如果前端vue要访问后端api，我必须要走本地这里

kubectl port-forward service/yunjisuan-backend-service 9999:9999 &

云上问题(6.13更新)#

dokcer#

此docker指的是k8s部署的时候用的docker，本地没有这个问题，可能是orb的功劳？

在docker build -t frontend:latest .后，你拥有了本地镜像，这个时候你也许会运行kubectl apply -f **.yaml，然后kubectl get pod，然后就发现会镜像错误，原因是k8s和docker用的虽然都是containerd，但是不能直接利用！
你需要

1
docker save frontend:latest -o frontend.tar
2
docker load -i frontend.tar
3
ctr -n k8s.io images import frontend.tar //推送到containerd

这样才可以使用本地的

部署问题#

部署其实在网上有很多教程，为什么我还是配置了一晚上呢？

第一开始并没有详细的看教程，直接apt启动加上个人想象力了，发现环境炸了的时候已经救不回来了，所以后面带着docker整个卸载重装了

最后选择了k3s，更加轻量化，也更好配置(2c2g的服务器搞这种东西真有点难)。

但是问题依旧很多，比如k3s的镜像问题，DNS转发都转发不了的，我选择了全部pull到本地，然后打包成tar传上去，虽然很慢，但是很稳。为什么不换源呢？我是真的没有找到可以用的，不知道为什么，我可以用的docker源拉到k3s里面都烂了，下次可以试试搞个镜像站吧。

a ctfer on the load

云计算课设#

整体架构#

课设灵感#

倒排索引介绍#

什么是正排索引#

什么是倒排索引#

前端设计#

文件结构#

文件介绍#

交互设计#

后端设计#

文件结构#

数据获取#

Hadoop处理#

docker部署#

前端#

后端#

k8s部署#

redis部署#

前端部署#

后端部署#

关于自动化#

鸽子时间#

本地小bug(6.12更新)#

云上问题(6.13更新)#

dokcer#

部署问题#