代码手工艺人

Self-Hosting Aptabase on a Mac Mini - A Troubleshooting Guide

2026-03-16T00:00:01.000Z

I recently went looking for an analytics tool for an app I’m developing. There are plenty of options out there, but most are either too heavyweight or raise privacy concerns. After some research, Aptabase caught my eye — it’s privacy-first, uses no unique user identifiers, fully complies with GDPR/CCPA, comes with a clean and intuitive dashboard, and offers over 10 SDKs covering most major frameworks. Best of all, it supports self-hosting, so your data stays entirely under your control.

The official self-hosting repository makes it look simple — just clone, tweak a few configs, run docker compose up -d, and you’re done. But the actual deployment process had quite a few gotchas, and many others in the Issues have run into similar problems. Here’s what I learned, hoping it saves you some trouble.

Gotcha #1: No Emails by Default — Activation Link Hidden in Logs

Aptabase doesn’t configure SMTP out of the box. After registering an account, you won’t receive any email. However, it prints the activation link to the container logs, so you need to check them manually:

1	docker logs -f aptabase_app

Look for a link like this in the output, then open it in your browser to activate your account:

1	https://your-domain/api/_auth/continue?token=eyJhbGciOiJIUzI1NiIs...

This is just a temporary workaround — we’ll configure SMTP later for proper email delivery.

Gotcha #2: HTTPS Is Required — Otherwise Activation Loops Forever

After clicking the activation link, the page kept redirecting back to the login page in an endless loop. After debugging, I found that Aptabase requires BASE_URL to use HTTPS — otherwise cookies and redirects in the auth flow break.

My setup runs on a Mac Mini at home with no public IP, and I didn’t want to deal with certificates manually. The solution: Cloudflare Tunnel with a custom domain.

Setting Up Cloudflare Tunnel

Log in to the Cloudflare Dashboard, go to Zero Trust → Networks → Tunnels
Click Create a tunnel, choose the Cloudflared type, and give it a name (e.g., mac-mini)
Follow the instructions to install and run cloudflared on your Mac Mini. On macOS, use Homebrew:

1	brew install cloudflared

Then connect the tunnel using the command shown on the page (which includes a token):

1	cloudflared service install

On the tunnel’s Public Hostname page, add a record:
- Subdomain: stats (or whatever you prefer)
- Domain: select a domain hosted on Cloudflare, e.g., pastepaw.com
- Service: http://localhost:3200 (this port matches the Nginx mapping in docker-compose)

Once configured, Cloudflare handles HTTPS certificates automatically. External traffic to https://stats.pastepaw.com is securely forwarded through the tunnel to your Mac Mini.

Gotcha #3: Can’t Get Real User IPs

After deployment, I noticed the dashboard showed the same IP for every user — Cloudflare’s IP, not the actual user’s.

This is a classic Cloudflare Tunnel issue. After traffic passes through Cloudflare’s proxy, the source IP becomes Cloudflare’s server IP. The real user IP is placed in the CF-Connecting-IP HTTP header, but Aptabase (built on ASP.NET Core) doesn’t read this header by default.

The fix is to add an Nginx reverse proxy in front of Aptabase that converts CF-Connecting-IP into the standard X-Forwarded-For header, then point Cloudflare Tunnel at Nginx instead of directly at Aptabase.

Here’s the nginx.conf:

events {
    worker_connections 1024;
}

http {
    server {
        listen 80;

        location / {
            proxy_pass http://aptabase:8080;
            proxy_set_header Host $host;
            proxy_set_header X-Real-IP $http_cf_connecting_ip;
            proxy_set_header X-Forwarded-For $http_cf_connecting_ip;
            proxy_set_header X-Forwarded-Proto $scheme;
        }
    }
}

With this in place, Aptabase can correctly identify users’ real IPs.

Gotcha #4: Configuring SMTP for Email Delivery

Digging through container logs for activation links isn’t sustainable. Aptabase supports SMTP configuration via environment variables. I chose Resend as the email service — it’s free to sign up and offers 3,000 emails per month, more than enough for a personal project.

Setting Up a Domain in Resend

Sign up for a Resend account
Go to the Domains page and click Add Domain
Enter the domain you want to send emails from (e.g., mail.pastepaw.com — it doesn’t need to match the Aptabase domain)
Resend will provide several DNS records to add, typically:
- An MX record
- An SPF (TXT) record
- Several DKIM (TXT) records
Add these records in your DNS management panel (e.g., Cloudflare)
Go back to Resend, click Verify, and wait for verification to complete (usually within a few minutes)

Generating an API Key

In Resend’s left menu, go to the API Keys page
Click Create API Key
Name it (e.g., aptabase), set permission to Sending access, and optionally restrict it to the domain you just configured
Copy the generated key (starts with re_) — this is your SMTP password

Configuring Environment Variables

Add these environment variables to the Aptabase service in your docker-compose.yml:

SMTP_HOST: smtp.resend.com
SMTP_PORT: 587
SMTP_USERNAME: resend
SMTP_PASSWORD: re_your_API_key
SMTP_FROM_ADDRESS: noreply@mail.pastepaw.com

Note: Use port 587 (STARTTLS), not 465 (Implicit TLS). In my testing, port 465 failed to send emails in a Docker environment, while 587 worked immediately. This is another easy pitfall.

Complete Docker Compose Configuration

Here’s the final, working docker-compose.yml:

services:
  nginx:
    container_name: aptabase_nginx
    image: nginx:alpine
    restart: always
    depends_on:
      - aptabase
    ports:
      - 3200:80
    volumes:
      - ./nginx.conf:/etc/nginx/nginx.conf:ro
    mem_limit: 256m
    cpus: 0.5
    logging:
      driver: json-file
      options:
        max-size: 10m
        max-file: "3"

  aptabase_db:
    container_name: aptabase_db
    image: postgres:15-alpine
    restart: always
    mem_limit: 2g
    cpus: 2
    volumes:
      - ./db-data:/var/lib/postgresql/data
    environment:
      POSTGRES_USER: aptabase
      POSTGRES_PASSWORD: ${PASSWORD}
    logging:
      driver: json-file
      options:
        max-size: 10m
        max-file: "3"

  aptabase_events_db:
    container_name: aptabase_events_db
    image: clickhouse/clickhouse-server:23.8.4.69-alpine
    restart: always
    mem_limit: 4g
    cpus: 2
    volumes:
      - ./events-db-data:/var/lib/clickhouse
    environment:
      CLICKHOUSE_USER: aptabase
      CLICKHOUSE_PASSWORD: ${PASSWORD}
    ulimits:
      nofile:
        soft: 262144
        hard: 262144
    logging:
      driver: json-file
      options:
        max-size: 10m
        max-file: "3"

  aptabase:
    container_name: aptabase_app
    image: ghcr.io/aptabase/aptabase:main
    restart: always
    depends_on:
      - aptabase_events_db
      - aptabase_db
    mem_limit: 2g
    cpus: 2
    environment:
      BASE_URL: https://stats.pastepaw.com
      AUTH_SECRET: replace_with_your_random_secret
      DATABASE_URL: Server=aptabase_db;Port=5432;User Id=aptabase;Password=${PASSWORD};Database=aptabase
      CLICKHOUSE_URL: Host=aptabase_events_db;Port=8123;Username=aptabase;Password=${PASSWORD}
      SMTP_HOST: smtp.resend.com
      SMTP_PORT: 587
      SMTP_USERNAME: resend
      SMTP_PASSWORD: replace_with_your_Resend_API_key
      SMTP_FROM_ADDRESS: noreply@mail.pastepaw.com
    logging:
      driver: json-file
      options:
        max-size: 10m
        max-file: "3"

Create a .env file for the database password:

1	echo "PASSWORD=your_strong_database_password" > .env

Reminder: Make sure to replace AUTH_SECRET with your own random string — you can generate one at RandomKeygen. Don’t use the example value from the official docs.

Starting the Services

1	docker compose up -d

Once all containers are up, visit https://stats.pastepaw.com, register an account, and this time you should receive the activation email properly.

Architecture Overview

Here’s the overall architecture with all components deployed:

Component responsibilities:

Cloudflare: Manages HTTPS certificates and CDN acceleration, securely forwards external traffic to the Mac Mini at home via Tunnel
Nginx: Reverse proxy whose core job is converting Cloudflare’s CF-Connecting-IP header into X-Forwarded-For so Aptabase can identify real user IPs
Aptabase: The core application service — processes events reported by SDKs, manages user accounts, and provides the dashboard
PostgreSQL: Stores user accounts, app configurations, API keys, and other relational data
ClickHouse: High-performance OLAP engine that stores all reported event data and powers the dashboard’s real-time analytics
Resend: External SMTP email service for sending account activation emails, etc.

Event Data Flow

When an SDK in your app reports an event, the data follows this path:

In short: every event sent by the SDK passes through Cloudflare for TLS termination and IP tagging, Nginx for header conversion, and Aptabase for validation and geo-resolution, before being written into ClickHouse in a structured format. All the charts and metrics you see on the dashboard are queried from ClickHouse in real time.

Conclusion

Aptabase itself is an excellent lightweight analytics tool, but the self-hosting documentation is fairly minimal, and there are several things you need to figure out on your own during deployment. Here’s a summary of the key gotchas:

No emails by default — activation links are in the container logs, check with docker logs -f
HTTPS is required — otherwise the auth flow loops endlessly; Cloudflare Tunnel is the recommended solution
Real IP resolution — after Cloudflare Tunnel proxying, you need an Nginx layer to convert headers
SMTP port — use 587 (STARTTLS), not 465; the latter may not work in Docker environments
Security configuration — always replace the default AUTH_SECRET and keep your API keys and database passwords safe

I hope this article helps anyone else looking to self-host Aptabase and saves you from some of these pitfalls.

在 Mac Mini 上 Self-Host Aptabase 的踩坑记录

2026-03-16T00:00:00.000Z

最近在为自己开发的 App 寻找数据统计工具。市面上的选择不少，但大部分要么太重，要么在隐私方面让人不太放心。调研了一圈之后，Aptabase 吸引了我的注意 —— 它主打隐私优先，不使用任何用户唯一标识符，完全符合 GDPR、CCPA 等法规要求，而且自带的 Dashboard 简洁直观，提供了超过 10 种 SDK，基本覆盖了主流的开发框架。更重要的是，它支持 Self-Host，数据完全掌握在自己手里。

官方提供了 Self-Hosting 仓库，看起来很简单 ——clone 下来、改改配置、docker compose up -d 就完事了。但实际部署过程中还是踩了不少坑，Issue 里也有很多人遇到了类似的问题。这里把我的经历整理出来，希望能帮到后来人。

坑一：默认不发邮件，激活链接藏在日志里

Aptabase 默认没有配置 SMTP，注册账号后不会收到任何邮件。但它会把激活链接打印在容器日志里，所以注册完之后需要手动查看日志来获取激活链接：

1	docker logs -f aptabase_app

在日志中找到类似下面的链接，复制到浏览器打开即可激活账号：

1	https://your-domain/api/_auth/continue?token=eyJhbGciOiJIUzI1NiIs...

当然这只是临时方案，后面我们会配置 SMTP 来让邮件正常发送。

坑二：必须配置 HTTPS，否则激活链接会循环跳转

拿到激活链接后点击，却发现页面一直循环跳转回登录页，始终无法完成激活。排查后发现，Aptabase 要求 BASE_URL 必须是 HTTPS，否则认证流程中的 Cookie 和重定向会出问题。

我的服务跑在家里的 Mac Mini 上，没有公网 IP，也不想折腾证书。最终的方案是使用 Cloudflare Tunnel + 自定义域名来解决。

配置 Cloudflare Tunnel

登录 Cloudflare Dashboard，进入 Zero Trust → Networks → Tunnels
点击 Create a tunnel，选择 Cloudflared 类型，给 Tunnel 起一个名字（比如 mac-mini）
按照页面提示，在 Mac Mini 上安装并运行 cloudflared。macOS 上可以用 Homebrew：

1	brew install cloudflared

然后按照页面给出的命令连接 Tunnel（会包含一个 Token）：

1	cloudflared service install

在 Tunnel 的 Public Hostname 页面添加一条记录：
- Subdomain：stats（或你喜欢的名字）
- Domain：选择你在 Cloudflare 上托管的域名，比如 pastepaw.com
- Service：http://localhost:3200（这里的端口对应 docker-compose 中 Nginx 映射的端口）

配置完成后，Cloudflare 会自动管理 HTTPS 证书，外部访问 https://stats.pastepaw.com 的流量会通过 Tunnel 安全地转发到你的 Mac Mini。

坑三：获取不到用户真实 IP

部署完成后发现 Dashboard 里所有用户的 IP 地址都一样 —— 显示的都是 Cloudflare 的 IP，而不是用户的真实 IP。

这是 Cloudflare Tunnel 的经典问题。流量经过 Cloudflare 代理后，到达你的服务时，来源 IP 变成了 Cloudflare 的服务器 IP。真正的用户 IP 被放在了 CF-Connecting-IP 这个 HTTP Header 里，但 Aptabase（基于 ASP.NET Core）默认不会读取这个 Header。

解决方案是在 Aptabase 前面加一层 Nginx，把 CF-Connecting-IP 转换为标准的 X-Forwarded-For，然后让 Cloudflare Tunnel 指向 Nginx 而非直接指向 Aptabase。

Nginx 配置文件 nginx.conf 如下：

events {
    worker_connections 1024;
}

http {
    server {
        listen 80;

        location / {
            proxy_pass http://aptabase:8080;
            proxy_set_header Host $host;
            proxy_set_header X-Real-IP $http_cf_connecting_ip;
            proxy_set_header X-Forwarded-For $http_cf_connecting_ip;
            proxy_set_header X-Forwarded-Proto $scheme;
        }
    }
}

这样 Aptabase 就能正确识别到用户的真实 IP 了。

坑四：配置 SMTP 邮件发送

日志里翻激活链接终归不是长久之计。Aptabase 支持通过环境变量配置 SMTP，我这里选择了 Resend 作为邮件服务 —— 注册免费，每月有 3,000 封邮件的额度，对个人项目完全够用。

在 Resend 中绑定域名

注册 Resend 账号
进入 Domains 页面，点击 Add Domain
输入你想用于发送邮件的域名（比如 mail.pastepaw.com，也可以和 Aptabase 的域名不同，没有关系）
Resend 会给你几条 DNS 记录需要添加，通常包括：
- 一条 MX 记录
- 一条 SPF（TXT）记录
- 几条 DKIM（TXT）记录
到你的 DNS 管理面板（比如 Cloudflare）中添加这些记录
回到 Resend，点击 Verify，等待验证通过（通常几分钟内完成）

生成 API Key

在 Resend 左侧菜单进入 API Keys 页面
点击 Create API Key
给 Key 起个名字（比如 aptabase），权限选择 Sending access，域名限制可以选择刚才绑定的域名
复制生成的 Key（以 re_ 开头），这就是你的 SMTP 密码

配置环境变量

在 docker-compose.yml 的 Aptabase 服务中添加以下环境变量：

SMTP_HOST: smtp.resend.com
SMTP_PORT: 587
SMTP_USERNAME: resend
SMTP_PASSWORD: re_你的API_Key
SMTP_FROM_ADDRESS: noreply@mail.pastepaw.com

注意：这里端口要用 587（STARTTLS），而不是 465（Implicit TLS）。实测使用 465 端口在 Docker 环境下无法正常发送邮件，换成 587 后立刻恢复正常。这也是一个容易踩的坑。

完整的 Docker Compose 配置

以下是最终可用的完整 docker-compose.yml：

services:
  nginx:
    container_name: aptabase_nginx
    image: nginx:alpine
    restart: always
    depends_on:
      - aptabase
    ports:
      - 3200:80
    volumes:
      - ./nginx.conf:/etc/nginx/nginx.conf:ro
    mem_limit: 256m
    cpus: 0.5
    logging:
      driver: json-file
      options:
        max-size: 10m
        max-file: "3"

  aptabase_db:
    container_name: aptabase_db
    image: postgres:15-alpine
    restart: always
    mem_limit: 2g
    cpus: 2
    volumes:
      - ./db-data:/var/lib/postgresql/data
    environment:
      POSTGRES_USER: aptabase
      POSTGRES_PASSWORD: ${PASSWORD}
    logging:
      driver: json-file
      options:
        max-size: 10m
        max-file: "3"

  aptabase_events_db:
    container_name: aptabase_events_db
    image: clickhouse/clickhouse-server:23.8.4.69-alpine
    restart: always
    mem_limit: 4g
    cpus: 2
    volumes:
      - ./events-db-data:/var/lib/clickhouse
    environment:
      CLICKHOUSE_USER: aptabase
      CLICKHOUSE_PASSWORD: ${PASSWORD}
    ulimits:
      nofile:
        soft: 262144
        hard: 262144
    logging:
      driver: json-file
      options:
        max-size: 10m
        max-file: "3"

  aptabase:
    container_name: aptabase_app
    image: ghcr.io/aptabase/aptabase:main
    restart: always
    depends_on:
      - aptabase_events_db
      - aptabase_db
    mem_limit: 2g
    cpus: 2
    environment:
      BASE_URL: https://stats.pastepaw.com
      AUTH_SECRET: 替换为你自己的随机密钥
      DATABASE_URL: Server=aptabase_db;Port=5432;User Id=aptabase;Password=${PASSWORD};Database=aptabase
      CLICKHOUSE_URL: Host=aptabase_events_db;Port=8123;Username=aptabase;Password=${PASSWORD}
      SMTP_HOST: smtp.resend.com
      SMTP_PORT: 587
      SMTP_USERNAME: resend
      SMTP_PASSWORD: 替换为你的Resend_API_Key
      SMTP_FROM_ADDRESS: noreply@mail.pastepaw.com
    logging:
      driver: json-file
      options:
        max-size: 10m
        max-file: "3"

需要创建一个 .env 文件来存放数据库密码：

1	echo "PASSWORD=你的数据库强密码" > .env

提醒：AUTH_SECRET 务必替换为自己生成的随机字符串，可以在 RandomKeygen 上生成一个。不要使用官方文档里的示例值。

启动服务

1	docker compose up -d

等待所有容器启动完成后，访问 https://stats.pastepaw.com，注册账号，这次你应该能正常收到激活邮件了。

整体架构图

所有组件部署完成后，整体架构如下：

各组件职责：

Cloudflare：提供 HTTPS 证书管理和 CDN 加速，通过 Tunnel 将外部流量安全地转发到家里的 Mac Mini
Nginx：反向代理，核心作用是将 Cloudflare 注入的 CF-Connecting-IP Header 转换为 X-Forwarded-For，让 Aptabase 能识别用户真实 IP
Aptabase：核心应用服务，处理 SDK 上报的事件、管理用户账号、提供 Dashboard
PostgreSQL：存储用户账号、应用配置、API Key 等关系型数据
ClickHouse：高性能 OLAP 引擎，存储所有上报的事件数据，支撑 Dashboard 的实时分析查询
Resend：外部 SMTP 邮件服务，用于发送账号激活邮件等

事件数据流转

当 App 中的 SDK 上报一个事件时，数据会经过以下路径：

简单来说：SDK 发出的每一个事件，经过 Cloudflare 解密和 IP 标记、Nginx 的 Header 转换、Aptabase 的校验和地理解析后，最终以结构化的形式写入 ClickHouse。而你在 Dashboard 上看到的所有图表和指标，都是从 ClickHouse 中实时查询出来的。

总结

Aptabase 本身是一个非常优秀的轻量级统计工具，但 Self-Host 的文档相对简略，部署过程中有不少需要自己摸索的地方。总结一下关键的几个坑：

默认不发邮件 —— 激活链接在容器日志里，需要 docker logs -f 查看
必须 HTTPS—— 否则认证流程会循环跳转，推荐使用 Cloudflare Tunnel 解决
真实 IP 获取 ——Cloudflare Tunnel 代理后需要加一层 Nginx 做 Header 转换
SMTP 端口 —— 用 587（STARTTLS）而不是 465，后者在 Docker 环境下可能不工作
安全配置 —— 记得替换默认的 AUTH_SECRET，妥善保管 API Key 和数据库密码

希望这篇文章能帮到同样想 Self-Host Aptabase 的朋友，少走一些弯路。

2022 年读的一些书

2023-02-20T16:12:57.000Z

最近一年读了不少书和杂志，有电子版也有实体书，收获还是蛮多的，主要偏技术一些，希望 23 年能扩宽一下阅读范围。

技术书籍

技术书籍偏 C++ 以及一些底层的技术，英文为主。选英文版主要原因有两个吧，一是有些书没有中文版，即便有，翻译的也很晦涩难懂，我倒不怪罪译者的水平，技术书籍确实比较难翻译得平易近人。（打比方说我比较敬仰的 C++ 骨灰级程序员侯捷老师的技术水平肯定是一流的，但是翻译的书也是很晦涩，可读性比较..）

Effective Modern C++

Scott Meyer 著作，每次读都会有新的收获，技术点讲的非常的细，比如关于 std::move 和 universal reference 就花了一章来介绍，各种想不到的 case. C++ 真的是了解的越多，就发现不了解的更多。建议阅读英文版。
Advanced C & C++ Compiling

Milan Stevanovic 著作，讲解了一个程序的整个生命周期是怎么样的，静态库、动态库，静态链接、动态链接的细节实现等等，是一本修炼内功的一本好书。似乎也有中文版本，不确定翻译的怎么样。
C++ Move Semantics

Nicolai M. Josuttis 在 2020 年出版的一本书。难以想象 C++11 带来的 move 竟然能写一本书。如果你对 Value category，move 语义，rvalue，perfect forwarding, universal reference 等概念有任何的疑问，或者想更深入地了解其中的内幕，那这本书基本能满足所有的想象。跳着读的，读了有 1/3 左右吧。
*OS internals Volume I - User Mode

Jonathon Levin 写的三部曲中的第一部，也是 Mac Os x & ios Internals 的第二版，主要是讲除了 macOS 之外的苹果的操作系统，比如 iOS watchOS tvOS 等。苹果开发者修炼内功的一本书。
LLVM Techniques, Tips, and Best Practices

Min-Yih Hsu 的一本书，2021 年出版，比较新，主要讲了 LLVM 的构建系统，clang 的架构，以及整个编译链的介绍，以及如何在每一环进行扩展，编写自己的工具。
我比较感兴趣的是写 AST Matcher Plugin 来编写定制化的静态检查，以及 Pass Plugin 扩展 Pass 处理链条。基于前者实现了几个静态检查，比如使用 shared_ptr 的类构造中不允许调用 shared_from_this () 否则会报错。还使用 PassPlugin 实现了一个简单的 AOP，通过拦截编译器生成的函数，注入函数调用指令，感兴趣的可以看看这里。
Learn LLVM 12

Kai Nacke 2021 年的一本书，是上本书的姊妹篇。和上面那本相比，这里讲 IR 的比较多一些。看了有 1/3 吧，主要还是和上面的交叉互补着看。
这两本书都是 Packt 家的书，正好春节的时候搞促销活动，$5 / 月随便看，他们网站阅读非常好，比电子书体验好很多，比较推荐，有需要的可以关注。

媒体 & 杂志

媒体的话，只订阅了 NYTimes，新闻比较实时，有一些非常有见解的文章。但是有些方面还是屁股决定脑袋，所以难免，客观去看待吧。
杂志主要英文，主要是为了提高除技术之外的英文阅读能力，扩展一些视野。
1. Scientific American 推荐指数 ⭐⭐⭐⭐⭐
  偏科技类的文章居多，目前是在淘宝上按半年订实体书。起源是这样的，本来是随便翻一翻，结果看了去年介绍詹姆斯韦伯望眼镜的一期，介绍的非常详细，收获很大，果断订了实体书。书的质量也很好，插图很精美，文章介绍的通俗易通，比抖音上各种科普视频强太多了。
2. Reader’s Digest 推荐指数 ⭐⭐⭐
  适合没事儿时候翻翻，上面有一些有意思的小故事

Blog 托管到 Cloudflare Pages

2023-02-18T14:30:57.000Z

Blog 此前一直是跑在自己的东京服务器上，这个服务器上跑着我的 blog 以及一些自用的服务，因为更新并不频繁，所以直接起了本地的 hexo server，然后 nginx 反向代理一下，当然还反代了其他的几个服务。

但是最近考虑把服务器给退掉，所以 blog 的托管就成了一个问题。简单做了下调研，国内的云厂商基本都有，但是麻烦的是域名和备案。做了一些调研，最终考虑托管到 Cloudflare Pages 上，有以下几个优势：

非常简单，基本就是点一点就能全部搞定。把 blog 从我自己机器切换到 Cloudflare 上过程可能都不到 10 分钟，就完全可以访问. (如果是用 GitHub actions 生成静态页面的话，配置 workflow 需要多花半个小时左右)
对技术人来说很友好。Cloudflare Pages 直接读取 Github 上 blog 的私有仓库，我本地有修改的话，直接 push 到 Github 即可， Cloudflare Pages 会自动拉取
静态资源访问免费，Functions 和 Works 每天有 10w 次的免费访问
我的域名解析也在 Cloudflare 上面，支持直接 cname 到生成的二级域名上，自动处理 htttps 证书的问题，也很省心
可以很方便地结合 Cloudflare 提供的其他能力，比如认证、Functions 等等..

整体的结构图如下：

整个流程是这样的：

添加新的文档或者页面，并 push 到 GitHub 上我的 blog 仓库
commit 触发 GitHub Action，Action 会搭建 hexo 的环境，并执行 hexo generate 生成静态网站
Action 会把静态网站的修改生成新的 commit，并 push 到 public_blog 仓库，也就是静态网站的仓库
Cloudflare 会去 public_blog 仓库拉取最新的提交，并部署到 CDN 和边缘节点上。

Have fun!

Ref:
Cloudflare Pages 介绍文档

LLVM 工具系列 - Address Sanitizer 实现原理 (2)

2023-01-08T10:51:13.000Z

上篇文章「Address Sanitizer 基本原理介绍及案例分析」里我们简单地介绍了一下 Address Sanitizer 基础的工作原理，这里我们再继续深挖一下深层次的原理。

从上篇文章中我们也了解到，对一个内存地址的读和写操作：

1 2	address = ...; // 写操作 ... = address; // 读操作

当开启 Address Sanitizer 之后，运行时库将会替换掉 malloc 和 free 函数，在 malloc 分配的内存区域前后设置 “投毒”(poisoned) 区域，使用 free 释放之后的内存也会被隔离并投毒，poisoned 区域也被称为 redzone。

上面的内存地址访问的代码，编译器会帮我们修改为这样的代码：

if (IsPoisoned(address)) {
  ReportError(address, kAccessSize, kIsWrite);
}
*address = ...;  // or: ... = *address;

这样对内存的访问，编译器会在编译期自动在所有内存访问之前通过判断 IsPoisoned(address) 做一下 check 是否被 “投毒”。

那么实现且高效地实现 IsPoisoned ()，并使得 ReportError () 函数比较紧凑就十分重要。

在深入了解之前，我们先了解 Shadow 内存，以及主应用内存区和 shadow 内存映射。

Shadow 内存 & 主应用内存区和 shadow 内存间的映射

首先，虚拟内存地址被分配了两段不连续的区域：主应用内存区和 shadow 内存区域。
主应用内存区（Main Application Memory, or Mem for short)，其实就是在应用里分配的常规内存。
Shadow 内存区，它包含了主内存区状态的 meta 信息，也称之为 shadow value（影子值）。主应用内存区和 shadow 内存区有一个映射关系，当应用内存被 “投毒”（poisoned），会在 shadow 内存区记录一个值作为体现。这样就可以通过查询 shadow 内存区的值，来判断应用内存是否被 “投毒”。

更细一点来说，内存地址会分配 5 部分，最上和最下 (HighMem & LowMem) 都是应用内存区，他们会映射到 HighShadow 和 LowShadow 上，HighShadow 和 LowShadow 之间是 ShadowGap 区域，ShadowGap 区域是不可访问的，如果访问到会直接 crash.

为了节省内存占用，AddressSanitizer 会把 8 bytes 的应用内存会映射到 1 byte 的 shadow 内存。
因此，HighMem + LowMem 占整体的 7/8，剩余 1/8 分配给 shadow 和 shadow gap.

从应用内存地址到 Shadow 内存地址映射算法是这样的：

1	Shadow = (Mem >>3) + Offset

查看 LLVM 的源码可以发现 offset 值因平台而异，这里就以 0x7fff8000 (1 << 46) 为例。

1	Shadow = (Mem >> 3) + 0x7fff8000;

映射图如下：

Shadow 内存的 9 种状态

这 1byte 的 shadown 内存会有 9 种值对应应用内存的状态：

负值，当 8 字节的应用内存全都被 poisoned 时；
0 值，当且仅当 8 字节的应用内存都没有被 poisoned 时；
1-7 值，为 k 的意思为 “前 k 个字节都没有被 poisoned，后 8-k 个字节被 poisoned”，这个是由 malloc 分配的内存总是 8 字节对齐作为前提来作为保证的。这样的话，当 malloc(13) 时，得到的是前一个完整的 qword（8 字节，未被 poisoned）加上后一个 qword 的前 5 个 byte（未被 poisoned）

如何检查是否在 “投毒区”（poisoned/redzone）？

这样的话，我们就可以根据 shadow 内存的 9 种值来判断引用内存的状态了。

1
2
3

if (IsPoisoned(address)) {
  ReportError(address, kAccessSize, kIsWrite);
}

扩展为：

// 拿到主应用内存地址对应的 Shadow 内存地址
byte *shadow_address = MemToShadow(address);

// 检查 shadow 内存值，如果为 0，肯定没有被 poison，因为可以跳过
// 如果不为 0，需要进一步检查是否访问的字节是否被 poisoned
byte shadow_value = *shadow_address;
if (shadow_value) {
  // 进一步检查访问的内存大小是否被 poisoned
  if (SlowPathCheck(shadow_value, address, kAccessSize)) {
    ReportError(address, kAccessSize, kIsWrite);
  }
}

// Check the cases where we access first k bytes of the qword
// and these k bytes are unpoisoned.
bool SlowPathCheck(shadow_value, address, kAccessSize) {
  last_accessed_byte = (address & 7) + kAccessSize - 1;
  return (last_accessed_byte >= shadow_value);
}

SlowPathCheck () 里，检查是否当前访问的地址的前若干个字节是否被 poisoned 了，因为是 8bytes 的应用内存映射到 1byte 的 shadow 上，首先要知道偏移，偏移 + 长度就是最后一个字节的位置，shadow_value <= 这个位置 - 1，说明被投毒了。

来看个例子。

比如应用内存 0x1000 - 0x1007 对应 shadow 的 0xF000 的地址

1	0x1000, 0x1001, 0x1002, 0x1003, 0x1004, 0x1005, 0x1006, 0x1007,

如果 0xF000 的值为 2，就说明 0x1000, 0x1001 未被 poisoned，0x1002 到 0x1007 是被 poisoned 的。

那么，如果有一个 int 值在 0x1002 上，长度是 4 字节，那么我就需要检查 0x1005 以及之前（也就是前 6 个字节）是否被投毒，也就是检查 shadow value 是否 <= 5，如果小于等于 5，就说明只有前 5 个或者更少未被 poisoned，第 6 个字节一定被 poisoned 了，也就是这个 int 值肯定是被 poisoned 了。

再来看计算公式：
last_accessed_byte = 0x1002 & 7 + 4 - 1 = 5,
如果 5 >= shadow value, 即认为被 poisoned，和上述解释是一致的。

LLVM 里的实现源码

实际上，LLVM 是通过自定义 LLVM Pass 来插入指令并配合运行时库来完成上面的操作的。
具体的源码可以参考 AddressSanitizer.cpp

源码超级长，我们只挑和上面相关的，首先定义了 static const uint64_t kDefaultShadowScale = 3;
， 1 << 3 == 8，因此就作为映射的粒度。

AddressSanitizerLegacyPass 继承自 FunctionPass，override 了 runOnFunction(Function &F)，也就可以对所有的函数进行修改和操作。runOnFunction 实现内部，创建了 AddressSanitizer 的实例，并调用了其 instrumentFunction(F, TLI) 方法。

class AddressSanitizerLegacyPass : public FunctionPass {
public:
  static char ID;

  explicit AddressSanitizerLegacyPass(
      bool CompileKernel = false, bool Recover = false,
      bool UseAfterScope = false,
      AsanDetectStackUseAfterReturnMode UseAfterReturn =
          AsanDetectStackUseAfterReturnMode::Runtime)
      : FunctionPass(ID), CompileKernel(CompileKernel), Recover(Recover),
        UseAfterScope(UseAfterScope), UseAfterReturn(UseAfterReturn) {
    initializeAddressSanitizerLegacyPassPass(*PassRegistry::getPassRegistry());
  }

  // ...

  bool runOnFunction(Function &F) override {
    GlobalsMetadata &GlobalsMD =
        getAnalysis().getGlobalsMD();
    const StackSafetyGlobalInfo *const SSGI =
        ClUseStackSafety
            ? &getAnalysis().getResult()
            : nullptr;
    const TargetLibraryInfo *TLI =
        &getAnalysis().getTLI(F);

    //️ ⬇️️️⬇️⬇️
    AddressSanitizer ASan(*F.getParent(), &GlobalsMD, SSGI, CompileKernel,
                          Recover, UseAfterScope, UseAfterReturn);
    return ASan.instrumentFunction(F, TLI);
  }

AddressSanitizer::instrumentFunction 内容很长，

bool AddressSanitizer::instrumentFunction(Function &F,
                                          const TargetLibraryInfo *TLI) {
  ...

  // We want to instrument every address only once per basic block (unless there
  // are calls between uses).
  SmallPtrSet16> TempsToInstrument;
  SmallVector16> OperandsToInstrument;
  SmallVector16> IntrinToInstrument;
  SmallVector8> NoReturnCalls;
  SmallVector16> AllBlocks;
  SmallVector16> PointerComparisonsOrSubtracts;


  // Fill the set of memory operations to instrument.
  // 遍历 函数里的每一个 block
  for (auto &BB : F) {
    AllBlocks.push_back(&BB);
    TempsToInstrument.clear();
    int NumInsnsPerBB = 0;

    // 遍历 block 里的每一条指令 (Instruction)
    for (auto &Inst : BB) {
      if (LooksLikeCodeInBug11395(&Inst)) return false;
      SmallVector1> InterestingOperands;

      🌟🌟🌟
      // 寻找感兴趣的内存操作数（store/load，那他们的操作数当然也就是内存地址了）
      getInterestingMemoryOperands(&Inst, InterestingOperands);

      if (!InterestingOperands.empty()) {
        for (auto &Operand : InterestingOperands) {
          ...
          // 存到 vector 里
          OperandsToInstrument.push_back(Operand);
          NumInsnsPerBB++;
        }
      }
      ...
    }
  }
  ...
  // Instrument.
  int NumInstrumented = 0;
  for (auto &Operand : OperandsToInstrument) {
    if (!suppressInstrumentationSiteForDebug(NumInstrumented))
      🌟🌟🌟
      // 对于找到的指令进行修改
      instrumentMop(ObjSizeVis, Operand, UseCalls,
                    F.getParent()->getDataLayout());
    FunctionModified = true;
  }

  ...

  LLVM_DEBUG(dbgs() << "ASAN done instrumenting: " << FunctionModified << " "
                    << F << "\n");

  return FunctionModified;
}

AddressSanitizer::getInterestingMemoryOperands() 判断传入的指令 I 是否为感兴趣的 load 和 store 指令，把指令和地址信息放入 Interesting vector 里。

void AddressSanitizer::getInterestingMemoryOperands(
    Instruction *I, SmallVectorImpl &Interesting) {
  // 判断是否 Load 指令
  if (LoadInst *LI = dyn_cast(I)) {
    if (!ClInstrumentReads || ignoreAccess(I, LI->getPointerOperand()))
      return;
    Interesting.emplace_back(I, LI->getPointerOperandIndex(), false,
                             LI->getType(), LI->getAlign());
  // 判断是否 Store 指令
  } else if (StoreInst *SI = dyn_cast(I)) {
    if (!ClInstrumentWrites || ignoreAccess(I, SI->getPointerOperand()))
      return;
    Interesting.emplace_back(I, SI->getPointerOperandIndex(), true,
                             SI->getValueOperand()->getType(), SI->getAlign());
  } else if (AtomicRMWInst *RMW = dyn_cast(I)) {
    ....

AddressSanitizer::instrumentMop()

Calls

void doInstrumentAddress()

Calls

AddressSanitizer::instrumentAddress() 是插入前面提到的内存判断的地方，函数比较长，这里省略掉不太影响理解的代码。
这里的参数 InsertBefore 指令就是前面找到的 load/store 指令。

void AddressSanitizer::instrumentAddress(Instruction *OrigIns,
                                         Instruction *InsertBefore, Value *Addr,
                                         uint32_t TypeSize, bool IsWrite,
                                         Value *SizeArgument, bool UseCalls,
                                         uint32_t Exp) {
  Value *AddrLong = IRB.CreatePointerCast(Addr, IntptrTy);

  Type *ShadowTy =
      IntegerType::get(*C, std::max(8U, TypeSize >> Mapping.Scale));
  Type *ShadowPtrTy = PointerType::get(ShadowTy, 0);

  // 🌟🌟🌟
  // 计算出 shadow 地址
  Value *ShadowPtr = memToShadow(AddrLong, IRB);
  // 0
  Value *CmpVal = Constant::getNullValue(ShadowTy);
  // Load shadow 值
  Value *ShadowValue =
      IRB.CreateLoad(ShadowTy, IRB.CreateIntToPtr(ShadowPtr, ShadowPtrTy));

  // 🌟🌟🌟
  // 创建比较指令，shadow_value != 0
  Value *Cmp = IRB.CreateICmpNE(ShadowValue, CmpVal);
  size_t Granularity = 1ULL << Mapping.Scale;
  Instruction *CrashTerm = nullptr;

  if (ClAlwaysSlowPath || (TypeSize < 8 * Granularity)) {
    // We use branch weights for the slow path check, to indicate that the slow
    // path is rarely taken. This seems to be the case for SPEC benchmarks.
    Instruction *CheckTerm = SplitBlockAndInsertIfThen(
        Cmp, InsertBefore, false, MDBuilder(*C).createBranchWeights(1, 100000));
    assert(cast(CheckTerm)->isUnconditional());
    BasicBlock *NextBB = CheckTerm->getSuccessor(0);
    IRB.SetInsertPoint(CheckTerm);

    // 🌟🌟🌟
    // SlowPathCmp
    Value *Cmp2 = createSlowPathCmp(IRB, AddrLong, ShadowValue, TypeSize);
    if (Recover) {
      CrashTerm = SplitBlockAndInsertIfThen(Cmp2, CheckTerm, false);
    } else {
      BasicBlock *CrashBlock =
        BasicBlock::Create(*C, "", NextBB->getParent(), NextBB);
      CrashTerm = new UnreachableInst(*C, CrashBlock);
      BranchInst *NewTerm = BranchInst::Create(CrashBlock, NextBB, Cmp2);
      ReplaceInstWithInst(CheckTerm, NewTerm);
    }
  } else {
    CrashTerm = SplitBlockAndInsertIfThen(Cmp, InsertBefore, !Recover);
  }

  Instruction *Crash = generateCrashCode(CrashTerm, AddrLong, IsWrite,
                                         AccessSizeIndex, SizeArgument, Exp);
  Crash->setDebugLoc(OrigIns->getDebugLoc());
}

看一下 AddressSanitizer::memToShadow() 的实现：
Mapping.Scale 上面提过是 3，注释好评，这里其实是创建了两条指令，一条是 Shadow >> scale, 然后和 Offset 相或，最终就是 Shadow >> scale | offset.
这里的 offset 在不同平台上数值是不同的，并非固定值，有兴趣的可以查看该文件的最上面的常量定义。

Value *AddressSanitizer::memToShadow(Value *Shadow, IRBuilder<> &IRB) {
  // Shadow >> scale， CreateLShr 创建右移的指令
  Shadow = IRB.CreateLShr(Shadow, Mapping.Scale);
  if (Mapping.Offset == 0) return Shadow;
  // (Shadow >> scale) | offset
  Value *ShadowBase;
  if (LocalDynamicShadow)
    ShadowBase = LocalDynamicShadow;
  else
    ShadowBase = ConstantInt::get(IntptrTy, Mapping.Offset);
  if (Mapping.OrShadowOffset)
    // 创建 “或” 指令
    return IRB.CreateOr(Shadow, ShadowBase);
  else
    return IRB.CreateAdd(Shadow, ShadowBase);
}

Value *AddressSanitizer::createSlowPathCmp()

Value *AddressSanitizer::createSlowPathCmp(IRBuilder<> &IRB, Value *AddrLong,
                                           Value *ShadowValue,
                                           uint32_t TypeSize) {
  size_t Granularity = static_cast<size_t>(1) << Mapping.Scale;
  // Addr & (Granularity - 1)
  Value *LastAccessedByte =
      IRB.CreateAnd(AddrLong, ConstantInt::get(IntptrTy, Granularity - 1));
  // (Addr & (Granularity - 1)) + size - 1
  if (TypeSize / 8 > 1)
    LastAccessedByte = IRB.CreateAdd(
        LastAccessedByte, ConstantInt::get(IntptrTy, TypeSize / 8 - 1));
  // (uint8_t) ((Addr & (Granularity-1)) + size - 1)
  LastAccessedByte =
      IRB.CreateIntCast(LastAccessedByte, ShadowValue->getType(), false);
  // ((uint8_t) ((Addr & (Granularity-1)) + size - 1)) >= ShadowValue
  return IRB.CreateICmpSGE(LastAccessedByte, ShadowValue);
}

Ref & 扩展阅读

AddressSanitizerAlgorithm
Finding races and memory errors with LLVM instrumentation - Konstantin Serebryany, Google on 2011 LLVM Developers’ Meeting
LLVM AddressSanitizer source code

LLVM 工具系列 - Address Sanitizer 基本原理介绍及案例分析 (1)

2023-01-07T21:51:13.000Z

Address Sanitizer 介绍

LLVM 提供了一系列的工具帮助 C/C++/Objc/Objc++ 开发者检查代码中可能的潜在问题，这些工具包括 Address Sanitizer，Memory Sanitizer，Thread Sanitizer，XRay 等等，功能各异。

本篇主要介绍可能是最常用的一个工具 Address Sanitizer，它的主要作用是帮助开发者在运行时检测出内存地址访问的问题，比如访问了释放的内存，内存访问越界等。

全部种类如下，也都是非常常见的几类内存访问问题。

Use after free
Heap buffer overflow
Stack buffer overflow
Global buffer overflow
Use after return
Use after scope
Initialization order bugs
Memory leaks

这里为了便于理解，先介绍一下大概的工作原理。然后从上面几种场景中挑出几个有代表性的介绍一下。

Address Sanitizer 的基本工作原理

我们对一个内存地址的访问无外乎两种操作：读和写，也就是

1 2	address = ...; // 写操作 ... = address; // 读操作

Address Sanitizer 的工作依赖编译器运行时库，当开启 Address Sanitizer 之后，运行时库将会替换掉 malloc 和 free 函数，在 malloc 分配的内存区域前后设置 “投毒”(poisoned) 区域，使用 free 释放之后的内存也会被隔离并投毒，poisoned 区域也被称为 redzone。

这样对内存的访问，编译器会在编译期自动在所有内存访问之前做一下 check 是否被 “投毒”。所以以上的代码，就会被编译器改成这样：

if (IsPoisoned(address)) {
  ReportError(address, kAccessSize, kIsWrite);
}
*address = ...;  // or: ... = *address;

这样的话，当我们不小心访问越界，访问到 poisoned 的内存（redzone），就会命中陷阱，在运行时 crash 掉，并给出有帮助的内存位置的信息，以及出问题的代码位置，方便开发者排查和解决。

Note: 从基本工作原理来看，我们可以获知，打开 Address Sanitizer 会增加内存占用，且因为所有的内存访问之前都会有 check 是否访问了 “投毒” 区域的内存，会有额外的运行开销，对运行性能造成一定的影响，因此通常只在 Debug 模式或测试场景下打开

更详细的原理参考第二篇 Address Sanitizer 实现原理

如何开启 Address Sanitizer

默认 clang 是不打开 Address Sanitizer 的，需要增加 -fsanitize=address -g 参数，-g 用来在出现问题的报告中，增加有助于 debug 的信息，比如出问题的代码位置和行数等，非常建议带上。

如何使用我们在下个例子里进行展示。

分析一个 Use after free 的 case

来看一个简单的例子，test_use_after_free.c 文件有以下内容：

#include 
#include 

int main(int argc, char *argv[]) {
  int *p = malloc(sizeof(int));
  free(p);
  return *p;  // 访问了已经释放的内存地址
}

这段代码很简单，在堆上创建了一块 int 大小的内存，随后释放，然后 *p 来读取位于 p 内存地址的值，显然是有问题的。实际场景往往会更杂，free 的位置和访问的位置可能离得很远，不容易发现，而且编译期并不会提示错误。

编译：

1	clang -fsanitize=address -g test_use_after_free.c -o use_after_free

运行之后 crash，并提供给我们一些错误信息：

这些错误信息很重要，可以协助我们排查出现问题的位置。我们从上往下看，第一行告诉我们了内存地址访问错误类型为 heap-use-after-free，并给出了地址和寄存器的值：

1	==65906==ERROR: AddressSanitizer: heap-use-after-free on address 0x000105000730 at pc 0x000102c57f48 bp 0x00016d1ab190 sp 0x00016d1ab188

接下来就是告诉我们是在 test_use_after_free.c 文件的第 7 行 Read 时出的问题，也就是 return *p 时出现的问题。
接着就是该内存区域是在哪里释放的，就是第 6 行，以及之前在哪里分配的，也就是第 5 行。可以说非常清晰。

接下来就是 Shadow 的 bytes，具体这里先按下不表，放到下篇具体实现原理里来具体解释。从图上我标记的箭头可以看出访问的是一块已经释放的堆内存。

Heap buffer overflow 堆内存溢出的 case

// heap-buffer-overflow.cpp
int main(int argc, char **argv) {
  int *array = new int[100];
  array[0] = 0;
  int res = array[100];  // 内存地址访问越界
  delete [] array;
  return res;
}

编译，这里用的是 C++，因此加上 -lc++ 来使用 libc++ 库

1	clang -fsanitize=address -g -lc++ test_heap_buffer_overflow.cpp -o heap_buffer_overflow

运行 & 错误信息：

分析：
第一行告诉我们错误类型为 heap-buffer-overflow，访问出错的内存地址为 0x00010613a7d4, 我们先记下来。

然后告诉我们是第 5 行的 读操作 导致的，也就是 int res = array[100]; 这里。

接下来的信息是告诉我们出现错误读操作的内存地址 0x00010613a7d4 是位于 400 bytes 内存的右边 4 个 byte 的位置，根据代码，我们知道这 400bytes，其实就是代码中创建的 100 个 int 值所在的内存地址。

0x00010403a7d4 is located 4 bytes to the right of 400-byte region [0x00010403a640,0x00010403a7d0)
allocated by thread T0 here:
    #0 0x1025de018 in wrap__Znam+0x74 (libclang_rt.asan_osx_dynamic.dylib:arm64e+0x4e018)
    #1 0x1021d3e6c in main test_heap_buffer_overflow.cpp:3
    #2 0x193e4be4c  ()

但实际中往往更复杂，访问的内存可能是距离很远的一块内存上，虽然也可以从这段错误信息里的 allocated by 的堆栈中找到实际分配这块的内存地址的位置，但是可能跟这个访问地址并没有什么关联，要注意辨别。

我们来这样模拟一下，在 array 后面再创建一个 array2，分配 100 个 int 的空间，然后访问 array 的时候，让其越界到 array2 的后面。为了方便查看，我们这里打印出来 array 和 array2 的内存地址范围。

#include 
int main(int argc, char **argv) {
  int *array = new int[100];
  printf("array: %p\n", array);
  array[0] = 0;
  int *array2 = new int[100];
  printf("array2: %p\n", array2);
  int res = array[(array2-array + 100)];  // 首先肯定是越界了，甚至越界到 array2 的右边区域了
  delete [] array;
  return res;
}

我们来看下错误信息：

第二段错误信息里，相当于告诉我们访问的这块内存位于 array2 的紧挨着的右边的位置，但是这个内存位置其实和访问出错并无关系，此时，这个位置信息价值就不大了，应该参考第一段错误信息（红框位置），根据出现访问问题的源代码位置来分析即可，第二段相当于一个辅助的信息。

Note:
到这里大家可能会思考一个问题，如果上面访问 array 的代码，正好越界到 array2 的地址合法范围内，比如，int res = array[(array2-array + 1)], 会不会被检测到并 crash 呢？
很遗憾，这种 case 虽然越界了，但根据前面的运行原理来看，访问的内存区域并未被 “投毒”（poisoned），因此不会被检测到越界，也不会 crash。

最后我们再看一个检查内存泄漏的 case。

分析一个 Memory leak 的 case

我们在 test_memory_leak.cpp 模拟一个 leak:

#include 

class BadClass {
public:
  BadClass(int value): value_(new int(value)) {}
  ~BadClass() {
    // 没有 delete value_ 导致泄漏
  }

private:
  int *value_;
};

int main() {
  BadClass *bad = new BadClass(10);
  delete bad;
  return 0;
}

Note:
Memory leak 检测目前不支持 ARM，因此 M1 芯片的 MBP 也是不支持的，运行时会出现以下的错误提示。
1
2
3
ASAN_OPTIONS=detect_leaks=1  ./test_memory_leak.out
==39355==AddressSanitizer: detect_leaks is not supported on this platform.
[1]    39355 abort      ASAN_OPTIONS=detect_leaks=1 ./test_memory_leak.out

这里我在 X86_64 的 Linux 机器上进行测试。

编译：

1	clang -fsanitize=address -g -lstdc++ test_memory_leak.cpp -o test_memory_leak

运行：

# LeakSanitizer 在 X86 的 linux 上开启 Address Sanitizer 时默认打开的，因此直接运行即可
./test_memory_leak
# 如果是 Intel 版本的 macos，默认没有打开 LeakSanitizer，需要在运行前面增加一个环境变量来开启
ASAN_OPTIONS=detect_leaks=1 ./test_memory_leak

运行结果：

第一行告诉我们检测到了内存泄露，然后告诉我们泄漏了一个对象，共 4 个字节。泄漏的的位置是在 test_memory_leak.cpp 文件的第 15 行。

Summary

内存问题是 C/C++ 项目中比较头疼的问题，为了解决这类的问题，本篇文章主要介绍了 LLVM 的 Address Sanitizer 工具，以及基本的工作的原理；接着分析了 C/C++ 中几种常见的内存地址访问错误的 case，以及如何从错误信息中提取关键的信息进行排查问题。

其余的几种内存问题，大家可以自行模拟来尝试，非常建议在开发阶段 Debug 或者测试场景中打开 Address Sanitizer 提前暴露很多内存问题。

Ref & 扩展阅读

C++ Postfix Completion VSCode 插件

2023-01-01T00:49:16.000Z

元旦假期无聊做了一个 VSCode 的插件，主要功能是对一些常用的场景进行补全，具体介绍可跳转到 GitHub 源码或者 VSCode 扩展市场 VSCode extension Marketplace 浏览。

使用 case 如下图：

C++ Lambda 本质 & 变量捕获

2022-12-20T03:11:58.000Z

C++ 11 引入 lambda 之后，可以很方便地在 C++ 中使用匿名函数，这篇文章主要聊聊其背后的实现原理以及有反直觉的变量捕获机制。在阅读本文之前，需要读者对 C++ lambda 有一个简单的了解。

C++ Lambda 的函数结构

1	[capture_list](parameter_list) -> return_type {function_body}

其中，capture_list 表示捕获列表，parameter_list 表示函数参数列表，return_type 表示函数返回类型，function_body 表示函数体。下面是一个简单的 Lambda 函数示例，这里定义一个计算面积的名为 area 的 lambda。

#include 
int main() {
  double pi = 3.14;
  auto area = [=](double radius) -> double {
    return pi * radius * radius;
  };
  std::cout << "area of circle with radius 2.0 : " <<  area(2.0) << std::endl;
}

这里选择了 by-copy (=) 的方法来捕获 pi 这个变量，也就是会复制一份 pi 进到 area lambda 里，那么这个值 copy 到了哪里呢？

Lambda 在编译期的实现

我们使用 C++ insights 来看一下内部可能的实现：

实际编译器会为每一个 lambda 生成唯一的类（functor），有以下的特点：

line 6, 生成的类名唯一，不可读，不同编译器生成的名字可能不一样，我们在运行时是无法拿到具体类名的
line 9, 因为有 operator() 所以是可以直接当成函数调用的，函数参数和返回值和 lambda 中声明的完全一致。
line 15, 捕获的变量在这里，会被转化为类该类的属性，并在构造的传入捕获的参数 (line 15 & line 24)

ps: 其实也可见 C++ 中 lambda 的实现和 Java 的 lambda 转换为匿名内部类的实现，以及 Objective-C 的 block 的实现原理和变量捕获机制都非常的相似。

关于 const

如果我们将上例中的 area lambda 改成下面会如何？

auto area = [=](double radius) -> double {
  pi *= 2;
  return pi * radius * radius;
};

实际上编译会失败，clang 会报以下错误：

lambda.cpp:6:8: error: cannot assign to a variable captured by copy in a non-mutable lambda
    pi *= 2;
    ~~ ^
1 error generated.

这里最主要的原因是编译器生成的匿名类的 operator() 都是 const 的，const 在这里修饰 this 指针 (__lambda_5_15 对象的指针），表示 this 不可变，因此不可以修改属性 pi 的值。这一点稍微有点违反直觉，需要注意。

也即是说编译器意欲生成的代码是这样的，但发现不合法：

public:
  inline /*constexpr */ double operator()(double radius) const
  {
    pi *= 2;
    return (pi * radius) * radius;
  }
private:
  double pi;

那如何把 const 去掉，使得 lambda 内可以修改捕获的值呢？
答案就是 mutable 关键字，增加 mutable 之后：

auto area = [=](double radius) mutable -> double {
  pi *= 2;
  return pi * radius * radius;
};

再来看看生成后的 operator(), 没有了 const，也可以正常修改 this 的属性 pi

public:
  inline /*constexpr */ double operator()(double radius)
  {
    pi = pi * 2;
    return (pi * radius) * radius;
  }

private:
  double pi;

变量捕获方式 & 如何捕获 this 指针

捕获方法分为两种 = 和 &，分别对应 capture by-copy 和 capture by-reference, 基本的部分这里我们不多做介绍。需要注意的是对 this 的捕获，通过 [&] 和 [=] 对 this 的隐式捕获，以及 [this] 显式捕获都是 by-reference 的，其实捕获的都是 this 指针。

#include 
using namespace std;

class Math {
public:
  Math(double value): value_(value) {}
auto square() {
return [&]() -> double {
return value_ * value_;
};
}
private:
double value_;
};

int main() {
Math math(10);
std::cout << math.square()() << std::endl;
}

return [&]() -> double ... 这里换成 [=] 或者 [this] 生成的代码都是完全一致的，如下：

捕获 this 指针 by-refernce 的好处是减少内存的 copy，但处理不当的话，比如 this 指针的生命周期如果没有 lambda 长，那么就会访问的野指针，导致 crash。这种 case 下，可以考虑通过 [*this] 的方式，copy this 对象到 lambda 中。 ps: [*this] 是 C++ 17 引入的。

方框的位置是和上面 by-reference 不同之处，会调用 Math 的 copy 构造创建一个 copy 保存到 lambda 对象中。

需要注意的是，即便是 copy 一份，因为生成的 operation () 还是 const 的，所以并不能修改 Math 的属性，如果需要修改，需要加上 mutable 关键字。

实际场景中，应该根据实际的需要（主要考虑生命周期），来选择是使用 by-copy 还是 by-reference 来捕获 this.

回顾 & 总结

lambda 本质上其实就是使用一个匿名的 functor（带有 operator() 的 class），并把 capture 的变量作为该类的属性
lambda 默认生成的 operator() 是 const，如果需要修改 capture 的变量副本，需要加 mutable 关键字修饰
通过 [=] [&] 隐式捕获还是 [this] 显式捕获 this 都是 by-reference 的，只有 [*this] 是 by-copy 的。注意实现的区别，以及如何进行选择。

Ref:

Lambdas, how to capture everything and stay sane - Dawid Zalewski (Meeting C++ 2022 on Youtube)
Lambda expressions (CppReference)

std::shared_ptr 的线程安全性 & 在多线程中的使用注意事项

2022-12-03T00:15:35.000Z

我们在讨论 std::shared_ptr 线程安全时，讨论的是什么？

在讨论之前，我们先理清楚这样的一个简单但却容易混淆的逻辑。 std::shared_ptr 是个类模版，无法孤立存在的，因此实际使用中，我们都是使用他的具体模版类。这里使用 std::shared_ptr 来举例，我们讨论的时候，其实上是在讨论 std::shared_ptr 的线程安全性，并不是 SomeType 的线程安全性。

那我们在讨论某个操作是否线程安全的时候，也需要看具体的代码是作用在 std::shared_ptr 上，还是 SomeType 上。

举个例子:

#include 

struct SomeType {
  void DoSomething() {
    some_value++;
  }

  int some_value;
};

int main() {
  std::shared_ptr ptr;
  ptr->DoSomething();
  return 0;
}

这里例子中，如果 ptr->DoSomething () 是运行在多线程中，讨论它是否线程安全，如何进行判断呢？

首先它可以展开为 ptr.operator->()->DoSomething()，拆分为两步：

ptr.operator->() 这个是作用在 ptr 上，也就是 std::shared_ptr 上，因此要看 std::shared_ptr->() 是否线程安全，这个问题后面会详细来说
->DoSomething () 是作用在 SomeType* 上，因此要看 SomeType::DoSomething () 函数是否线程安全，这里显示是非线程安全的，因为对 some_value 的操作没有加锁，也没有使用 atomic 类型，多线程访问就出现未定义行为（UB）

std::shared_ptr 线程安全性

我们来看看 cppreference 里是怎么描述的:

All member functions (including copy constructor and copy assignment) can be called by multiple threads on different instances of shared_ptr without additional synchronization even if these instances are copies and share ownership of the same object.
If multiple threads of execution access the same instance of shared_ptr without synchronization and any of those accesses uses a non-const member function of shared_ptr then a data race will occur; the shared_ptr overloads of atomic functions can be used to prevent the data race.

我们可以得到下面的结论：

多线程环境中，对于持有相同裸指针的 std::shared_ptr 实例，所有成员函数的调用都是线程安全的。
- 当然，对于不同的裸指针的 std::shared_ptr 实例，更是线程安全的
- 这里的 “成员函数” 指的是 std::shared_ptr 的成员函数，比如 get ()、reset ()、 operrator->() 等）
多线程环境中，对于同一个 std::shared_ptr 实例，只有访问 const 的成员函数，才是线程安全的，对于非 const 成员函数，是非线程安全的，需要加锁访问。

首先来看一下 std::shared_ptr 的所有成员函数，只有前 3 个是 non-const 的，剩余的全是 const 的：

成员函数	是否 const
operator=	non-const
reset	non-const
swap	non-const
get	const
operator*、operator->	const
operator	const
use_count	const
unique(until C++20)	const
operator bool	const
owner_before	const
use_count	const

我们来看两个例子
例 1:

#include 
#include 
#include 
#include 
#include 
using namespace std;

struct SomeType {
  void DoSomething() {
    some_value++;
  }

  int some_value;
};

int main(int argc, char *argv[]) {
  auto test = std::make_shared();
  std::vector operations;
  for (int i = 0; i < 10000; i++) {
    std::thread([=]() mutable {  //<<--
      auto n = std::make_shared();
      test.swap(n);
    }).detach();
  }

  using namespace std::literals::chrono_literals;
  std::this_thread::sleep_for(5s);
  return 0;
}

例 2:

#include 
#include 
#include 
#include 
#include 
using namespace std;

struct SomeType {
  void DoSomething() {
    some_value++;
  }

  int some_value;
};

int main(int argc, char *argv[]) {
  auto test = std::make_shared();
  std::vector operations;
  for (int i = 0; i < 10000; i++) {
    std::thread([&]() mutable {  // <<---
      auto n = std::make_shared();
      test.swap(n);
    }).detach();
  }

  using namespace std::literals::chrono_literals;
  std::this_thread::sleep_for(5s);
  return 0;
}

这两个的区别只有传入到 std::thread 的 lambda 的捕获类型，一个是 capture by copy, 后者是 capture by reference，哪个会有线程安全问题呢？

根据刚才的两个结论，显然例 1 是没有问题的，因为每个 thread 对象都有一份 test 的 copy，因此访问任意成员函数都是线程安全的。例 2 是有数据竞争存在的，因为所有 thread 都共享了同一个 test 的引用，根据刚才的结论 2，对于同一个 std::shared_ptr 对象，多线程访问 non-const 的函数是非线程安全的。
这个的 swap 改为 reset 也一样是非线程安全的，但如果改为 get () 就是线程安全的。

这里我们打开 Thread Sanitizer 编译例 2（clang 下是 -fsanitize=thread 参数），运行就会 crash 并告诉我们出现数据竞争的地方。

==================
WARNING: ThreadSanitizer: data race (pid=11868)
  Read of size 8 at 0x00016ba5f110 by thread T2:
    #0 std::__1::enable_if<(is_move_constructible::value) && (is_move_assignable::value), void>::type std::__1::swap(SomeType*&, SomeType*&) swap.h:38 (Untitled 4:arm64+0x1000061a8)
    #1 std::__1::shared_ptr::swap(std::__1::shared_ptr&) shared_ptr.h:1045 (Untitled 4:arm64+0x100006140)
    #2 main::$_0::operator()() Untitled 4.cpp:22 (Untitled 4:arm64+0x1000060d4)
    #3 decltype(static_cast(fp)()) std::__1::__invoke(main::$_0&&) type_traits:3918 (Untitled 4:arm64+0x100005fc8)
    #4 void std::__1::__thread_execute >, main::$_0>(std::__1::tuple >, main::$_0>&, std::__1::__tuple_indices<>) thread:287 (Untitled 4:arm64+0x100005ec4)
    #5 void* std::__1::__thread_proxy >, main::$_0> >(void*) thread:298 (Untitled 4:arm64+0x100004f90)

  Previous write of size 8 at 0x00016ba5f110 by thread T1:
    #0 std::__1::enable_if<(is_move_constructible::value) && (is_move_assignable::value), void>::type std::__1::swap(SomeType*&, SomeType*&) swap.h:39 (Untitled 4:arm64+0x1000061f0)
    #1 std::__1::shared_ptr::swap(std::__1::shared_ptr&) shared_ptr.h:1045 (Untitled 4:arm64+0x100006140)
    #2 main::$_0::operator()() Untitled 4.cpp:22 (Untitled 4:arm64+0x1000060d4)
    #3 decltype(static_cast(fp)()) std::__1::__invoke(main::$_0&&) type_traits:3918 (Untitled 4:arm64+0x100005fc8)
    #4 void std::__1::__thread_execute >, main::$_0>(std::__1::tuple >, main::$_0>&, std::__1::__tuple_indices<>) thread:287 (Untitled 4:arm64+0x100005ec4)
    #5 void* std::__1::__thread_proxy >, main::$_0> >(void*) thread:298 (Untitled 4:arm64+0x100004f90)
...

SUMMARY: ThreadSanitizer: data race swap.h:38 in std::__1::enable_if<(is_move_constructible::value) && (is_move_assignable::value), void>::type std::__1::swap(SomeType*&, SomeType*&)

...

ThreadSanitizer: reported 4 warnings
Terminated due to signal: ABORT TRAP (6)

从错误信息中可以清晰地看到出现的数据竞争，在 22 行，也就是调用 swap () 的行。
如果确实需要在多线程环境下对同一 std::shared_ptr 实例做 swap () 操作，可以调用 atomic 对 std::shared_ptr 的重载函数，如：

1
2
3

template< class T >
std::shared_ptr atomic_exchange( std::shared_ptr* p,
                                    std::shared_ptr r);

C++ std::enable_shared_from_this 具体实现

2022-11-14T22:50:13.000Z

C++ 中使用 std::shared_ptr 智能指针不当有可能会造成循环引用，因为 std::shared_ptr 内部是基于引用计数来实现的，当引用计数为 0 时，就会释放内部持有的裸指针。但是当 a 持有 b， b 也持有 a 时，相当于 a 和 b 的引用计数都至少为 1，因此得不到释放，RAII 此时也无能为力。这时就需要使用 weak_ptr 来打破循环引用。

通过 weak_ptr 来避免循环引用

来看一个比较典型的 delegate/observer 的场景：

#include 
#include 

class DataFetcher {
public:
class Delegate {
public:
~Delegate() = default;
virtual void OnDataReady(void* any_data) = 0;
};

DataFetcher(std::weak_ptr delegate) : delegate_(delegate) {}

void FetchData() {
// ... fetch data from somewhere asynchronously
// and call back
auto delegate = delegate_.lock();
delegate->OnDataReady(nullptr);
}
private:
std::weak_ptr delegate_;
};

class DataManager : public DataFetcher::Delegate,
  public std::enable_shared_from_this {
public:
DataManager() {}

void FetchData() {
if (!data_fetcher_) {
data_fetcher_ = std::make_shared(shared_from_this());
}
std::cout << "Will fetch data with data_fetcher_" << std::endl;
data_fetcher_->FetchData();
}
void OnDataReady(void* any_data) override {
std::cout << "Got Data!" << std::endl;
}

private:
std::shared_ptr data_fetcher_;
};


int main(int argc, char *argv[]) {
auto manager = std::make_shared();
manager->FetchData();
}

这里例子里， DataManager 通过 std::shared_ptr data_fetcher_ 强持有 DataFetcher，DataFetch 通过 std::weak_ptr delegate_ 弱持有 DataManager。如果这里是使用 std::shared_ptr delegate_ 强持有 DataManager 的话，那么 DataManager 和 DataFetch 将会造成循环引用，都得不到释放，造成内存泄漏。

可以看到，在构造 DataFetch 的时候，我们使用了 shared_from_this() 作为参数：
data_fetcher_ = std::make_shared(shared_from_this());
它是 std::enable_shared_from_this 类的一个方法。因为我们继承了 std::enable_shared_from_thi，因此就可以拿到这个方法，它返回的是一个当前指针的 std::shared_ptr.

那么它是怎么实现的呢？查看文档，有如下描述：

A common implementation for enable_shared_from_this is to hold a weak reference (such as std::weak_ptr) to this. The constructors of std::shared_ptr detect the presence of an unambiguous and accessible (ie. public inheritance is mandatory) (since C++17) enable_shared_from_this base and assign the newly created std::shared_ptr to the internally stored weak reference if not already owned by a live std::shared_ptr (since C++17).

意思就是说，内部会持有一个 weak_ptt wp, shared_from_this() 内部检查是否实现了 enable_shared_from_this 基类，如果实现了，就会基于 wp 创建一个 shared_ptr 返回出来。这样看起来挺巧妙。那么这个 weakptr 的指针是什么时候创建的呢？

enable_shared_from_this 源码实现

我们来扒一扒源码，先来看一下 enable_shared_from_this 模版类的实现，代码虽然不多，但是为了简单清晰，我把涉及不到的方法给移除掉了：

template<class _Tp>
class _LIBCPP_TEMPLATE_VIS enable_shared_from_this
{
    // private 的 weak_ptr 指针：
    mutable weak_ptr<_Tp> __weak_this_;
public:
    _LIBCPP_INLINE_VISIBILITY
    shared_ptr<_Tp> shared_from_this()
        {return shared_ptr<_Tp>(__weak_this_);}

#if _LIBCPP_STD_VER > 14
    _LIBCPP_INLINE_VISIBILITY
    weak_ptr<_Tp> weak_from_this() _NOEXCEPT
       { return __weak_this_; }
#endif // _LIBCPP_STD_VER > 14

    template <class _Up> friend class shared_ptr;
};

有这么几点需要注意的：

内部持有了 private 的 weak_ptr 指针 __weak_this_: mutable weak_ptr<_Tp> __weak_this_
shared_from_this() 直接返回的是 shared_ptr<_Tp>(__weak_this_)，并不是 __weak_this_.lock()，原因是前者如果 __weak_this_ 如果为空，将会抛出异常，后者会返回一个存储 nullptr 的 std::shared_ptr 对象。
C++ 14 之后，有 weak_from_this() 方法直接返回 __weak_this_
把 class shared_ptr 设置为友元类，也就是说 shared_ptr 可以访问 enable_shared_from_this 的私有属性 __weak_this_

但是看不到什么时候给 __weak_this_ 初始化的。

shared_ptr 的部分源码

我们再拿出来 shared_ptr 源码来看下，shared_ptr 的源码较多，这里同样去掉一些不影响理解的逻辑。


template<class _Tp>
class shared_ptr
{
public:
    explicit shared_ptr(_Yp* __p) : __ptr_(__p) {
        unique_ptr<_Yp> __hold(__p);
        typedef typename __shared_ptr_default_allocator<_Yp>::type _AllocT;
        typedef __shared_ptr_pointer<_Yp*, __shared_ptr_default_delete<_Tp, _Yp>, _AllocT > _CntrlBlk;
        // 创建  Control Block
        __cntrl_ = new _CntrlBlk(__p, __shared_ptr_default_delete<_Tp, _Yp>(), _AllocT());
        __hold.release();

        // 注意这里，在创建 shared_ptr 的时候，会调用 __enable_weak_this 这样一个方法：
        __enable_weak_this(__p, __p);
    }

private:
    // __enable_weak_this 主实现：
    template <class _Yp, class _OrigPtr>
        typename enable_if
                                          const enable_shared_from_this<_Yp>*
        >::value,
            void>::type
        __enable_weak_this(const enable_shared_from_this<_Yp>* __e,
                           _OrigPtr* __ptr) _NOEXCEPT
        {
            typedef typename remove_cv<_Yp>::type _RawYp;
            if (__e && __e->__weak_this_.expired())
            {
                __e->__weak_this_ = shared_ptr<_RawYp>(*this,
                    const_cast<_RawYp*>(static_cast<const _Yp*>(__ptr)));
            }
        }

     // __enable_weak_this 的兜底实现：
     void __enable_weak_this(...) _NOEXCEPT {}

};

我们可以注意到在 shared_ptr 的构造函数里，会调用 __enable_weak_this() 这样一个方法，有两个参数，把包装的裸指针 __p 传入进去

__enable_weak_this 函数主实现使用了模版源编程 Template meta programming，不熟悉的话，可能乍一看有点蒙，这个稍后再说，先看函数体：

__enable_weak_this(const enable_shared_from_this<_Yp>* __e,
                    _OrigPtr* __ptr) _NOEXCEPT
{
    typedef typename remove_cv<_Yp>::type _RawYp;
    // 检查 __e->__weak_this_ 是否为空，expired() 返回 true 表示内部对象为空
    // 如果为空的话，则通过this 指针和 ptr 构造出来一个 shared_ptr, 并存入 __weak_this_ 中。
    if (__e && __e->__weak_this_.expired())
    {
        __e->__weak_this_ = shared_ptr<_RawYp>(*this,
            const_cast<_RawYp*>(static_cast(__ptr)));
    }
}

到这里我们搞清楚了，enable_shared_from_this 里的 __weak_this_ 是谁创建的，以及在什么时机创建的：

Answer: 在创建 shared_ptr 的时候 (T 继承自 enable_shared_from_this), 初始化了 enable_shared_from_this 里的 __weak_this_ 指针。

Note:
如果仔细看的话，发现构造 shared_ptr 的时候有点奇怪，第一个参数是 shared_ptr 类型，第二个是 __ptr 也就是当前 shared_ptr 对象管理的裸指针。
1
shared_ptr<_RawYp>(*this, const_cast<_RawYp*>(static_cast(__ptr)))
这个调用的是 std::shared_ptr 的别名构造函数（The aliasing constructor），意思是说，共享 r 参数的引用计数，但是 .get() 返回的是 ptr 指针。
1
2
template< class Y >
shared_ptr( const shared_ptr& r, element_type* ptr ) noexcept;  // (8)

现在就剩下一个疑惑了，shared_ptr 怎么知道一个类型有没有继承自 enable_shared_from_this 呢？
这个就需要我们回过头来看 __enable_weak_this 的返回值类型，也就是下面这一坨：

1
2
3

typename enable_if<
            is_convertible<_OrigPtr*, const enable_shared_from_this<_Yp>*>::value,
            void>::type

对，这一坨最终会在编译期塌缩成一个类型，最终返回 void 或者空。当返回 void 时，__enable_weak_this 函数签名就是

1 2	void __enable_weak_this(const enable_shared_from_this<_Yp>* __e, _OrigPtr* __ptr)

当塌缩成空时，__enable_weak_this 函数签名就是

1 2	__enable_weak_this(const enable_shared_from_this<_Yp>* __e, _OrigPtr* __ptr)

显然这是一个不合法的签名，因此编译期发现整个不合法，就不生成这个函数了。
这个就是模板元编程的特点，编译器生成模版函数和我们手写函数的逻辑完全不同，我们手写的函数不合法，编译器就会报错，但是如果编译器生成出来的发现不合法，编译器就会不生成这个函数。
这个就是所谓的 SFINAE (Substitue Failure Is Not An Error) ，翻译过来就是：（模版）替换失败不是一个错误。

现在有两个问题：

什么条件下返回 void 以及空呢？
如果不生成 __enable_weak_this 函数，那构造里调用的函数，是调的哪个呢？

对于第二个问题，比较简单，上面我们发现有个兜底的 __enable_weak_this 重载函数，调用的就是这个了，内部实现是空的，也就是什么也不做。

1
2
3

// __enable_weak_this 的兜底实现：
void __enable_weak_this(...) _NOEXCEPT {}

对于第一个问题，就是 enable_if 起的作用：
enable_if::type 的意思是说，如果 bool 值为 true，enable_if 返回的就是第二个模版参数 类型T, 如果为 false，返回空（不是 void，而是什么也没有）
那么看下：

1	enable_ifconst enable_shared_from_this<_Yp>*>::value, void>::type

意思就是说，如果 is_convertible<_OrigPtr*, const enable_shared_from_this<_Yp>*>::value 返回 true 的话，也就是说我们的裸指针可以转换为 enable_shared_from_this<_Yp>*>::value, 其实也就是说，我们的裸指针类型是继承自 enable_shared_from_this<_Yp> 的。

所以这句话的意思就是说，如果传入的裸指针类型是继承自 enable_shared_from_this 的，那么返回 void 类型，否则返回空，让 __enable_weak_this 函数替换失败，导致内部无法创建 __weak_this_ 指针，也就没办法通过 shared_from_this() 函数拿到当前 this 指针对应的 shared_ptr.

避免在构造函数里调用 shared_from_this ()

来看下面这个场景，在构造里注册 Observer，然后为了避免循环引用，这里我们传入一个 weak_ptr，看起来非常合理，你能看出来有什么问题吗？


class DataManager : public DataFetcher::Delegate,
    public std::enable_shared_from_this {
public:
DataManager(std::shared_ptr some_subject) : some_subject_(std::move(some_subject)) {
        //...
RegisterObserver();
}

void RegisterObserver() {
auto weak_self = std::weak_ptr(shared_from_this());
some_subject_->AddObserver(weak_self);
}

    void FetchData() {
}


private:
    std::shared_ptr some_subject_;
    //....
}

int main(int argc, char *argv[]) {
auto manager = std::make_shared();
manager->FetchData();
}

结果就是马上 crash 掉，如果对内部原理不清楚的话，很难一下子找到根本原因.

1 2	libc++abi: terminating with uncaught exception of type std::__1::bad_weak_ptr: bad_weak_ptr Terminated due to signal: ABORT TRAP (6)

根据上面我们看 shared_from_this () 的源码实现会发现它是通过 _weak_this 来构造出来的，不管是 make_shared 内部会先调用 new DataManager 创建指针，然后再创建 _weak_this_，因此在 DataManager 构造函数被调用时，__weak_this 还没有创建出来，因此会报 bad_weak_ptr 的错误。

1 2	shared_ptr<_Tp> shared_from_this() {return shared_ptr<_Tp>(__weak_this_);}

以上。

AArch64 学习 (二) 函数调用 (Function Call Convention)

2022-06-03T02:08:45.000Z

本系列的第一篇中介绍了 AArch64 的基础指令、进程内存布局以及基础栈操作等。本文该系列的第二篇，主要聊聊函数调用，涉及到的就是 Function Call Convention. 初衷还是尽可能 “浅入深出” 地 got 到语言背后的本质，这不是一个手册，所以不是完备的.

1. 我们在聊函数调用的时候在聊什么？

至少我们应该把函数调用的几个问题搞清楚:

函数在汇编层是怎么调用的，本质是什么？
函数的参数怎么传？
返回值写到哪里？怎么传给 caller?
调用完之后，怎么返回到原来的位置？

Function Call Convention 其实就是回答这些问题的，接下里我们一一找到答案.

1.1. 函数调用本质是什么？

汇编层是没有函数的概念的，我们需要把函数映射到汇编层来，这样我们就知道了它的本质。其实执行一个程序，在汇编层来看就是不断的执行 CPU 指令，都执行完了，进程就结束了。从第一篇的例子其实可以看出，一个函数就是一个 label, 等于代码段中该函数第一条指令的位置。其实本质上函数调用，就是程序从代码段的某一条指令，跳转到另外一个地址上的指令去执行。稍微复杂点的 C 程序都不是从头执行到尾就结束了，会有条件判断，函数调用。函数调用和普通跳转不同的地方在于要处理传参、返回、以及寄存器的 backup 和恢复.

AArch64 提供给我们了一个 bl (branch with link) 指令，用来执行指定的函数。第一篇里，我们介绍了 cmp 以及 b.le/b.ge 等，‘b’ 在这两处都是 branch 跳转的意思.

只不过 bl 是跳转的函数地址上，bl 内部实现是这样的:

跳转之前会把函数调用后面地址 (也就是 bl 的下一条指令的地址) 存放到 LR (Link register) 中
PC 被 bl 的参数替换，就是 PC 指向了 bl 的参数，通常是一个函数 label, 对应着一个地址
目标函数开始执行
目标函数执行完，调用 ret 指令，ret 会把 LR copy 回 PC
程序执行 PC, 也就是执行原来 bl 下一条指令了

1.2. AArch64 Call Convention 约定

把需要保存的寄存器值入栈，避免被即将调用的函数修改
AArch64 中，X0-X7 8 个通用寄存器用来保存函数调用的前 8 个参数，超过 8 个的，通过入栈来传递.
返回值默认存入 X0 或者 X0 + X1 寄存器中
执行 bl 跳转，跳转到目标函数
目标函数如果有返回值，把返回值放入 X0, 然后执行 ret
取出返回值，然后出栈，恢复寄存器中的值

ps: 还有一种间接传递返回值的方式，该方式会使用 XR (X8) 进行间接的返回，后文会介绍这种 case.

2. 看一个简单函数调用例子

long add(long x, long y) {
    return x + y;
}

int main() {
    long z = add(1, 2);
    return 0;
}

对应的 AArch64 的汇编代码:
ps: 这里为了方便阅读，我把 add 函数调整到了 main 的后面，下同

main:                                   // @main
  // 1. 分配 48 字节的栈空间, 使用情况见 step 11
  sub     sp, sp, #48                     // =48

  // 2. stp 和 str 类似, 区别是 stp 一次保存多个
  // 这里等于把 x29/FP => [sp + 32], x30/LR => [sp + 40]
  stp     x29, x30, [sp, #32]             // 16-byte Folded Spill

  // 3. x29 = sp + 32
  add     x29, sp, #32                    // =32

  // 4. w8 = 0, 然后存入后面能用到
  mov     w8, wzr

  // 5. x29-4 = sp+32-4 = sp + 28
  stur    wzr, [x29, #-4]

  // 6. 把字面量 1 和 2 放入 X0, X1, 作为入参传给 add
  mov     x0, #1
  mov     x1, #2

  // 7. 前面把 w8 置为 0, 这里相当于在 sp+12 位置保存了一个 0
  str     w8, [sp, #12]                   // 4-byte Folded Spill

  // 8. 函数调用
  bl      add(long, long)

  // 9. 把 X0 也就是返回值, 放入 sp + 16 中
  str     x0, [sp, #16]

  // 10. 因为 main 的返回值是 int, 4 字节, 所以用的是 w0, sp+12 前面我们知道保存的是 0
  // 所以这里相当于把 0 放入了 w0, 作为 main 函数的返回值
  ldr     w0, [sp, #12]                   // 4-byte Folded Reload

  // 11. 回顾一下分配的 48 字节栈空间的使用情况
  | sp + 40  |  LR (8 bytes)
  | sp + 32  |  FP (8 bytes)
  | sp + 24  |  0  (8 bytes, 低四位(sp + 28) 存放 0)
  | sp + 16  |  X0 (8 bytes)
  | sp + 8   |  0  (8 bytes, 低四位(sp + 28) 存放 0)
  | sp       |     (8 bytes, 为了16对齐, 多分配出来的)

  // 和 step2 操作相反, 恢复 X29, X30, 也就是 FP 和 LR 寄存器
  // 类似 ldr, ldp load 多个: X29 <= [sp + 32], X30 <= [sp + 40]
  ldp     x29, x30, [sp, #32]             // 16-byte Folded Reload

  // 释放栈空间
  add     sp, sp, #48                     // =48
  ret

add(long, long):                               // @add(long, long)
  // add 函数有两个 long 参数, 会占用栈空间, 分配 16 字节
  sub     sp, sp, #16                     // =16

  // X0 是第一个参数 x, 保存到 sp + 8
  str     x0, [sp, #8]
  // X1 是第二个参数 y, 保存到 sp 中
  str     x1, [sp]

  // 取出 x 和 y
  ldr     x8, [sp, #8]
  ldr     x9, [sp]

  // 相加, 把和放入 X0 中, 也是约定的返回值存放位置
  add     x0, x8, x9

  // 释放栈空间
  add     sp, sp, #16                     // =16
  // 返回
  ret

3. 参数超过 8 个参数，通过栈空间传递参数的例子

test 函数共有 10 个参数，为了保持简单，这里都使用 long 类型的.

long test(long n1, long n2, long n3, long n4, long n5,
          long n6, long n7, long n8, long n9, long n10) {
    return n1 + n2;
}

int main() {
    long z = test(1, 2, 3, 4, 5, 6, 7, 8, 9, 10);
    return 0;
}

我们先看一下函数调用的时候，栈的分配，下面是对应的 AArch64 的汇编代码:

main:                                   // @main

  // 1. 这部分和上面例子非常类似, 不赘述了
  sub     sp, sp, #64                     // =64
  stp     x29, x30, [sp, #48]             // 16-byte Folded Spill
  add     x29, sp, #48                    // =48
  mov     w8, wzr
  stur    wzr, [x29, #-4]

  // 2. 前 8 个参数通过通用寄存器 X0-X8 传递
  mov     x0, #1
  mov     x1, #2
  mov     x2, #3
  mov     x3, #4
  mov     x4, #5
  mov     x5, #6
  mov     x6, #7
  mov     x7, #8

  // 3. 这三条指令相当于把第 9 个参数 #9 放入 [sp], 也就是栈顶的位置
  mov     x9, sp
  mov     x10, #9
  str     x10, [x9]

  // 4. 把第 10 个参数 #10 放到 [sp + 8], 也即是栈顶的下一个位置
  mov     x10, #10
  str     x10, [x9, #8]

  // 5. 此时栈的情况是这样的:
  | sp + 40  |
  | sp + 32  |
  | sp + 24  |
  | sp + 16  |  其他值
  | sp + 8   |  #10, 第 10 个参数
  | sp       |  #9, 第 9 个参数

  stur    w8, [x29, #-20]                 // 4-byte Folded Spill

  // 6. 执行函数调用
  bl      test(long, long, long, long, long, long, long, long, long, long)

  // 7. 也和前面例子非常类似, 不赘述
  stur    x0, [x29, #-16]
  ldur    w0, [x29, #-20]                 // 4-byte Folded Reload
  ldp     x29, x30, [sp, #48]             // 16-byte Folded Reload
  add     sp, sp, #64                     // =64
  ret

test(long, long, long, long, long, long, long, long, long, long): // @test(long, long, long, long, long, long, long, long, long, long)
  // 10个参数, 分配 80 字节的栈空间, 也是 16 的倍数
  sub     sp, sp, #80                     // =80

  // 结合上面第5步, 我们可以知道当前栈是这样的:
  // 前面 sp = sp - 80, 所以这里 main 函数栈相当于离栈顶 sp 又远了80, 需要 + 80
  ----main func----
  | sp + 40 + 80  |
  | sp + 32 + 80  |
  | sp + 24 + 80  |
  | sp + 16 + 80  |  其他值
  | sp + 8  + 80  |  #10, 第 10 个参数
  | sp      + 80  |  #9, 第 9 个参数
  ----test func----
  | sp +      72  |
  | sp +      64  |
  | sp +      56  |
  | sp +      48  |
  | sp +      40  |
  | sp +      32  |
  | sp +      24  |
  | sp +      16  |
  | sp +      8   |
  | sp            |
  -----------------

  // 这个初看有些奇怪, 一共分配了 80 自己的空间, 那这里的 sp + 80, 岂不是访问出界了啊?
  // 实际上是特意的, 根据前图, sp + 80 相当于访问到了 #9 所在的位置, 所以 x8 = #9
  // 同理 x9 实际访问到了 [sp, #88], 也就是 #10 所在的位置, 所以 x9 = #10
  // 这样就拿到了最后两个参数
  ldr     x8, [sp, #80]
  ldr     x9, [sp, #88]

  // 前 8 个参数, 逐个压入到栈中. 空余了 sp 和 sp + 8
  str     x0, [sp, #72]
  str     x1, [sp, #64]
  str     x2, [sp, #56]
  str     x3, [sp, #48]
  str     x4, [sp, #40]
  str     x5, [sp, #32]
  str     x6, [sp, #24]
  str     x7, [sp, #16]

  // 再把从前面函数栈中拿到的第 9、10 个参数入栈
  str     x8, [sp, #8]
  str     x9, [sp]

  // 此时 函数栈中的值是这样的:
  ----main func----
  | sp + 40 + 80  |
  | sp + 32 + 80  |
  | sp + 24 + 80  |
  | sp + 16 + 80  |
  | sp + 8  + 80  |  #10, 第 10 个参数
  | sp      + 80  |  #9, 第 9 个参数
  ----test func----
  | sp +      72  |  #1
  | sp +      64  |  #2
  | sp +      56  |  #3
  | sp +      48  |  #4
  | sp +      40  |  #5
  | sp +      32  |  #6
  | sp +      24  |  #7
  | sp +      16  |  #8
  | sp +      8   |  #9
  | sp            |  #10
  -----------------

  // 拿出 #1 和 #2, 相加的结果 3 放入 X0 作为返回值
  ldr     x8, [sp, #72]
  ldr     x9, [sp, #64]
  add     x0, x8, x9

  // 释放栈空间
  add     sp, sp, #80                     // =80
  ret

4. 总结一下函数调用的通用逻辑

调用前
1. 可能会修改的寄存器先入栈保存
2. 准备函数的参数，前 8 个参数参数放入 X0-X8
3. 剩余参数入栈
使用 bl 调用目标函数
1. 执行 bl 之前会把 bl 下一行指令的地址放入 lr 寄存器
2. 从 X0-X9 拿到前 8 个参数，然后从上个函数栈的栈中取出剩余的参数
3. 目标函数执行完，ret 的时候，会把 lr 寄存器的值 store 到 PC 寄存器
4. 执行 pc 寄存器对应的地址，也就是前面 bl 下一行 (step 9 的指令)
调用后
1. 恢复 1.1 中入栈的寄存器值，恢复调用前的状态

AArch64 学习 (一) 基础指令，内存布局，以及基础栈操作

2022-06-02T22:59:45.000Z

1. 什么是 ARM?

正式开始之前，我们先来了解一下什么是 ARM, 以及对应的一些概念.

Wikipedia 上是这么介绍 ARM 的:

ARM (stylised in lowercase as arm, formerly an acronym for Advanced RISC Machines and originally Acorn RISC Machine) is a family of reduced instruction set computer (RISC) instruction set architectures for computer processors, configured for various environments.

ARM 是高级 - RISC (精简指令集)- 机器的缩写，是精简指令集架构的家族。同时 Arm Ltd. 也是开发和设计、授权这项技术的公司名称.

1.1. 有哪些指令集架构呢？(TRDR, 可跳过)

目前用的比较多的架构是 ARMv7 和 ARMv8, 这两个名字各自都是一个系列.

在 ARMv7 以及之前都是最多支持 32 位架构 (更早还有 16 位，甚至更低), 那么 32 位架构对应的 ISA 也就是指令集称为 A32. 32 位下指令的地址空间最大只有 4GB, 苹果系列的代表是 iPhone 4 使用的 A4 芯片，以及 iPhone 4s 使用的 A5 芯片.

2011 年面世的 ARMv8-A 架构增加了对 64 位地址空间的支持，对应的 ISA 称为 A64. 这里用的词是 “增加”, 也就意味着在支持 32 位的基础上增加了对 64 位的支持。所以也可以看出来所谓的 32/64 位指的就是可寻址的最大地址空间。苹果系列从 iPhone 5s 开始的 A7 芯片一直到 A15, 以及 Apple M1 系列开始都是基于 ARMv8.x-A 规范的.

那我们见到的 AArch64 是什么呢？其实它和 AArch32 被称为 “执行状态” (execution state), 那么我们可以说 ARMv8-A 同时支持 AArch32 和 AArch64 两种状态，在 AArch64 状态下，运行的是 A64 指令集.

这里要注意 ARMv7/ARMv8-A、AArch32/AArch64 以及 A32/A64 在概念上的的区别，但很多时候，描述的范围都挺笼统的，有些也是可以互相指代的，大家知道就好.

上面说到指令集，指令集是做什么用的呢？我们为什么要了解这些？

指令集本质上定义了 CPU 提供的 “接口”, 软件通过这些 “接口” 调用 CPU 硬件的能力来实现编程。编译器在这里起到很关键的角色，它把上层代码根据对应的架构，编译为由该架构支持的指令集对应的二进制代码，最终运行在 CPU 上.

对 C 系语言来说，我们说的跨平台，其实就是通过同一份源码在编译时，根据不同 target 架构指令集，生成不同的二进制文件来实现的.

1.2. 本系列的目的：为什么要了解 ARM 汇编指令？

对我们来说熟悉 ARM 汇编指令，我们就能知道我们平常写的代码背后的本质，以及背后的原理，从而写出更高效，更可靠的代码。主要是编译器内部对 C/C++ 概念的实现原理.

这个系列也是本着这个初衷展开，适合对 AArch64 不熟，或者熟悉 x86/64 的汇编，想了解 AArch64 的同学。而且对 C/C++ 语法或者特性背后实现感兴趣的同学.

我其实也是最近才开始捡起来，之前学习的 x86 汇编早就还给老师了。相当于一边学习一边总结吧。好处是我大概知道刚开始可能会遇到哪些问题，在此基础上，尽可能的减少阅读门槛，这不是一个手册，而是一个循序渐进，目的性很强的一个系列.

因为目前 Apple M1 芯片就是基于 ARMv8.x-A 的，我们为了方便试验，接下来都选择使用基于 ARMv8-A A64 指令集来做解释.

2. 认识 A64 指令集下的常用指令

ARM 使用的是精简指令集 (RISC, Reduced Instruction Set Computer), 相对的就是 x86/64 的复杂指令集 (CISC, Complex Instruction Set Computer).

2.1. RISC 的一些特点:

精简指令集提供的指令更简单，更基础一些，也就是说，和 x86/64 相比，同样的代码，生成的指令会多一些.
内存访问和计算是完全分离的. RISC 使用 load 读取内存数据到通用寄存器中，计算完之后通过 store 保存到内存中

2.2. ARM64 的约定:

每个指令都是 32 位宽
ARM64 有 31 个通用寄存器: X0-X30, 每个都是 64 位。如下图 1, 低 32 位可以通过 W0-W30 来访问。当写入 Wy 时，Xy 的高 32 位会被置 0, 比如 ADD W0, W1, W2
提供 32 个 128 位的独立的寄存器，用于浮点数以及向量操作，如下图 2, Qx 表示 128 位，Dx 表示 64 位，以此类推.
1. 执行 32 位浮点数计算: FADD S0, S1, S2.
2. 也可以直接使用 Vx 的方式，此时表示的就是向量操作，如
  FADD V0.2D, V1.2D, V2.2D
其他的寄存器:
1. ZXR/WZR 不可写，始终为 0
2. SP, Stack Pointer, 栈指针寄存器，load 和 store 的基址，指向栈顶
3. X29 用来表示 FP Frame Pointer, 方法调用的时候，指向栈基址，用于方法调用后恢复栈.
4. X30 被用作 LR Link Register, 也可以通过 LR 来使用。在方法调用前，保存返回地址.
5. PC, Program Counter 寄存器在 A64 里不是通用寄存器，数据处理中不可用。等价写法是 ADR Xd, ., 点表示当前行，ADR 取地址，相当于取当前行的地址，也就相当于 PC 寄存器的值
6. macOS 中 X18 被禁用

(图 1)

(图 2)

3. 一些常用基础指令的用法

指令的构成通常是这样的:

Operation Destination, Op1[, Op2 ..]

Operation 描述指令的作用，比如 ADD 表示加，AND 进行逻辑与操作
Destination 总是为寄存器，存放操作的结果
Op1, 指令的第一个输入参数，总是为寄存器
Op2, 指令的第二个输入参数，可以是一个寄存器，或者是常量值

不一定所有的制定规则都是这样的，为了减少理解的成本，我们先介绍几个简单却又必须的指令，其他的指令会在后面用到时再做介绍.

// X1 存储了一个地址, 把 X1 寄存器里的地址对应的值, load 到 X0 寄存器中. 相当于 X0 = *X1
ldr X0, [X1]

// X0 = X0 + 1
ADD X0, X0, #1

// 再把 X0 寄存器的值, 保存到 X1 地址对应的内存中, 相当于 *X1 = X0
str X0, [X1]

// 访问内存可以加一个 offset, 相当于把 X0 保存到 新地址 = (地址 X1 + 4) 对应的内存中. lrd 也同理.
str X0, [X1, #4]

// ldp(load pair registers) 和 ldr 类似, 一次 load 两个
ldp X0, X1, [sp, #num]

// 同理, stp(store pair registers) 保存两个 register 到内存
stp X0, X1, [sp #num]

// 用 mov 移动一个寄存器或者立即数到目的寄存器中
mov X0, X1
mov X0, #0x01

通过 label 在 code segment 里定义 local data:
msg: ascii "Hello"  // 定义字符串
number: word 0x12345678  // 定义一个 4 字节的数据. byte, word(4bytes), quad(8bytes)

// ADR 取地址符, 把 Hello 字符串的地址放入 X1 寄存器:
adr X1, msg

// 算数运算, 加减乘除: add, sub, mul, sdiv/udiv (signed/unsigned div):
add x0, x1, x2

// 逻辑运算, lsl/lsr logical shift left/right.
lsl X0, #16  // 把 X0 左移 16 bits
lsr X0, #16

// 控制流, 通过 b 指令跳转

// 直接跳转到 .LBB0_6
b       .LBB0_6

// less or equal
b.le    .LBB0_2

// greater or equal
b.ge    .LBB0_4

// not equal
b.ne    .LBB0_4

//TODO(xueshi)

4. 进程内存布局

熟悉程序加载到内存之后的布局，对编写 / 阅读汇编代码至关重要，这里我们熟悉一下经典的内存布局，主要目的是方面理解后面的汇编代码。这里不展开西说，更详细的大家可以自行查询资料.

下面讨论的地址都是虚拟地址，虚拟地址最终会被操作系统映射到真实的物理地址中。所以我们也可以知道在 32 bit 指令集下，虽然寻址空间最大 4GB, 因为用了虚拟内存，实际上每个执行的进程都有 4GB 的寻址空间 (一般是 1G 内核空间，3G 用户空间), 并不是共享的.

当一个可执行程序被 load 到一个进程空间之后，内存布局如下。按段 (Segment) 来划分的，逐个来介绍.

最下面的是代码段，保存着二进制的代码，主要是各种函数，拥有只读和执行的权限。这个段的代码可以被执行，但是不可写入.
数据段，主要保存常量值或全局静态值，拥有只读权限，也是不可写入的.
堆，堆空间主要是用来动态分配内存的，我们用的 malloc, new 等申请的内存空间都会在这个区域，权限会读写。分配的虚拟内存地址由小增大，所以是向上增长的.
栈空间，栈空间主要是保存临时变量以及方法调用的参数。栈空间分配的方向是从大到小的，和 Heap 分配的方向是相对的。这么设计一方面是可以和 Heap 共用中间的待分配内存，另外一个原因是，每个方法里的临时变量所占用的内存在编译期其实就已经确定了，执行方法开始时一次性的分配所需的栈空间，执行结束一次性释放掉。其实堆空间和栈空间并没有物理上的差别，只是逻辑上定义如此.
内核空间，内核空间和栈空间一般还会有间隔，这里没画出来

|--------------|
| Kernal Space |
|--------------| 高地址
|              | 栈地址 从高到低 向⬇增长
|     Stack    |
|              |
|--------------|
|              |
|   待分配内存   |
|              |
|--------------|
|              | 堆地址 从低到高 向⬆增长
|     Heap     |
|              |
|--------------|
| Data Segment |
|--------------|
| Code Segment |
|--------------| 低地址

5. 栈操作

栈操作是看懂汇编代码必备的，因为每个函数几乎都要开辟自己的一片栈空间，我们也称为 stack frame, 也就是我们常见到的 “栈帧”, 随着函数调用创建，函数结束调用释放销毁.

Stack frame 主要有两个基础用途，一个是存储临时变量，再者是函数调用和传参。后者会在后面的文章的讲述，这里我们主要看一下在没有函数调用的情况下栈空间的使用.

随便实现一个 test 函数，在 main 函数里调用它:

long test() {
    long x = 5;
    long y = 3;
    long z = 4;
    return x + y;
}

int main() {
    test();
    return 0;
}

如图 3, 在 GodBolt 里使用 armv8-a clang 11.0.1 编译器生成汇编代码 (这里省略 main 函数):

(图 3)

test():  // @test()
    // 栈空间是从高地址往低地址分配空间的, 我们看到有 x y z 三个本地临时变量
    // 共 3*long = 24bytes, 也就是需要 24 字节的栈空间
    // 但是 arm64 有个约定, 分配栈空间的大小须为 16 字节的倍数, 所以这里需申请 32bytes

    // sp = stack pointer, 指向栈顶(也是栈空间里可用的最低地址)
    // 我们看到这里直接 通过 sp=sp-32 来开辟了 32 字节的空间
    // 而且 32 是立即数, 也就是编译器在编译期就已经确定了的.
    sub     sp, sp, #32   // =32

    // 申请之后可用的栈空间是这样的, sp 指向了栈顶:
    // | sp + 24|  8 bytes
    // | sp + 16|  8 bytes
    // | sp + 8 |  8 bytes
    // | sp     | 8 bytes

    // 对应 x=5, 不能直接把 5 放到内存, 需要寄存器中转一下, 先把 5 放入 x8 寄存器
    mov     x8, #5  // 立即数以#开头, 这里把5放到x8寄存器中
    // sp 既然是指针, 也就是地址, 所以支持
    // 1. 地址支持加减运算, 2: 存取(store/load) 数据都需要使用 [] 来找到地址所对应的值
    // 然后接上面, 把 x8 也就是 5, 放入了 sp + 24 对应的地址里
    str     x8, [sp, #24]

    mov     x8, #3  // 同上, 操作y
    str     x8, [sp, #16]

    mov     x8, #4  // 同上, 操作z
    str     x8, [sp, #8]

    操作完之后, 栈空间是这样的:
    // | sp + 24|  就是 x, 值为 5
    // | sp + 16|  就是 y, 值为 3
    // | sp + 8 |  就是 z, 值为 4
    // | sp     | 未使用

    // 可见这里入栈顺序和临时变量定义的顺序是一致的

    //  操作 x + y
    ldr     x8, [sp, #24] //把 x 读取到x8
    ldr     x9, [sp, #16] //把 y 读取到x9

    // 现在 x0 = x8+x9, 保存着相加的结果值 8
    add     x0, x8, x9

    // 释放分配的栈空间, 其实就是把 sp + 32, 相当于 sp 指针向上移动了 32 个字节
    // 那我们知道栈空间分配的方向是从高地址到低地址, 释放就是相反的方向也容易理解了.
    add     sp, sp, #32                     // =32

    // 默认返回 x0, 后文会介绍
    ret

main:   // @main
    ...省略

我们总结一下，其实也很简单，记住下面几个就够了:

每个函数内的栈空间大小，在编译期就已经确定
通过 sub sp, #size, 就是减小 sp 地址的方式分配栈内存，分配 size 字节.
ps: AArch64 要求每次分配的栈空间 size 必须是 16 bytes 的倍数
通过 add sp, #size, 就是增加 sp 地址的方式释放栈内存，释放的和开始分配的要一致
通过 str x寄存器, [sp, #offset] 的方式保存数据到栈空间
通过 ldr x寄存器, [sp, #offset] 的方式加载栈空间数据到寄存器

6. REFs

深入理解 AudioUnit (二) ~ Mixing Unit & Effect Unit & Converter Unit

2022-03-19T14:20:20.000Z

本系列的第一篇中介绍到了 AudioUnit 中和系统硬件交互的 IO Unit, 以及如何使用它进行音频的采集和播放。本文是该系列的第二篇，将会介绍 AudioUnit 中另外 四类 非常重要的 AudioUnit: Mixing 、 Effect Unit 、 Converter Unit 以及 Generator Unit.

1. Mixing Unit

Mixing unit 在实际场景中非常的实用，特别我们需要对多路音频做处理或者播放。比如对于音频制作 app 来做，通常要支持混入 N 多种乐器的声音和片段，比如吉他、钢琴、贝斯、人声、和声等等。这个时候使用 Mixing unit 把这些 input bus 混成一路 output 交给 IO Unit 播放，就是一个很必要且自然的结果.

Mixing Unit 是一个种类，苹果内部提供了三个子类型:

CF_ENUM(UInt32) {
    kAudioUnitSubType_MultiChannelMixing  = 'mcmx',
    kAudioUnitSubType_MatrixMixing        = 'mxmx',
    kAudioUnitSubType_SpatialMixing       = '3dem',
};

1.1 MultiChannelMixing

MultiChannelMixing 是一个 多输入、单输出 的结构，特点是:

支持任意多的 input bus, 每个 input 都可以有任意多的 channel (声道) 数
只有一路输出 ouput bus, 这一路 output bus 也可以有任意多的 channel 数

把这些 input bus 的声音混和，从 output bus 输出，每一路 input bus 可以独立设置数据源、音频格式、音量、mute 等，这个是 Mixing 通用特点，下同.

下面我们看一下它的结构，相比 IO Unit 这个理解起来就比较简单了.

MultilChannelMixing 是 多输入、单输出 的结构，可以自由配置 input bus 的数量，配置完之后，一个配置为 N 输入的 bus number 从 0 开始到 N-1. Output bus 的个数只有一个，bus number 固定为 0.

每个 input bus 可以设置独立的 RenderCallback 或者连接前序的 AudioUnit 提供数据，可以设置独立的音频格式参数，以及控制当前 input 的音量和 mute 状态等等.

来看一个 sample, 这个 Mixing 设置了两个 input bus, 一个 output bus, 两个 input bus 分别连接到吉他和架子鼓的音频信号，mix 之后，output bus 连接到 IO Unit 的 output bus 上，它固定连接到硬件输出设备上。这样就完成了把吉他和架子鼓的音频信号给播放出来的效果。如果硬件连接的耳机的话，那么带上耳机就可以实现监听这两个乐器声音的效果了.

input bus 数量通过 set kAudioUnitProperty_ElementCount 属性设置:

UInt32 mixer_input_buses_num = 2;
AudioUnitSetProperty(export_mixer_unit_,
    kAudioUnitProperty_ElementCount,
    kAudioUnitScope_Input,
    0, &mixer_input_buses_num, sizeof(mixer_input_buses_num));

然后可以通过 kAudioUnitProperty_StreamFormat 单独设置每个 input 的音频格式:

// mixer 有 n 个 bus 的话, bus number 从 0 开始 到 n-1
// 我们定义第一个 bus: bus 0 接吉他, 定义一个常量
constexpr UInt32 kMixerGuitarInputElementNumber = 0;
// 我们定义 bus 1 接架子鼓
constexpr UInt32 kMixerDrumKitInputElementNumber = 1;
...

AudioUnitSetProperty(export_mixer_unit_,
    kAudioUnitProperty_StreamFormat,
    kAudioUnitScope_Input,
    kMixerGuitarInputElementNumber,
    &format_, sizeof(AudioStreamBasicDescription));

AudioUnitSetProperty(export_mixer_unit_,
    kAudioUnitProperty_StreamFormat,
    kAudioUnitScope_Input,
    kMixerDrumKitInputElementNumber,
    &format_, sizeof(AudioStreamBasicDescription));

接下来就可以给每个 input bus 设置 RenderCallback, 从而填充对应的音频数据.

1.2 MatrixMixing

MatrixMixing 是一个 多输入、多输出 的结构，特点:

支持任意多的 input bus, 每个 input 可以有任意多的 channels
支持 任意多的 output bus (这点和 MultiChannelMixing 不同), 每个 output 可以有任意多的 channels
MatrixMixing 可以非常精细地控制每个 output channel 的音量，控制方式呈现为矩阵状，可以通过下面 4 个环节来精确地控制最终 mix 之后每个 channel 的音量
1. input bus 里的每个 channel 的输入音量
2. ouput bus 里的每个 channel 输出音量
3. 交叉点音量 (就是某个 input bus channel 参与 mix 到某个 output bus channel 的音量）
4. 整个矩阵的全局音量
  可见 MatrixMixing 的功能更强大，使用更灵活，也更复杂一些，关于它的使用，苹果提供了一个 sample MatrixMixerTest, 运行出来的界面是这样的:

界面元素比较多，我也花了点时间读了源码。它实现的功能是这样的，支持最多两路输入 (从文件读入), 对应 MatrixMixing 的两个 input bus, 每个 input 有两个 channel (声道), 他们体现在界面的左侧红框选中的部分。这四个声道都可以独立的控制音量，slider 就是用来控制音量大小的。然后呢，matrix 设置了一个 output bus, 就是一个输出，但是这一个输出配置了 5 个 channels, 对应下方绿色的部分，这五个声道也都可以独立设置音量.

设置的源码如下:

// 设置两个 input bus/element
numbuses = 2;
printf("set input bus count %u\n", (unsigned int)numbuses);
result = AudioUnitSetProperty(mixer,
                        kAudioUnitProperty_ElementCount,
                        kAudioUnitScope_Input,
                        0,
                        &numbuses,
                        sizeof(UInt32) );

// 设置一个 output bus/element
numbuses = 1;
printf("set output bus count %u\n", (unsigned int)numbuses);
result = AudioUnitSetProperty(mixer,
                        kAudioUnitProperty_ElementCount,
                        kAudioUnitScope_Output,
                        0,
                        &numbuses,
                        sizeof(UInt32) );

for (int i=0; i<2; ++i) {
    ...
    // 每个 input format 的 channel 都是 2
    desc.ChangeNumberChannels(2, false);
    desc.mSampleRate = kGraphSampleRate;

    printf(">> set input format for bus %d\n", i);
    desc.Print();
    result = AudioUnitSetProperty(mixer,
                            kAudioUnitProperty_StreamFormat,
                            kAudioUnitScope_Input,
                            i,
                            &desc,
                            sizeof(desc) );
}
result = AudioUnitGetProperty(mixer,
                        kAudioUnitProperty_StreamFormat,
                        kAudioUnitScope_Output,
                        0,
                        &desc,
                        &size );

// output format 的 channel 设置为 5
desc.ChangeNumberChannels(5, false);
desc.mSampleRate = kGraphSampleRate;
result = AudioUnitSetProperty(mixer,
                        kAudioUnitProperty_StreamFormat,
                        kAudioUnitScope_Output,
                        0,
                        &desc,
                        sizeof(desc) );

右上侧是 CrossPoint, 其实就是 input 和 output channel 的交叉的部分，那黄色框的部分来说，它是 ouput bus 的 channel 0 的组成部分，分别来自于 Input Bus 0 的左右 channel, Input Bus 1 的左右 channel, 共四个 channel, 这四个 channel 的贡献值也都可以在 crosspoint 这里控制。非常的灵活.

另外左下角 master gain 控制整体的 matrix mixer 的总音量.

MatrixMixing 还有两个几个参数可以设置，比较重要的是 kAudioUnitProperty_MatrixDimensions 和 kAudioUnitProperty_MatrixLevels.

1.2.1 kAudioUnitProperty_MatrixDimensions

它用来获取 MatrixMixing AudioUnit 的 dimensions, 它是两个 UInt32 的值，分别表示所有 input bus 里的 channels 的个数、所有 output bus 的 channels 个数.
在上面这个例子里，就是 4 和 5.

UInt32 dims[2];
UInt32 theSize =  sizeof(UInt32) * 2;
OSStatus result = AudioUnitGetProperty(matrixMixing,
    kAudioUnitProperty_MatrixDimensions,
    kAudioUnitScope_Global, 0, dims, &theSize);
// dims[2] = [4, 5];

1.2.2 kAudioUnitProperty_MatrixLevels

MatrixLevels 存放了上面 UI 界面中所有展示的音量值，包括 input channel 的音量、output channel 的音量、全局 master 音量以及 crosspoint 的音量. MatrixLevels 是一个 (input channels + 1) * (output channels + 1) 大小的二维 Float32 数组。上面例子中有 4 个 input channels, 以及 5 个 output channels, 所以 levels 数组是 Float32[5][6].
如图所示:

其中:

全局的 master 音量放在了 volumes [4][5] (黄色部分，右下角位置)
input 的音量放在了最后一列 volumes [0][5]、volumes [1][5]、volumes [2][5]、volumes [3][5]
(红色部分，最右侧一列，除了最下面的 [4][5])
output 的音量放在了最后一行 volumes [4][0]、volumes [4][1]、volumes [4][2]、volumes [4][3]、volumes [4][4]
(绿色部分，最后一行，除了最右侧的 [4][5])
Crosspoint 的音量放在了他们对应的位置上，就是从 volumes [0][0] 一直到 volumes [3][4], 也就是白色部分.

获取 MatrixLevels 的例子:

UInt32 dims[2];
...
UInt32 theSize = ((dims[0] + 1) * (dims[1] + 1)) * sizeof(Float32);
Float32 *theVols= static_cast(malloc(theSize));

AudioUnitGetProperty (au, kAudioUnitProperty_MatrixLevels,
                        kAudioUnitScope_Global, 0, theVols, &theSize);

1.2.3 设置音量

我们注意到 sample 里设置四种音量的方式:

- (IBAction)setInputVolume:(id)sender {
    // Input Volume 是常规方式, 设置对应 Input Bus number, 以及 Input Scope 的 kMatrixMixerParam_Volume 值
    UInt32 inputNum = [sender tag] / 100 - 1;
    AudioUnitSetParameter(mixer, kMatrixMixerParam_Volume, kAudioUnitScope_Input, inputNum, [sender doubleValue] * .01, 0);
}

- (IBAction)setOutputVolume:(id)sender {
    // Output Volume 也是常规方式, 设置对应 Output Bus number, 以及 Output Scope 的 kMatrixMixerParam_Volume 值
    UInt32 outputNum = [sender tag] % 100 - 1;
    AudioUnitSetParameter(mixer, kMatrixMixerParam_Volume, kAudioUnitScope_Output, outputNum, [sender doubleValue] * .01, 0);
}

- (IBAction)setMasterVolume:(id)sender {
    // MasterVolume 这里开始不一样了, 需要操作在 0xFFFFFFFF 这个 bus number, 以及 Global Scope 上.
    AudioUnitSetParameter(mixer, kMatrixMixerParam_Volume, kAudioUnitScope_Global, 0xFFFFFFFF, [sender doubleValue] * .01, 0);
}

- (IBAction)setMatrixVolume:(id)sender {
    UInt32 inputNum = [sender tag] / 100 - 1;
    UInt32 outputNum = [sender tag] % 100 - 1;

    // 设置 CrossPoint 音量的值也不太寻常, 也是在 Global Scope 上, 对应的 element 是个计算出来的 UInt32 位值,
    // 高 16 位来自于 Input Bus Number, 低 16 位表示 Output Bus Number.
    // 这部分没有找到任何的文档说明, 如果不看到这块源码, 不太可能知道怎么设置, kind of tricky..
    UInt32 element = (inputNum << 16) | (outputNum & 0x0000FFFF);
    AudioUnitSetParameter(mixer, kMatrixMixerParam_Volume, kAudioUnitScope_Global, element, [sender doubleValue] * .01, 0);
}

1.3 SpatialMixing

SpatialMixing, 如果 input 是单声道的话，则可以配置 3D 坐标和参数，产生 3D 音频的效果；如果是立体声，则会直接混到 ouput 里. SpatialMixing 只有一个 output bus, 它可以有 2, 4, 5, 6, 7 或 8 个 channels.

2. Effect Unit

接下来我们来看一下苹果提供了哪些音效的 unit:

CF_ENUM(UInt32) {
    kAudioUnitSubType_PeakLimiter       = 'lmtr',  //
    kAudioUnitSubType_DynamicsProcessor = 'dcmp',  // 动态的压缩器和扩张器
    kAudioUnitSubType_LowPassFilter     = 'lpas',  // 低通, 设置频率上限, 丢掉高于该频率的部分
    kAudioUnitSubType_HighPassFilter    = 'hpas',  // 高通, 设置频率下限, 丢掉低于该频率的部分
    kAudioUnitSubType_BandPassFilter    = 'bpas',  // 带通, 设置频率范围, 丢掉该范围以外的频率
    kAudioUnitSubType_HighShelfFilter   = 'hshf',  // 实现高音控制
    kAudioUnitSubType_LowShelfFilter    = 'lshf',  // 实现低音控制
    kAudioUnitSubType_ParametricEQ      = 'pmeq',  // 参数 EQ
    kAudioUnitSubType_Distortion        = 'dist',  // 失真
    kAudioUnitSubType_Delay             = 'dely',  // 延迟
    kAudioUnitSubType_SampleDelay       = 'sdly',  // 延迟 (一定数量的采样数)
    kAudioUnitSubType_NBandEQ           = 'nbeq',  // EQ, 根据 band(频率范围) 设置 EQ
    kAudioUnitSubType_Reverb2           = 'rvb2'   // 实现混响效果
};

这些概念大部分都是混音领域的概念，每个种类都做了注释，和技术关系不大，我们这里不做详细介绍了.

注意哦，这里的混音不是把几路音频 mix 一下的概念，形象一点的比喻，就类似对图片进行 ps 处理，突出优点，弱化缺点，最终是要让声音更好听.
感兴趣的同学，可以去 B 站上搜索了解这些混音概念的作用和使用方法，相关内容很丰富.

3. Converter Unit

我们来看最后一个 Converter Unit:

CF_ENUM(UInt32) {
    kAudioUnitSubType_AUConverter        = 'conv',
    kAudioUnitSubType_Varispeed          = 'vari',
    kAudioUnitSubType_DeferredRenderer   = 'defr',
    kAudioUnitSubType_Splitter           = 'splt',
    kAudioUnitSubType_MultiSplitter      = 'mspl',
    kAudioUnitSubType_Merger             = 'merg',
    kAudioUnitSubType_NewTimePitch       = 'nutp',
    kAudioUnitSubType_AUiPodTimeOther    = 'ipto',
    kAudioUnitSubType_RoundTripAAC       = 'raac',
};

iOS 上支持的只有 AUConverter 和 NewTimePitch, AUConverter 用来进行格式的转换，比如输入采样率 44100, 输出希望为 48000. 当 AudioUnit 的输入和输出的格式不一致时，AudioUnit 内部也会使用该 unit 进行自动转换。所以大部分情况下我们都不需要手动去转换. NewTimePitch 是用来修改音调的，可以产生变调不变速的效果，在唱歌场景下很有用途.

4. Generator

Generator, 直译就是生成器，对外结构上，它没有 input scope, 只有 output scope 产生音频数据，有点类似 IO Unit 的 Input bus, 它也是只产生数据 (采集到的声音). 只不过 Generator 主要通过读取文件或者声音片段，再往 output scope 提供数据.

Apple 在 iOS 上提供了两个 Generator:

CF_ENUM(UInt32) {
    kAudioUnitSubType_ScheduledSoundPlayer   = 'sspl',
    kAudioUnitSubType_AudioFilePlayer        = 'afpl'
};

AudioFilePlayer, 顾名思义，就是文件播放器，更确切的叫法应该是 AudioFileReader 比较合适，它负责读取音频文件。适合播放本地的音频文件，比如伴奏等.
ScheduledSoundPlayer, 用来读取音频片段，同时可以指定一个时间点，在这个时间点播放这段音频。相比 AudioFilePlayer 粒度更细.

5. 总结

本文属于《深入理解 AudioUnit》系列的第二篇，主要介绍了 Mixing AudioUnit 的三种类型和结构，详细介绍了他们自己的特点。同时了解了 Effect、Converter、Generator 这几类 AudioUnit.

下一篇我们将会了解到如何把我们了解到的这些 AudioUnit 串联起来，实现一个具体的场景.

深入理解 AudioUnit (一) ~ IO Unit 结构和运行机制

2022-03-12T23:19:41.000Z

Apple 平台上如果涉及到音频采集，很难避开 AudioUnit 这个工具库，AudioUnit 是 Audio Toolbox 下的一套有年头的 C API, 功能相对也比较强大，虽然苹果最近几年推出并逐渐在其基础之后完善了一套 AVAudioUnit 的 OC/Swift 的 API, 但 AudioUnit 依然有很广泛的使用，而且了解这套 C API 也对理解 AVAudioUnit 内部的实现和使用有很大的帮助.

其实里面的概念并不是特别复杂，但是因为文档比较老旧，概念也比较绕，上手并不易。我此前做唱歌和直播 app 相关的工作，对 AudioUnit 使用的也比较多，积累了一些经验，希望能够最大程度地把一些通用的概念和使用方法分享出来。接下来将带大家剖析 AudioUnit 的内部原理和丰富多样的使用方式，如果你在做涉及到声音采集和处理的工作，希望能带大家深入浅出地摸透 AudioUnit.

关于 AudioUnit 的文章是一个系列，我希望能够把之前的经验结合一些实际的场景来介绍，大概分为以下四个部分:

熟悉 IO Unit 结构和运行机制，使用它来进行录制和播放
熟悉其他类型的 AudioUnit, 比如 Mixer, Effect, Converter 等
使用 AUGraph 串联起来 AudioUnit, 以及常用的使用模式
熟悉使用 AVAudioUnit 进行音频采集和播放

本文中我们先来看第一部分.

1. AudioUnit 介绍

如下图，可见 iOS 上所有的音频基础都是基于 AudioUnit 的，比如 AudioToolbox、Media Player, AV Foundation 等都是在 AudioUnit 上做的封装. AudioUnit 本身处理效率非常高，实时性也很强，支持 VoIP 常见下进行回声消除、降噪等处理.

2. IO Unit 的结构

其实 AudioUnit 分为一下几类:

IO Unit: 音频采集和播放，回声消除、降噪等
Effect Unit: 效果器，比如 EQ 均衡器
Mixing Unit: 字面意思，就是 “混音”, 可以 mix 多路输入，产生一路输出
Format Converter: 格式转换器，比如采样率 48000 下采样为 44100, 或者双声道转为单声道等等.

我们首先直接来看 IO Unit, 这是最核心的一个 AudioUnit, 其他的种类将会在后面的篇幅里介绍。我喜欢先说原理，再上代码是示例，这样会比较好理解.

首先，IO Unit 的职责就是负责 音频的采集和播放. 他是通过系统硬件打交道，可以说是封装了硬件的实现，降低我们和硬件打交道的成本。涉及到哪些硬件呢？我们简单地思考一下，采集一定要和麦克风打交道，播放呢，就是听筒或者扬声器.

在介绍 IO Unit 的结构设计之前，我们先想象一下，如果我们来设计实现这个模型，大概是什么样子？可能是这样的:

输入硬件 (麦克风) -> 采集到的原始音频数据 -> 自定义处理音频数据 -> 处理后的音频数据 -> 输出设备 (扬声器 / 听筒)

我们可以将此分为两部分:

输入硬件 (麦克风) -> 采集到的原始音频数据
待播放的音频数据 -> 输出设备 (扬声器 / 听筒)
当然我们拿到了 “采集到的原始音频数据” 之后，就可以自行处理，然后做为 “待播放的音频数据” 塞给输出设备。这个设计基本上不能再精简了。事实上 IO Unit 的设计也是很类似的:

这个图非常重要，初看会有点困惑，我们来看一下每个部分，首先有两个概念需要了解下:

Element, 很多 API 里也用 bus 来表示，这两个词在这里完全等价。我们可以理解为 一节水管. IO Unit 固定有两个 Element.
Scope, 如果 Element 理解为水管的话，这个 Scope 就是 水管的两头 , 每个 Element 固定有两个 Scope, 左侧 Input Scope 是流入口，右侧 Output Scope 是流出口.

这里的 Element 1 是输入水管，因为 1 和 I (Input) 很像，Element 0 表示输出水管，0 和 O (Output) 很像。这样就比较好记了，但是注意，这个约定只在 IO Unit 里起作用。我们分开来看.

Element 1 作为输入水管，左侧 (Input Scope) 固定连接着硬件麦克风，不可改动，右侧 (Output Scope) 是水管的出口，从这里，我们就可以拿到采集到的音频数据.

Element 0 是输出水管，左侧 Input Scope 可以传入要播放的数据，右侧 Output Scope 固定连着扬声器 / 听筒，如果我们想播放什么音频，从 Element 0 的 Input Scope 传入就可以了.

这么看是不是上面我们自己设计的很类似？只是苹果用新增了 Element 和 Scope 的概念。虽然看着两个 Bus 是一体的，其实 Element 0 和 1 是可以独立使用的.

参考下图，从以上我们可以知道，我们可以从 Element 1 的 Output Scope 拿到采集到的音频数据，拿到之后，Application 层就可以对其做任何想做的处理。然后呢，我们可以把要处理后要播放的音频数据塞给 Element 0 的 Input scope, 这样扬声器里就播放这段音频，这样的话，我们耳朵里就听到了录制到的声音，也就实现了耳返监听的功能 (可见耳返在 iOS 上实现非常简单，而且是系统内置支持，延迟很低，Android 上会比较麻烦：软件耳返延迟高，硬件耳返需要单独对接各家手机厂商).

除此之外，Scope 上可以设置很多属性，比如说，设置音频的格式，如果我想采集 48000 的 16 bit float 的数据，那在 Element 1 的 Output Scope 上设置就可以了。同理，我们也需要在 Element 0 的 Input Scope 处设置我们塞过去的数据的格式，这样 Element 0 就知道如何播放了.

前面提到 Element 0 和 Element 1 是相互独立的，也就是说可以只使用其中的一个，或者两个都使用。这也是有实际意义的，比如纯录制场景，只需把采集到的文件保存到文件里，不涉及到播放，或者纯播放场景，想用 AudioUnit 播放一段 mp3 数据.

到此，IO Unit 的结构基本介绍完了。如果有困惑或者疑问的话，欢迎留言讨论.

3. Remote IO (媒体音量) vs VPIO (通话音量)

IO Unit 实际分为两种模式: Remote IO 和 VPIO, Remote IO 就是封装了和硬件的交互，从而实现采集和播放的功能. VPIO 全称是 Voice Processing IO, 它主要用于 VoIP (Voice over IP) 场景，比如音视频通话，它的结构和 Remote IO 结构完全相同，只是多增加了回声消除和降噪的特点.

这里注意一下 VPIO 和 VoIP 的区别，前者是 apple 平台 AudioUnit 里特有的概念，VoIP 是通用概念.

另外圈内会把 Remote IO 接地气地称为 媒体音量 , 把 VPIO 称为 通话音量. 他们的区别有以下几点:

Remote IO (媒体音量) 下因为没有做回声消除和降噪，所以音质非常好，适合播放音乐等高音质的场景。音量条可以向下调整到 0.
VPIO (通话音量) 下有回声消除和降噪，很适合不带耳机通话的场景，避免中间产生回声和啸叫，但代价是对音质有损伤，适合通话的场景。音量调最小只能设置到 1 格，无法调整到 0 格，也可以根据这个特点判断当前属于哪种模式.

Ps: 上面说的调节音量条，都是调节的 播放音量 , 采集音量无法通过硬件调节，可以通过 AudioUnit 的 volume 属性调节.

这里主要介绍 Remote IO, VPIO 很类似，这里不多做介绍，感兴趣的可以查看对应的 API 即可.

接下来我们来实战一下了.

4. 如何从 IO Unit 获取采集到的数据？InputCallback!

通过上面的介绍我们知道，要拿到 IO Unit 的数据，需要从 Element 1 入手. AudioUnit 提供了一个通用的方法，我们问一个 AudioUnit 要数据，可以通过 AudioUnitRender 函数来实现.

OSStatus AudioUnitRender(
    AudioUnit inUnit,
    AudioUnitRenderActionFlags * __nullable ioActionFlags,
    const AudioTimeStamp * inTimeStamp,
    UInt32 inOutputBusNumber,
    UInt32 inNumberFrames,
    AudioBufferList *ioData
) API_AVAILABLE(macos(10.2), ios(2.0), watchos(2.0), tvos(9.0));

这是一个 C 函数，所以 in 开头的表示传入的参数，io 表示既可以是传入的参数，也可能会被内部修改，作为传出的数据。第一个参数是我们向哪个 AudioUnit 要数据，第二个是一个 flags 配置，第三个是时间戳，第四个是 bus number, 即 element number, 对于 IO Unit 采集来说，那肯定是 Element 1 了。第五个参数 NumberFrames 就是音频帧数量，最后一个就是返回的数据，使用 AudioBufferList 来承接。这里我们先有个概念.

我们知道这么获取了，那我们可以设置一个定时器，然后定时去通过 AudioUnitRender 去获取。虽然这是一种方法，但不推荐，AudioUnit 支持设置一个 Input Callback, 告诉我们何时有可用的数据。我们通过设置 Input Callback, 在 Input Callback 里调用 AudioUnitRender 函数获取采集到的数据.

我们来看一个例子，这个例子通过上面说的 InputCallback 和 AudioUnitRender 函数获取音视频数据，然后保存到文件中。代码示例如下，第一次涉及到具体的代码，这里会从从头开始介绍，这段代码是基于 WebRTC 里的实际场景略作修改的.

// 创建 IO Unit, 创建之前, 需要先创建 description, 这是创建 AudioUnit 的标准做法, 还有其他的办法来创建, 后面的部分会介绍
  AudioComponentDescription io_unit_description;
  // Output 表示 IO Unit
  io_unit_description.componentType = kAudioUnitType_Output;
  // subtype 我们设置为 RemoteIO, 如果要 AEC/ANS, 需要设置为 kAudioUnitSubType_VoiceProcessingIO
  io_unit_description.componentSubType = kAudioUnitSubType_RemoteIO;
  io_unit_description.componentManufacturer = kAudioUnitManufacturer_Apple;
  io_unit_description.componentFlags = 0;
  io_unit_description.componentFlagsMask = 0;

  // Obtain an audio unit instance given the description.
  // 通过 desc 获取 AudioUnit
  AudioComponent io_unit_ref =
      AudioComponentFindNext(nullptr, &io_unit_description);

  // 创建一个 Remote IO audio unit.
  if (CheckHasError(AudioComponentInstanceNew(io_unit_ref, &io_unit_),
                    "create io unit")) {
    io_unit_ = nullptr;
    return false;
  }

  // Enable input on the input scope of the input element.
  // 打开 Input Bus, 上面介绍到 Input Bus 和 Output Bus 是独立的, 这里我们只采集, 不播放, 所以只打开 Input Bus.
  UInt32 enable_input = 1;
  if (CheckHasError(AudioUnitSetProperty(io_unit_, kAudioOutputUnitProperty_EnableIO,
                                      kAudioUnitScope_Input, kInputBus, &enable_input,
                                      sizeof(enable_input)),
                 "set Property_EnableIO on inputbus : input scope")) {
    return false;
  }

  // Enable output on the output scope of the output element.
  // 因为只录制, 所以关闭 output
  UInt32 enable_output = 0;
  if (CheckHasError(AudioUnitSetProperty(io_unit_, kAudioOutputUnitProperty_EnableIO,
                                      kAudioUnitScope_Output, kOutputBus,
                                      &enable_output, sizeof(enable_output)),
                 "set Property_EnableIO on kOutputBus : output scope")) {
    return false;
  }

  // Disable AU buffer allocation for the recorder, we allocate our own.
  // TODO(henrika): not sure that it actually saves resource to make this call.
  UInt32 flag = 0;
  if (CheckHasError(AudioUnitSetProperty(
                                      io_unit_, kAudioUnitProperty_ShouldAllocateBuffer,
                                      kAudioUnitScope_Output, kInputBus, &flag, sizeof(flag)),
                 "set Property_ShouldAllocateBuffer on inputbus : output scope")) {
    return false;
  }

// 设置 AudioFormat, 这里 format 不影响理解, 细节暂不展开
// 注意我们设置采集的音频格式, 需要设置在 Input Bus 的 Output Scope, 如果有点困惑, 需要再看一前面的图和介绍.
  AudioStreamBasicDescription format = audio_format_;
  UInt32 size = sizeof(format);
  // Set the format on the output scope of the input element/bus.
  if (CheckHasError(AudioUnitSetProperty(io_unit_, kAudioUnitProperty_StreamFormat, kAudioUnitScope_Output, kInputBus, &format, size),
  "set Property_StreamFormat on inputbus : output scope")) {
    return false;
  }

//   Specify the callback to be called by the I/O thread to us when input audio is available. The recorded samples can then be obtained by calling the AudioUnitRender() method.

  // 这里设置 input callback, 该 callback 是个结构题, input_callback.inputProc 指定一个静态函数, AudioUnit 一旦采集到了数据, 就会调用这个函数通知我们, 然后我们使用 AudioUnitRender 从 IO Unit 中获取采集到的数据
  AURenderCallbackStruct input_callback;
  input_callback.inputProc = OnRecordedDataIsAvailable;
  input_callback.inputProcRefCon = this;
  if (CheckHasError(AudioUnitSetProperty(io_unit_, kAudioOutputUnitProperty_SetInputCallback, kAudioUnitScope_Output, kInputBus, &input_callback, sizeof(input_callback)),
                 "Set input callback on InputBus")) {
    return false;
  }

回调函数的实现:

OSStatus OnRecordedDataIsAvailable(void * inRefCon,
                                   AudioUnitRenderActionFlags *ioActionFlags,
                                   const AudioTimeStamp *inTimeStamp,
                                   UInt32 inBusNumber,
                                   UInt32 inNumberFrames,
                                   AudioBufferList *ioData) {
  samples::AudioUnitRecorder *wrapper = static_cast(inRefCon);

  // 调用 AudioUnitRender 函数索要采集的数据
  // 第一个参数是我们的 ioUnit
  // 最后一个参数需注意, ioData 参数在这里 永远为 null, 所以不能把这个参数直接传给 AudioUnitRender, 需要我们自定义一个 AudioBufferList, 并非配好内存空间之后, 传给 AudioUnitRender, 它会将采集到的数据填充到该 list 中.
  // 其他参数我们直接透传即可
  OSStatus status = CheckErrorStatus(AudioUnitRender(wrapper->io_unit_, ioActionFlags, inTimeStamp, inBusNumber, inNumberFrames, &wrapper->audio_buffer_list_),
                          "AudioUnitRender call");
  if (status == noErr && wrapper->on_record_callback_) {
    // 回调给上层, 上层会把 raw audio data 保存到文件中.
    wrapper->on_record_callback_(wrapper->audio_buffer_list_);
  }
  return status;
}

至此，我们就拿到了采集到的数据。完整版本参考 AudioUnitRecorder

5. 如何塞给 IO Unit 待播放的音频数据？RenderCallback!

根据我们前面介绍的可知，如果要播放音频数据的话，我们需要往 Element 0 的 Input Scope 传递数据，AudioUnit 也给我们提供了另外一个 callback 叫做 RenderCallback, 方法的签名和 InputCallback 一致，不同的是，callback 的最后一个参数是初始化好的，我们可以直接往里写数据即可。代码示例:

...
  // 这里我们需要 enable output
  UInt32 enable_output = 1;
  if (CheckHasError(AudioUnitSetProperty(io_unit_, kAudioOutputUnitProperty_EnableIO, kAudioUnitScope_Output, kOutputBus,  &enable_output, sizeof(enable_output)),
                 "set Property_EnableIO on kOutputBus : output scope")) {
    return false;
  }
...
  // 设置我们传入的音频数据格式
  if (CheckHasError(AudioUnitSetProperty(io_unit_, kAudioUnitProperty_StreamFormat, kAudioUnitScope_Input, kOutputBus, &format, size), "set Property_StreamFormat on outputbus : input scope")) {
    return false;
  }
...

  // Render Callback 是 IO unit 的 outpus 主动回调我们, 索要即将要播放的数据, 我们在这个回调, 我们填充满 ioData, 这部分数据将会被播放出来.
  // 如果想静音的话, flag 需要设置为 kAudioUnitRenderAction_OutputIsSilence, 并且把 ioData 的数据全置为 0.
  AURenderCallbackStruct render_callback;
  render_callback.inputProc = OnAskingForMoreDataForPlayingRenderCallback;
  render_callback.inputProcRefCon = this;
  if (CheckHasError(AudioUnitSetProperty(io_unit_,
        kAudioUnitProperty_SetRenderCallback,
        kAudioUnitScope_Input,
        kOutputBus,
        &render_callback,
        sizeof(render_callback)),
    "set render callback on output bus: input scope")) {
    return false;
  }
...

OnAskingForMoreDataForPlayingRenderCallback 函数的实现:

OSStatus OnAskingForMoreDataForPlayingRenderCallback(
    void * inRefCon,
    AudioUnitRenderActionFlags *ioActionFlags,
    const AudioTimeStamp *inTimeStamp,
    UInt32 inBusNumber,
    UInt32 inNumberFrames,
    AudioBufferList *ioData) {
  AudioUnitPlayer *player = static_cast(inRefCon);
  bool eof = false;
  // 这里内部实现会读取本地 PCM 数据, 并填充到 ioData->mBuffers[0].mData 里.
  player->on_ask_audio_buffer_callback_(ioData->mBuffers[0].mData,
        ioData->mBuffers[0].mDataByteSize, eof);
  if (eof) {
    //...
  }
  return noErr;
}

完整版本参考 AudioUnitPlayer

到这里可以思考一下小问题，如果我们有个需求：录制人声，播送到耳返里，同时保存到本地一份，这个应该这么做呢？

通过 InputCallback 和 AudioUnitRender 拿到采集到的 Buffer
把这段 buffer 缓存起来，当 AudioUnit 的 RenderCallback 回调的时候，把缓存起来的 buffer copy 到 ioData 里
在第二步缓存的同时，写入到本地文件一份

6. 总结

至此，我们的第一部分结束了。我们回顾一下主要内容:

认识到 AudioUnit 在 iOS/macOS 整体音频体系中的位置
熟悉 AudioUnit 中最重要的一个类型 IO unit 的实现结构。它有两个 Element, 0 表示输出 (播放), 1 表示输入 (采集), 相当于两节水管，每个 Element 有两个 Scope, 相当于水管的两头. Element 1 这段水管的源头 (Input Scope) 固定连着麦克风，Element 0 这段水管的尽头 (Output Scope) 固定连接着输出设备 (e.g. 扬声器).
然后我们通过 InputCallback 通知我们，并使用 AudioUnitRender 驱动 Element 1 拿到采集到的音频数据。同时可以通过 AudioUnitRenderCallback 往 Element 0 的 Input Scope 填充待播放的数据.
了解了 RemoteIO 和 VPIO 各自的特点

Ref:

函数指针、函数对象、lambda 表达式、std::function

2022-02-05T00:59:10.000Z

1. 函数指针

函数指针 (Function Pointer) 就是指向函数地址的指针

int Sum(int a, int b) {
return a + b;
}

typedef int(*SumFunc)(int x, int y);

// --------

SumFunc sum = Sum;
std::cout << sum(1, 2) << std::endl;

2. 函数对象

函数对象，也就是 Function Object, 也被称为 Functor，它可以被当作一个函数来调用。通常指重载了 operator() 的类对象。因为它是一个对象，因此它的优势是可以保存一些状态，比如下面的 padding 属性。不过相对函数指针，多增加了一个类的实现，二进制体积也相应地增加。

class SumClass {
public:
SumClass(int padding): padding(padding){}

int operator()(int a, int b) {
return a + b + padding;
}

private:
int padding;
};

// ---------------------

SumClass sumObj(3);
std::cout << sumObj(1, 2) << std::endl;
// 等价于
std::cout << sumObj.operator()(1, 2) << std::endl;

3. `Lambda` 表达式

lambda 表达式内部会创建一个上面所说的函数对象，不过是匿名的，只有编译器知道类名是什么. lambda 可以捕获外部的变量，都会转换为匿名函数对象的属性值来保存.

int padding = 3;
auto sum_lambda = [padding](int a, int b) -> int {
return a + b + padding;
};
std::cout << sum_lambda(1, 2) << std::endl;

我们用 cppinsight 来看一下转换后的代码：

int padding = 3;

class __lambda_11_19
{
  public:
  inline /*constexpr */ int operator()(int a, int b) const
  {
    return (a + b) + padding;
  }

  private:
  int padding;

  public:
  __lambda_11_19(int & _padding)
  : padding{_padding}
  {}
};

__lambda_11_19 sum_lambda = __lambda_11_19{padding};
std::cout.operator<<(sum_lambda.operator()(1, 2)).operator<<(std::endl);

可见，编译器会为我们生成一个类，并创建一个 functor 类 __lambda_11_19，最终调用 functor. 因为 lambda 中值捕获了 padding 参数，因此，该生成类中有一个 private 的 padding 属性。可见跟上面手写的 SumClass 类实现几乎完全一致。

4. `std::function`

C++ 对 std::function 的描述:

Class template std::function is a general-purpose polymorphic function wrapper

Instances of std::function can store, copy, and invoke any CopyConstructible Callable target–functions, lambda expressions, bind expressions, or other function objects, as well as pointers to member functions and pointers to data members

std::function 是一个函数包装器模板，一个 std::function 类型对象可以包装以下类型：

函数指针
类成员函数指针 (如使用 std::bind 传递)
函数对象（定义了 operator() 操作符的类对象）

既然能包装这些类型，也相当于可以从这些类型转换过来:

class TestClass {
public:
  int Sum(int x, int y) {
    return x + y;
  }
};

// ---------------------

// 包装函数指针
std::function<int(int, int)> sum_func_1 = sum;
std::cout << sum_func_1(1, 2) << std::endl;;

// 包装函数对象
std::function<int(int, int)> sum_func_2 = sumObj;
std::cout << sum_func_2(1, 2) << std::endl;;

// 包装 Lambda (即便 capture 了参数)
std::function<int(int, int)> sum_func_3 = sum_lambda;
std::cout << sum_func_3(1, 2) << std::endl;;

// 包装类成员函数指针
TestClass test_obj;
using std::placeholders::_1;
using std::placeholders::_2;
std::function<int(int, int)>  sum_func_4 = std::bind(&TestClass::Sum, &test_obj, _1, _2);
std::cout << sum_func_4(1, 2) << std::endl;;

5. 相互转换

4 中提到的都可以转换为 std::function
没有什么可以直接转换为 lambda
一个没有捕获变量的 lambda 函数，可以显式转换成函数指针：

// lambda without capturing any value -> function ptr
SumFunc func_ptr = [/*padding (error) */](int x, int y) -> int {
  return x + y;
};
std::cout << func_ptr(1, 2) << std::endl;;

WWDC 21 - 探索使用 VideoToolbox 进行低延迟视频编码

2021-07-01T09:44:26.000Z

低延迟编码对于很多视频 app 来说都很重要，特别是对实时音视频场景。苹果在 WWDC 2021 在 VideoToolbox 里推出了一种新的低延迟编码模式。低延迟编码模式的主要目的是为实时通讯场景优化现有的编码流程。

低延迟视频编码有以下的特点，从而对一个实时视频通讯 app 进行优化。

处理效率高，最小化端到端的延迟
新增两种 profile: CBP & CHP，增强互操作性
引入时域伸缩编码 (Temporal Scalability)，当会话中有多个参与者的时候，提供高效的编码流程
支持设置最大帧量化参数 (Max Frame QP)，展示最好的视频质量
引入长期参考帧 LTR，提供一个可靠的机制从网络丢包错误中恢复通讯

1. 低延迟视频编码一览

下图是苹果平台上视频编码管线的简图：

CVImageBuffer 里包含的是从摄像头采集到的原始图片，作为输入传递给 VideoToolbox
然后 VideoToolbox 把原始图片交给 Video Encoder 进行压缩编码 (比如 H.264) 来降低视频体积
压缩编码之后的视频数据被包在 CMSampleBuffer 里，接着通过网络传输到服务器或者 CDN 上

从这个图上我们可以知道，端到端延迟可能会受两方面的影响：编码处理时间 和 网络传输时间，为了最小化处理时间，低延迟模式去掉了帧冲排序（frame reordering，移除 B 帧），遵循一帧进，一帧出的编码模式。此外，这种模式下，码率控制器对网络变化的感知更加敏感，能更快速的响应，这样也能最小化由网络拥塞带来的延迟。在这两个优化的加持下，对比默认模式，低延迟模式有着明显的提升，能够在 720P 30fps 的视频中最多减少 100ms 的延迟。在视频会议中，节省出来 100ms 延迟至关重要。

低延迟模式下总是会使用硬编来节省电量，需要留意的是，此模式下只支持 H.264 编码，支持 iOS 和 macOS 双平台.

2. 如何开启 VideoToolbox 低延迟模式？

我们先来看一下，此前我们是如果使用 VideoToolbox 进行视频帧编码的。

首先创建一个 VTCompressionSession
使用 VTSessionSetProperty 配置 Session
调用 VTCompressionSessionEncodeFrame，传入 CVImageBuffer 编码视频帧，从 outputHandler 里取出编码后的结果数据

如何开启低延迟模式呢？很简单，只涉及到创建 Session 这一阶段，设置 kVTVideoEncoderSpecification_EnableLowLatencyRateControl 属性为 true 即可。代码如下：

CFMutableDictionaryRef encoderSpecification =
            CFDictionaryCreateMutable(kCFAllocatorDefault, 0, NULL, NULL);

//配置encoderSpecification，开启低延迟模式
CFDictionarySetValue(encoderSpecification,
                     kVTVideoEncoderSpecification_EnableLowLatencyRateControl,
                     kCFBooleanTrue)

VTCompressionSessionRef compressionSession;

//创建 VTCompressionSession，传入 encoderSpecification
OSStatus err = VTCompressionSessionCreate(kCFAllocatorDefault,
                                          width,
                                          height,
                                          kCMVideoCodecType_H264,
                                          encoderSpecification,
                                          NULL,
                                          NULL,
                                          outputHandler,
                                          NULL,
                                          &compressionSession);

创建完 VTCompressionSession 之后，还可以通过配置 kVTCompressionPropertyKey_AverageBitRate 控制编码的码率。

3. 低延迟模式的新特性

3.1 互操作性，引入 2 个新的 Profile

Profile 定义了一组编码器支持的编码算法，为了能够和接收方进行通讯，发送方的编码后的比特流须顺从接收方的支持解码器支持的 profile. 目前 VideoToolbox 支持三种 profile：

Baseline profile
Main profile
High profile

从上到下，算法越来越复杂，编码时间越长，压缩比越高。

今天新增了两种 profile 进来：

Constrainted baseline profile (CBP), 主要用于低能耗场景
Constrainted high Profile (CHP)，有着更先进的算法，提供更好的压缩比

可以简单地通过设置 Session 的 ProfileLevel 属性为 ContrainedBaseLine_AutoLevel 来申请使用 CBP，同理，设置为 ContrainedHigh_AutoLevel 申请使用 CHP，参考代码如下：

// Request CBP

VTSessionSetProperty(compressionSession,
                     kVTCompressionPropertyKey_ProfileLevel,
                     kVTProfileLevel_H264_ConstrainedBaseline_AutoLevel);

// Request CHP

VTSessionSetProperty(compressionSession,
                     kVTCompressionPropertyKey_ProfileLevel,
                     kVTProfileLevel_H264_ConstrainedHigh_AutoLevel);

3.2 时域可伸缩性（temporal scalability）

在开始之前，先简单介绍一下 SVC（Scalable Video Coding），SVC 是 H.264 标准的一部分 (Annex G)，SVC 分为两类，时域可伸缩编码 和 空域可伸缩编码。

时域可伸缩编码主要通过调节视频帧率，在基础层帧率和增强层帧率之间提供可伸缩性。空域可伸缩编码是可以把视频按不同分辨率进行分层，基础层是低分辨率图像，增强层提供更高的分辨率，在不同的分辨率之间提供可伸缩性。

OpenH264 目前是支持 SVC 的，X264 还不支持，这次苹果在 VideoToolbox 引入的就是 SVC 里的时域可伸缩编码，这对苹果生态平台上视频领域来说，是很关键的一项技术支持。

考虑一个这样的三方视频通话场景，接受者 A 只有 600kbps 的带宽，接受者 B 有 1000kbps 的带宽。那么正常情况下为了满足接收者的下行带宽，发送者需要编码两路流，一路低码率，发给 A，另外一路高码率，发送给 B。但这样不并不是最优解。

这种场景下，时域伸缩可以更高效。发送者只需要编码一路流，然后分为两层来使用。

这是怎么做到的呢？我们来一步一步看。下图是一组编码后的视频帧，每一帧都饮用亲一帧作为参考帧。

然后我们从中抽取一般的帧，放到第二层里，然后修改参考帧，只有第一层的帧能作为预测参考帧。我们称第一层为基础层（Base Layer），第二层为增强层（Enhancement Layer），Enhancement Layer 作为 Base layer 的增补，可以提高帧率。

我们再回到刚才的问题，发送者可以只发送 Base Layer 数据给 A，因为 Base layer 本身是自洽可解码的。而且因为只有一半的视频帧，所以整体码率也会较低。

对于 B，因为他有更高的带宽，发送者可以把 Base Layer 和 Enhancement Layer 的数据都发给他。这样 B 就能享受更丝滑的视频体验。

此处（10:00)，演讲者分享了两段自己录制的视频，一段是只有 Base Layer 的视频，可以看出第一段有一些顿挫感，不过也是可以接受的。第二段是完整 Layer 的视频，有更高的帧率，观看体验确实更顺滑。

第一段帧率只有完整帧率的一半，码率占完整的 60%，这两段视频只需要编码器编码一次，在多方视频会议场景下，性能上能带来很大的提升。

时域伸缩的另外一个好处是错误恢复能力，因为所有的 Enhancement Layer 的帧都不会用于预测参考帧，就是说没有其他帧依赖他们。也就意味着即便这些帧在网络传输中因为一些原因丢掉了，其他帧也不会受影响，这会使整体视频会议的鲁棒性更高。

如何开始时域伸缩呢？苹果新增了一个几个 property：

创建 Session 时，通过 kVTCompressionPropertyKey_BaseLayerFrameRateFraction 设置 Base Layer 帧率占比，剩余的帧率会留给 Enhancement Layer
通过检查 SampleBuffer 的 CMSampleAttachmentKey_IsDependedOnByOthers 来检查 layer 的信息，如果是 Base Layer 的视频帧，取到的值为 true，Enhancement Layer 为 false
前面提到过使用 kVTCompressionPropertyKey_AverageBitRate 来设置总体目标码率，设置完之后，可以通过 kVTCompressionPropertyKey_BaseLayerBitRateFraction 设置 Base Layer 的码率占比，默认为 0.6，也就是 60% 的码率分配给 Base Layer，苹果建议该值设置在 [0.6, 0.8] 范围。

3.3 `最大帧量化参数` (Max frame `quantization parameter`)

量化参数，简称 QP，用来调节图片质量和码率的。低 QP 会生成高清晰度的图片，图片的大小会比较大。反过来高 QP 会带来低质量，体积更小的图片。

低延迟模式下，编码器会综合考虑图片复杂度、输入帧率、视频运动等因素来调整 QP，从而在目标码率的限制下，编码出最高质量的图片。苹果鼓励在这方面依赖编码器的默认行为。

有些场景下，客户有视频质量有指定的诉求，这个时候可以通过控制最大帧量化参数来实现。编码器总是选择比最大 QP 小的值，所以客户可以细粒度的控制画面的清晰度。需要注意的是，此时码率控制器依然起着作用，当在编码器顶着最大 QP 的上限，码率却依然不够用的情况下，它会选择丢帧来维持目标码率。

这有一个能排上用场的例子，比如在弱网下要传输远程桌面视频，我们希望通过牺牲帧率来实现获得更清晰的画质。设置最大 QP 可以满足这个需求。

引入了 kVTCompressionPropertyKey_MaxAllowedFrameQP 来支持设置最大 QP，该值决定着此后所有编码帧的 QP 上限。根据标准，Max QP 的取值范围是 [1, 51].

3.4 引入 `长期参考帧LTF`, 提高错误恢复能力

LTF 是 long-term reference 的缩写，主要用于错误恢复。

假设在弱网下进行着一场视频会议，如图，图中有三类参与者，编码器、发送端、接受端。当网络传输错误时可能会丢帧，当接受端检测到丢帧后，它会向发送端请求一个刷新帧以重置会话。编码器接收到请求之后，通常它会考虑到刷新的目的，编码出一个关键帧，而关键帧比较大，在弱网下会花费更长的时间才能到接受端，这可能会加重网络拥塞问题。

所以我们能否提供一个预测帧代替关键帧来实现刷新的目的？如果我们有帧级别的 ack 的话，就可以实现。

首先，我们要确定哪些帧需要对方 ack 确认，这些帧我们称之为 LTR 帧，决定权归属编码器。当发送端发送一个 LTR 帧后，它需要向接受端请求 ack 确认消息。当接受端收到 LTR 帧后，它就需要向发送端发回一个 ack 确认消息。一旦发送端收到 ack 之后，它就传递给编码器，编码器就知道了接受端已经收到了哪些 LTR 帧。

在这个基础上，我们再看一下刚才弱网下的问题。

当编码器收到刷新请求后，因为此时编码器已经有一些已经确认的 LTR，所以编码可以可以从这些 LTR 中预测编码出一帧，这样编码出来的帧我们称之为 LTR-P 帧。通常 LTR-P 帧比关键帧要小很多，所以它也更容易被传输。

现在我们看看 LRT 的 API 支持。需要注意的是，发送端和接受端之间的帧 ack 确认需要在应用层处理，可以通过一些机制来实现，比如 RTCP 协议的 RPSI 消息（RPSI 全称是 Reference Picture Selection Indication ）。

这次我们主要关注编码器和发送端在这个过程中如何交互。一旦启用了低延迟编码，就可以通过设置 kVTCompressionPropertyKey_EnableLTR 来开启 LTR.

当编码出一帧 LTR 后，编码器会在 SampleBuffer 的 kVTSampleAttachmentKey_RequireLTRAcknowledgementToken 里存放一个唯一的 frame token 值（蓝色箭头）。然后发送端能从 SampleBuffer 里拿到 LTR ack token，通过前面提到的应用层机制，发送给接受端，接受端收到之后，把 ack 的 token 发回发送端。

发送端负责把接收端 ack 的 LTR 帧报告给编码器（绿色箭头），对应的 API 是 kVTEncodeFrameOptionKey_AcknowledgedLTRTokens 帧属性。因为可能一次会有多个 ack，所以这里需要一个数组来存储这些 token。

可以随时通过 kVTEncodeFrameOptionKey_ForceLTRRefresh 帧属性来请求一个刷新帧，一旦编码器收到请求，就会根据之前已 ack 的 LTR 帧预测编码出一个 LTR-P 帧，如果没有可用的 LTR 帧供预测参考，编码器会 fallback 到原来的机制，生成一个关键帧。

4. 回顾

VideoToolbox 引入了低延迟模式，通过 VTCompressionSession API 开启低延迟模式
低延迟模式的特性
1. 处理效率高，延迟低
2. 新增两种 profile: CBP & CHP
3. 时域伸缩性
4. 最大帧量化参数
5. 长期参考帧 Long-term refernece

我的博客即将同步至腾讯云 + 社区，邀请大家一同入驻：https://cloud.tencent.com/developer/support-plan?invite_code=1hiagj0e99blg

WWDC 21 - 使用 AVQT 评估视频质量

2021-06-30T22:08:00.000Z

REF: WWDC 2021 - Evaluate videos whith the Advanced Video Quality Tool

AVQT 是 Advanced Video Quality Tool 的缩写，是苹果在 WWDC 21 上推出的一款评估 ** 视频感知质量 ** 的工具。

一、背景介绍（非 WWDC 内容）

1.1 视频质量评估的现状

在正式开始之前，我想跟大家科普几个概念和行业现状，这些对理解本次的内容很有帮助。

视频质量评估是个老话题了，主流的分为下面几类：

主观评测，也就是人工评估，准确率高，但成本大，难规模化
客观评测，纯依靠算法，比如 PSNR（Peak Signal-to-Noise Ratio 峰值信噪比），SSIM（Structural SIMilarity 结构相似性），准确率低，成本小，容易规模化
感知质量评测，代表是 Netflix 的 VMAF，VMAF 是基于机器学习算法，根据人工的识别结果训练模型，目的是要模拟真人评测，结果上达到接近人工评估的准确度，这也是 “感知” 一词的含义。优点是准确率高，也容易规模化。我们今天要聊的 AVQT 也属于此类。

还有一种分类是有源评估和无源评估，有源评估顾名思义，需要有参考源，比如有一个未压缩的超清 Raw 视频，它作为参考源，然后在进行处理编码之后，变成一个低分辨率、低码率的的视频，这个作为评估的对象，对比参考源视频，打出分数。感知质量评测的工具都属于有源评估范畴，即需要参考源来进行评估打分。

1.2 应用场景

那么视频质量评估有哪些应用场景呢？我了解到的有以下几类，供大家参考。

(1) 视频分发流程

在分发视频的时候，从用户体验和成本来考虑，希望在码率和清晰度之间，找到一个比较好的平衡点，那么清晰度这个就需要有个量化的标准，需要有工具能够得到一个相对可信的量化指标

(2) 编码器的研发

编码器算法的研发，也是要平衡清晰度、编码速度、编码效率（压缩率）等诸多因素，希望在清晰度一定，编码速度一定的情况下，编码效率（压缩率）尽可能高，也就是编出出来的码率尽可能低。所以它也需要有一个对视频清晰度进行量化的工具。

二、AVQT 是什么？

我们先来看一个视频分发流程：

采集到高质量原始视频
进行下采样（修改分辨率）和压缩（编码）
把得到的编码后的数据，通过 CDN 下发给终端用户

下采样和压缩过程会对损伤原视频画质，会造成类似马赛克的块或者模糊等伪像，如图：

为了提高用户体验，我们肯定不希望出现类似上述的问题，那么就需要一个工具，对展示给用户的视频进行评估。前面提到，人工评估的方式最准确，但是处理速度慢，成本高，而且无法自动化和规模化。

针对此问题，苹果推出了 AVQT，下面是 AVQT 的工作流程：

AVQT 的输入是源视频，以及压缩后的视频
经过 AVQT 的处理，对压缩后的视频进行评估，输出打分（0-5）

AVQT 是：

一个 macOS 命令行工具，现在已经可以体验
模拟真人对视频质量进行打分
AVQT 支持帧级别，以及段级别的打分（一段一般是 6 秒，可配置）
支持基于 AVFoundation 的所有视频格式，包括 SDR/HDR/HDR 10/HLG 以及 Dolby Vision

三、AVQT 的特点

`特点1. 感知对齐，AVQT预测和人类主观评估高相关`

AVQT 支持跨多种内容类型（动画、自然景观、运动场景），PSNR/SSIM 在这方面表现不佳

对比下面两张图片，第一个是高清的运动场景，PSNR 和 AVQT 的分数都很高。第二张人物场景，脸部轮廓细节缺失，AVQT 的分数降低到了 2.49，属于低质量，但是 PSNR 的分数还是 35.2。这里 AVQT 的分数更准确。（这里我没有放源图片）

为了测试准确性，针对公开的测试集，对视频的多种组合进行了测试，这些测试集包含源视频、压缩后的视频、人工的打分。下面是 Waterloo IVC 4K 以及 VQEG HD3 两个测试数据集：

为了客观地衡量视频质量指标的性能，我们使用了相关性和相似距离度量。

PCC(Pearson Correlation Coeffiectent) 衡量线性相关度，也就是预测值和人工打分值的相关性，PCC 越高相关性越高，越高越好。
RMSE(Root Mean Square Error) 均方根误差，衡量预测值和人工打分的差距。值越低说明预测的越准确。

横轴是人工打分，纵轴是 AVQT 的预测值，每个点代表一个压缩的视频打分，从图上来看，在 Waterloo IVC 4K 测试集上，AVQT 和人工打分非常的接近，PCC 高达 0.9，RMSE 低至 0.54

VQEG HD3 测试集上，AVQT 表现的更加优秀。

`特点2. 计算速度快`

高计算速度是可规模化的一个至关重要的条件，AVQT 的算法为 Metal 做了设计和优化，也就是说可以非常快地处理大量的视频。而且不需要额外处理，不需要解码，AVQT 会自动处理。

AVQT 可以每秒处理 175 帧 1080p 的视频，如果有一个 10 分钟的 1080p，24fps 的视频，不到 1 分半钟就能处理完。（狡猾的是，苹果没提测试设备的硬件配置）

`特点3. 观察设置感知（Viewing setup aware）`

观察设置是指观察者距离、显示器大小、显示分辨率等条件，这些对主观视频质量是有影响的。因此，AVQT 支持把这些条件的参数值作为输入，对感知视频质量进行预测。

比如，有两个场景，A 场景观看者距离显示器 1.5 倍屏高的距离观看 4K 视频，B 场景观看者距离 3 倍屏高的距离观看同样的 4K 视频，那么很明显 B 场景下，因为距离远，一些躁点看不太清楚了，主观打分就更高。

AVQT 的表现也符合主观评测，距离越远，分数越高，最终会趋同。

1）安装 AVQT 命令行工具，下载地址

2）使用 AVQT 工具进行打分，提供参考源视频，以及压缩后的视频，输出打分，默认 csv 格式

1	AVQT --reference sample_ref.mov --test sample_compressed.mov --output sample_output.csv

这里我自己实验了一下。从这里下载 Waterloo IVC 4K Video 公开的测试数据集进行测试。这里我选择了 H264 这个数据集里名字为 20 的文件夹。
我们选择以下几个视频文件进行测试：

视频类型	视频名称	分辨率	码率	帧率
源 / 参考视频	3840x2160_4.mp4	3840x2160	4548 kbps	30
测试视频 1	960x540_1.mp4	960x540	359 kbps	30
测试视频 2	960x540_4.mp4	960x540	3798 kbps	30

960x540_1 抽帧截图：

960x540_4 抽帧截图：

从上表和上图能看到 960x540_4 码率是 960x540_1 码率的 10 倍，主观上也确实清晰很多。

我们使用 AVQT 以及 PSNR (使用 --metrics AVQT PSNR 参数) 都进行评估一下：

>  AVQT --reference 3840x2160_4.mp4 --test 960x540_1.mp4 --metrics AVQT PSNR --output 549p1_all.csv

Segment[1]: AVQT: 1.58, PSNR: 24.94
Segment[2]: AVQT: 1.67, PSNR: 25.18

Results file: 549p1_all.csv

> AVQT --reference 3840x2160_4.mp4 --test 960x540_4.mp4 --metrics AVQT PSNR --output 549p4_all.csv

Segment[1]: AVQT: 3.87, PSNR: 28.31
Segment[2]: AVQT: 3.86, PSNR: 28.39

Results file: 549p4_all.csv

结果:

视频	AVQT 平均分数	PSNR 平均分数
960x540_1.mp4	1.62	25.06
960x540_4.mp4	3.86	28.3

AVQT 的分数差了一倍多，和实际的观看类似，PSNR 只差了 3 分，也就是认为是接近的，误差挺大.

输出的 csv 里包含每一帧的打分，以及每一段的打分，一段默认是 6 秒:

> cat 549p4_all.csv
Advanced Video Quality Tool (AVQT) - CLI
Version: 1.0.0
Test file: 960x540_4.mp4
Reference file: 3840x2160_4.mp4
Segment Duration: 6.0
Temporal Pooling: ArithmeticMean
Display Width: 1920
Display Height: 1080
Viewing Distance: 3.0
Frame Index,AVQT,PSNR
1,3.75,28.24
2,3.84,28.24
3,3.80,28.01
4,3.83,28.12
5,3.96,28.22
6,3.82,28.37
7,3.78,28.15
8,4.01,28.57
9,3.74,27.96
...
296,3.79,28.52
297,3.70,28.37
298,3.77,28.54
299,3.68,28.32
300,3.64,28.25
Segment Index,AVQT,PSNR
1,3.87,28.31
2,3.86,28.39

3）调整参数，自定义评估条件

比如：（更多的参数可以通过 AVQT -h 来查看）

metrics: 除了 AVQT，还支持输出 PSNR MSE 等预测值
segment-duration: 自定义段大小，默认是 6 秒
temporal-pooling: 聚合每帧打分的算法，默认算数平方值，支持 HarmonicMean, Worst10%, Worst90%, Best10%, Best90%
output-format: 输出格式，默认 CSV，支持 JSON
viewing-distance: 观察者距离，单位是屏幕高度，比如 1.5H, 3H, 4.5H, 6H，默认 3H，表示距离 3 * 屏幕高度的距离观看
display-resolution: 显示的分辨率，默认 1920x1080，支持: 6016x3384, 5120x2880, 3840x2160, 2560x1440, 1920x1080, 3384x6016, 2880x5120, 2160x3840, 1440x2560, 1080x1920

五、使用 AVQT 优化和选择码率

选择正确的码率很具挑战性，为了帮助选择合适的码率，苹果为 HLS 创作规范发布了一些码率的指南，作为对应分辨率下的码率初始值。

我们知道，不同的视频内容有着不同的编码复杂度，所以不同的内容所需的码率也是有差异的。苹果建议在此基础上，根据 AVQT 的打分作为反馈，不断对码率进行上调 / 下调。

六、回顾

视频编码对视频质量会有牺牲，会产生一些伪影
使用 AVQT 评估你们的视频感知质量
- macOS 命令行工具
- 计算速度快，支持查看设置感知
- 支持基于 AVFoundation 的所有格式
使用 AVQT 来优化 HLS 层的质量

Xcode Cloud Notes

2021-06-08T23:17:12.000Z

Xcode Cloud 是什么？

Xcode Cloud 是一个搭建在苹果的开发工具链之上的 CI/CD 系统，和苹果的 Xcode、TestFlight 以及 App Store Connect 整个开发工具和生态进行打通。Xcode Cloud 使用 Git 作为项目的代码管理工具，通过 CI/CD，帮助开发者打造更高质量、更稳定的 app。从 Xcode 13 版本开始支持，目前在 beta 阶段，免费限量内测申请，2022 年对所有人开放，具体价格待公布。

Xcode Cloud 能做什么？

自动构建和运行测试
自动在模拟器里运行测试程序
接收 Xcode Cloud 返回的构建结果通知，提前发现问题
通过 TestFlight 分发新版本给测试用户
创建供苹果审核的新版本
使用 Xcode 和苹果的云基础设施协同开发

CI / Automated Building and Testing

通常的开发流程是这样的，编码、build 整个工程，在模拟器或者测试机上验证修改。也可能会包括运行一下基于 XCTest 的单元测试，甚至集成测试、性能测试以及 UI 交互测试。

有了 Xcode Cloud ，开发者可以花费更少的时间，在多个模拟设备上构建、运行和测试自己的项目

在跑完这个流程之后，Xcode Cloud 会已邮件的方式通知开发者，帮助开发者提前发现问题。

CD

当 Xcode Cloud 构建并验证完一个代码改动（CI）之后，它可以自动第提交一个 beta 版本到 TestFlight，或者直接提交一个 release 版本到 App Store 供审核，这个过程我们称之为 CD.

这一步对开发者来说方便了很多，凡是有过打包上传到 App Store 的朋友可能都遇到过类似的困扰，打包完上传过程非常漫长，有时候尝试多次，甚至科学上网才能传的上去。有了 Xcode Cloud 之后，一方面这个过程直接在苹果的的 server 上去做，应该能快很多，另一方面无人值守，节省了了人力成本。

使用 Xcode Cloud 需要满足哪些条件？

开发者账号要求
1. 必须加入了苹果开发者计划
2. Xcode 里登录上开发者 Apple ID
3. App Store Connect 里有一个 app record. 创建 app record 需要有 Manager/Admin/Account Holder 的权限
工程设置
1. 必须使用 Xcode project 或者 workspace
2. 必须使用 shared schemes
3. Scheme 里的 build 选项里勾选上 archive 选项
4. 必须使用 Xcode 10 以后的新构建系统
5. 依赖和第三方库必须对 Xcode Cloud 可用，支持 CocoaPods 和 Carthage (see more)
6. 必须启用了自动签名
代码管理要求
Xcode Cloud 支持以下的 SCM 提供商：
1. Bitbucket Cloud and Bitbucket Server.
2. GitHub and GitHub Enterprise.
3. GitLab and self-managed GitLab instances.

Ref:

Karabiner-Elements 之介绍和使用（part 1）

2021-04-08T01:27:10.000Z

什么是 Karabiner-Elements ？

Karabiner-Elements （下面我们简称为 Karabiner）官网对自己的描述是 “A powerful and stable keyboard customizer for macOS.”，我使用下来的感受是 Karabiner-Elements 是 macOS 平台上一款非常强大的键位映射工具，没有吹嘘的成分，买家秀和卖家秀是一样的。

这个介绍我会分为两个部分：

part1 介绍 Karabiner 的核心功能，以及我自己使用 Karabiner 帮助我高效使用键盘的一个思路，不涉及具体的配置
part2 根据实例详细介绍使用 Karabiner 高级映射的配置和高级用法，满足一些高级自定义的需求

下面我尽量使用通俗易懂的语言来表达，简单来划分 Karabiner 核心功能的话，Karabiner 可以分为 简单修改（Simple modifications）和 复杂修改（Complex modifications），我更倾向于称之为 简单映射 和 高级映射。

简单映射

简单映射 其实就是 一对一 的键位映射关系，比如很多因为 Caps lock 键的位置非常好，但是又不经常用，所以喜欢把 Caps lock 映射到 Control 上，当按下 Caps lock 键的时候，实际触发的是 Control 键，非常方便。（这也是 HHKB 默认把 Left Control 放到 Caps lock 位置的一个原因吧）

这么简单的修改，肯定很多朋友会说，那我在 macOS 系统的 Preferences 里也可以修改啊：

Karabiner 的简单映射能做的远不止这些，除了支持 Control/Cmd/Shift/Option 等这些修饰键，还有以下 macOS 系统不支持的功能：

支持所有的按键的映射，可以精确区分左右侧的功能键，比如 left control/ right control 可以映射到不同的键位上，支持所有字母、数字、f1-fn、媒体键、方向键
甚至支持鼠标按键以及各类侧键 (button4,button5) 的映射
支持根据不同的硬件设备（Target device）进行不同的映射，比如我的 HHKB 和 KeyChron K6，或者 MBP 自带键盘都可以根据实际需要，使用不同的映射策略

高级映射

简单映射是一对一的映射，那么高级映射，泛指可以支持一对多的映射，外加条件映射的高级复杂映射。我们还是拿个简单的例子，很多朋友喜欢把 Caps lock 键映射为 Hyper 键，Hyper 一般是采用 Control+Cmd+Option+Shift 四个键的组合。这样，当我按 Hyper + C 的时候，相当于按下了 Control+Cmd+Option+Shift + C，使用 Hyper 键的好处是，很难和其他的内置的 hotkey 冲突，因为基本上不会有 app 内置这么复杂的 hotkey。

PS: 我的 Hyper key 是实用 fn 键实现的，相比 Control+Cmd+Option+Shift 有诸多的好处，后面会详细解释。

另外复杂映射，不像简单映射在 UI 简单选择一下即可使用，而是需要编辑一个 json 配置文件，它有自己的配置格式，按照文档约定的属性进行配置即可。

因为本文主要是想跟大家分享一些思路，这里不会太涉及到配置文件的设置。大家看完之后，可以参考我的配置文件或者网上分享的配置文件，也可以去官网查看详细的文档。

再比如，习惯了在 Vim 中使用 hjkl 的朋友，想在其他非 Vim 环境下也使用类似功能的话，也可以使用 Karabiner 间接的实现，需要下面几步：

把 Caps lock 键映射到 hyper 键上
把 hyper+h 映射到 left_arrow 左方向键上
同理，把 hyper+j/k/l 分别映射到下 / 上 / 右方向键上

这样，当我们按下 Caps lock + h/j/k/l 时候，就相当于按下方向键了。

再举个例子，比如不同的编辑器或 app 下（比如 VSCode 和 Xcode）的 跳转到上一处修改 / 下一处的修改 是不一样的，如果希望这些体验是一致的，我们可以针对不同的 app 进行单独配置。

App / 前进后退键	前进	后退
Xcode	Control + Cmd + ->	Control + Cmd + <-
VSCode/Chrome	Cmd + ]	Cmd + [

当然还有一些其他的 IDE 或者 app 也有类似的功能，我们想把他们的体验统一起来，那么我们可以这么做：

针对 Xcode app，把 Hyper + ] 映射为 Control + Cmd + ->，把 Hyper + ] 映射为 Control + Cmd + <-
针对 VSCode/Chrome，我们把 Hyper + ] 映射为 Cmd + ]，把 Hyper + ] 映射为 Cmd + [

我使用 Karabiner 解决了我的哪些困扰？

Caps lock 键映射到 Hyper 键，要注意的是
1. 为保持操作统一，HHKB 下需要把 Left Control 映射到 Hyper 键，Karabiner 支持根据不同设备，映射到不同按键上
2. 我们需要个 Hyper 键的原因是，我们在自定义一些键位的时候，使用 Hyper 键进行修饰，不容易和系统以及 app 内置的热键冲突，这个是基础。
常用的 VIM 导航键的设置，包括：
1. hyper + h/j/k/l 方向导航键，每次前后移动一个字符，上下移动一行
2. hyper + y/p 向后 / 前移动一个 word，这里和 Vim 的体验并不同，只是我个人的习惯
3. hyper + d/u 向下 / 上移动 15 行（具体行数可以自定义）
4. hyper + o 在下面插入一个空行
替代 Control 的一些组合键，如果我是用的 HHKB 的话，相当于把 Control 键映射到了 Hyper 键，那么之前经常使用的一些组合键，比如 Control+a/e 跳转到行首 / 行尾等就很难按出来了，所以我这里我给常用的一些 Control 作为修饰键的组合键提供了一些映射：
1. Hyper + a/e => Control + a/e
2. Hyper + c/b/r => Control + c/b/r (中止命令执行，tmux，iterm2 搜索）
一些方便的操作
1. Hyper + i => delete，主要原因是我有几个不同的键盘，HHKB 和 Keychron K6 的 delete 键位置不太一样，导致我很容易按错。所以我就想着把他们统一到一个位置上，选择 i 键的原因是它在右手食指上方，很容易按。为了习惯它，我一度把 delete 键本身给映射到一个空键上，强迫自己习惯使用 hyper+i 键做删除。
2. Hyper + w 删除当前光标所在位置的单词 / 词组，类似 Vim 里的 diw（delete in word），不管光标位置在当前单词 / 词组的哪个位置，都可以直接删掉整个单词，很多时候还是挺好用的。
输入法切换，MBP 内置键盘上 Caps Lock 键可以切换输入法，映射到 Hyper 之后就没有一个比较舒服的切换输入法的按键了。另外一个切换的时候，我还需要清楚当前是什么输入法，将要切换到什么输入法。有没有办法可以直接切换到某一个输入法呢？Karabiner 考虑到了这个问题（可能是 Karabiner 的作者是个日本人，也有在英文和本土语言输入法之间切换的烦恼），我是这么映射的：
1. Hyper + < 切换到英文输入法
2. Hyper + > 切换到中文输入法
  这样的话，我就不需要记录当前是什么输入法，我只需要关心我接下来希望使用什么舒服法就行了。不过这两个按键，我现在还没形成肌肉记忆
使用连续按键，打开常用的 app，比如：
1. o，x 打开 / 唤起 Xcode
2. o，g 打开 / 唤起 Google Chrome
3. o，i 打开 / 唤起 iTerm2
4. o，t 打开 / 唤起 Tower
5. 等等。。
  所谓连续按键，比如 o，a 就是按完 o 之后马上按 a，就可以触发打开 Xcode 的命令

以上问题的思路，都会考虑到可能会使用到多个不同的键盘的 case，并保证体验是一致的，不会出现换个键盘，还需要重新熟悉键位的尴尬情况。

为什么我选择使用 fn 键作为 Hyper 键，而不是 Control+Command+Option+Shift？

在这之前，我们先聊一下什么是修饰键（modifier keys），所谓修饰键就是可以和其他按键一起按，达到一个组合键的目的。macOS 上，精确地说，有以下这些修饰键：

left_command, right_command
left_control, right_control
left_option, right_option
left_shift, right_shift
caps_lock
fn

比如，我可以按 left_command+c 进行复制，但是不能定义 6+c 来执行一个操作，因为 6 和 c 都是非修饰键，起不到同时按到达组和键的目的。

接着我们要明确我们需要 Hyper 键的目的，它主要是作为我们常用自定义按键的通用修饰键，而且这个键需要不经常使用，从而不会和内置的系统热键，或者一些 app 的内置热键冲突。所以 hyper 键只能是这里面的其中某一个，或者他们的组合。

Control+Command+Option+Shift 是一个很好的 Hyper 的候选，我搜索了一下，非常多的朋友在使用。不过他有个问题是，它直接用尽了 Control+Command+Option+Shift 四个修饰键，没有再使用这四个按键的某一个作为增补修饰键的可能。举个例子，我上面定义了 hyper+h 映射到左方向键，那么如果我想往左边选择的时候，会下意识地会再加一个 Shift 键，但是发现没有起作用，因为 Hyper 里已经使用了 Shift，再次按下 Shift 并不会执行选择的操作。

遇到这个问题之后，我就继续找其他替代方案。开始尝试使用 fn 键作为 hyper 键，发现它还蛮好用，因为很多键盘上都没有 fn 这个键，所以它不会经常会被内置为默认热键里的修饰键，而且它还可以继续和 Shift/Option 等修饰键进行组合。

比如上面我定义的 hyper+h 映射到左方向键，那么就有：

hyper+shift+h == shift+left 向左选中
hyper+option+h == option+left 向左跳过一个 word
hyper+cmd+h == cmd+ left 跳到行首

非常完美😄

另外 fn 一个优点是，它基本没有副作用，就是随便组合也不会有什么问题，比如，如果我们没定义 fn+t，按下之后就等于直接按了 t 键。但使用 Control+Command+Option+Shift 作为 hyper 键的时候，还是需要留意一下，需要把 Control+Command+Option+Shift+ , 或者 . 映射到空 key 上，不执行任何操作。因为这两个是系统内置的 hot key，用来启动系统诊断，而且这个执行的时间会长达数分钟，如果不小心按到，电脑可能会卡一会。

The command-line utility sysdiagnose can be triggered by pressing Cmd+Opt+Ctrl+Shift+Period, and it may take a few minutes to complete. When ready, the output will automatically be revealed in a Finder window (or it can be manually retrieved from /var/tmp).

OK，part 1 的部分就到这里了，如果正好你也有类似的困扰，那真心希望 Karabiner 可以帮助到你。如果你有一些好玩的想法，也可以跟我分享。

Have fun!

FFmpeg avformat_find_stream_info () 函数源码解析

2020-04-02T00:19:58.000Z

`avformat_find_stream_info()` 函数的作用

先来看一下 avformat_find_stream_info() 的头文件里的注释对该函数的介绍，本文我们基于 FFmpeg n4.2 版本的源码分析。

/**
 * Read packets of a media file to get stream information. This
 * is useful for file formats with no headers such as MPEG. This
 * function also computes the real framerate in case of MPEG-2 repeat
 * frame mode.
 * The logical file position is not changed by this function;
 * examined packets may be buffered for later processing.
 * ...
 */
int avformat_find_stream_info(AVFormatContext *ic, AVDictionary **options);

注释里说这个方法通过读取媒体文件中若干个 packet 来获取流信息，对于 MPEG 这种没有 header 的文件格式比较有用，也可以计算像 MPEG-2 这种支持 repeat mode 的真实帧率。(MPEG-2 支持对于大量静止的画面设置 repeat mode，重复的帧不用编码和存储，可以减少体积）

另外提到这个函数不会修改逻辑文件位置，为了探测流信息所读取到的 packet 不会丢掉，会缓存下来为后面使用。

上面提到的流信息包括音频流的采样率、通道数等，视频包括视频的宽高、pixel format、码率、帧率等信息。

avformat_find_stream_info() 函数体有 600 行左右的代码，我们拆开来看，一些不太重要的部分，这里就直接跳过了。

`avformat_find_stream_info()` 函数源码解析

我们从这两个循环开始：

for (i = 0; i < ic->nb_streams; i++) {
    const AVCodec *codec;
    AVDictionary *thread_opt = NULL;
    st = ic->streams[i];
    avctx = st->internal->avctx;

    if (st->codecpar->codec_type == AVMEDIA_TYPE_VIDEO ||
        st->codecpar->codec_type == AVMEDIA_TYPE_SUBTITLE) {
/*            if (!st->time_base.num)
            st->time_base = */
        if (!avctx->time_base.num)
            avctx->time_base = st->time_base;
    }
    //省略代码
}

for (i = 0; i < ic->nb_streams; i++) {
#if FF_API_R_FRAME_RATE
    ic->streams[i]->info->last_dts = AV_NOPTS_VALUE;
#endif
    ic->streams[i]->info->fps_first_dts = AV_NOPTS_VALUE;
    ic->streams[i]->info->fps_last_dts  = AV_NOPTS_VALUE;
}

这两个循环我们可以先跳过，原因是如果在 avformat_open_input() 之后第一次调用 avformat_find_stream_info()，此时还没有 stream 的信息，所以 ic->nb_streams 为 0（nb_streams 是 stream 的个数），进不去循环体，所以我们可以直接跳过，不影响理解。

接下来这个看着像’死循环’的 for-loop，就是我们重点的分析对象了，为了代码的简洁，这里省略掉一些不影响我们理解整体逻辑的代码。既然是个‘死循环’，如果想跳出来就只有 break 和 goto 语句，我们看的时候多留意一下这两种 case. 我也会在代码的注释里加上 break 的标记，同时也会把一些需要注意的地方加上了我自己的理解（中文部分）。

for (;;) {
    int analyzed_all_streams;
    //break1: 检查是否被打断（或者说取消了继续探测），如果是，直接 break 退出
    if (ff_check_interrupt(&ic->interrupt_callback)) {
        ret = AVERROR_EXIT;
        av_log(ic, AV_LOG_DEBUG, "interrupted\n");
        break;
    }

    /* check if one codec still needs to be handled */
    //这个 for-loop 里做了一些对流信息的检测，如果循环能正常结束，
    //说明流信息的探测基本完成，这时 i == ic->nb_streams；
    //如果中间被 break 了，也就是说某个流的信息还没有完全得到，
    //此时 i < ic->nb_streams 的。
    //（第一次执行的时候，因为还没有流，所以会直接跳过）
    for (i = 0; i < ic->nb_streams; i++) {
        int fps_analyze_framecount = 20;
        int count;

        st = ic->streams[i];
        //codec信息是否完整
        if (!has_codec_parameters(st, NULL))
            break;
        /* If the timebase is coarse (like the usual millisecond precision
         * of mkv), we need to analyze more frames to reliably arrive at
         * the correct fps. */
        if (av_q2d(st->time_base) > 0.0005)
            fps_analyze_framecount *= 2;
        if (!tb_unreliable(st->internal->avctx))
            fps_analyze_framecount = 0;
        if (ic->fps_probe_size >= 0)
            fps_analyze_framecount = ic->fps_probe_size;
        if (st->disposition & AV_DISPOSITION_ATTACHED_PIC)
            fps_analyze_framecount = 0;
        /* variable fps and no guess at the real fps */
        count = (ic->iformat->flags & AVFMT_NOTIMESTAMPS) ?
                   st->info->codec_info_duration_fields/2 :
                   st->info->duration_count;
        if (!(st->r_frame_rate.num && st->avg_frame_rate.num) &&
            st->codecpar->codec_type == AVMEDIA_TYPE_VIDEO) {
            if (count < fps_analyze_framecount)
                break;
        }
        // Look at the first 3 frames if there is evidence of frame delay
        // but the decoder delay is not set.
        if (st->info->frame_delay_evidence && count < 2 && st->internal->avctx->has_b_frames == 0)
            break;
        if (!st->internal->avctx->extradata &&
            (!st->internal->extract_extradata.inited ||
             st->internal->extract_extradata.bsf) &&
            extract_extradata_check(st))
            break;
        if (st->first_dts == AV_NOPTS_VALUE &&
            !(ic->iformat->flags & AVFMT_NOTIMESTAMPS) &&
            st->codec_info_nb_frames < ((st->disposition & AV_DISPOSITION_ATTACHED_PIC) ? 1 : ic->max_ts_probe) &&
            (st->codecpar->codec_type == AVMEDIA_TYPE_VIDEO ||
             st->codecpar->codec_type == AVMEDIA_TYPE_AUDIO))
            break;
    }
    analyzed_all_streams = 0;
    //上面提到的 missing_streams 起到作用了，判断是否所有流都找到了
    if (!missing_streams || !*missing_streams)
    //上面也提到了，i == ic->nb_streams 时，说明所有的流，以及流信息都没有问题了
    if (i == ic->nb_streams) {
        analyzed_all_streams = 1;
        /* NOTE: If the format has no header, then we need to read some
         * packets to get most of the streams, so we cannot stop here. */
        //如果是有头的封装格式，直接break退出了，如果是像 MPEG 这种没有头的封装格式，需要解析更多的 packets 来探测。
        if (!(ic->ctx_flags & AVFMTCTX_NOHEADER)) {
            /* If we found the info for all the codecs, we can stop. */
            ret = count;
            av_log(ic, AV_LOG_DEBUG, "All info found\n");
            flush_codecs = 0;
            //break2: 所有的流以及流信息都没有问题，正常退出 for 循环
            break;
        }
    }

    //走到这里，说明还有些流没探测出来，或者有些流信息还没完善。

    /* We did not get all the codec info, but we read too much data. */
    //虽然流信息还没完全探测出来，如果已读取到的大小超过了设定的 probesize，也会退出
    if (read_size >= probesize) {
        ret = count;
        for (i = 0; i < ic->nb_streams; i++)
            if (!ic->streams[i]->r_frame_rate.num &&
                ic->streams[i]->info->duration_count <= 1 &&
                ic->streams[i]->codecpar->codec_type == AVMEDIA_TYPE_VIDEO &&
                strcmp(ic->iformat->name, "image2"))
                av_log(ic, AV_LOG_WARNING,
                       "Stream #%d: not enough frames to estimate rate; "
                       "consider increasing probesize\n", i);
        //break3: 读取到的大小超过了设定的 probesize，退出
        break;
    }

    //接下来就需要从网络/文件中读取 packet，这个函数里面做的事情很多，
    //拿 flv 来举例子🌰，执行完 read_frame_internal() 函数，
    //正常情况下，音视频对应的 AVStream 结构体会被创建，
    //并且 ic->nb_streams，也就是流的个数也会是正常的值，
    //比如如果包含音频和视频，nb_streams 的值会是 2。

    /* NOTE: A new stream can be added there if no header in file
     * (AVFMTCTX_NOHEADER). */
    ret = read_frame_internal(ic, &pkt1);

    //...

    pkt = &pkt1;

    st = ic->streams[pkt->stream_index];
    //读完packet，增加 read_size，下一轮循环会跟 probesize 做对比
    if (!(st->disposition & AV_DISPOSITION_ATTACHED_PIC))
        read_size += pkt->size;

    avctx = st->internal->avctx;
    if (!st->internal->avctx_inited) {
        ret = avcodec_parameters_to_context(avctx, st->codecpar);
        if (ret < 0)
            goto find_stream_info_err;
        st->internal->avctx_inited = 1;
    }

    //处理和更新 dts: st->info->fps_first_dts 和 st->info->fps_last_dts
    if (pkt->dts != AV_NOPTS_VALUE && st->codec_info_nb_frames > 1) {
        //...
        /* update stored dts values */
        if (st->info->fps_first_dts == AV_NOPTS_VALUE) {
            st->info->fps_first_dts     = pkt->dts;
            st->info->fps_first_dts_idx = st->codec_info_nb_frames;
        }
        st->info->fps_last_dts     = pkt->dts;
        st->info->fps_last_dts_idx = st->codec_info_nb_frames;
    }
    if (st->codec_info_nb_frames>1) {
        int64_t t = 0;
        int64_t limit;

        //计算已经读取到的时间长度
        //codec_info_duration：已经取到的packet的总时长
        if (st->time_base.den > 0)
            t = av_rescale_q(st->info->codec_info_duration, st->time_base, AV_TIME_BASE_Q);
        //根据已经读取到的帧数/帧率来计算
        if (st->avg_frame_rate.num > 0)
            t = FFMAX(t, av_rescale_q(st->codec_info_nb_frames, av_inv_q(st->avg_frame_rate), AV_TIME_BASE_Q));
        //根据 fps_last_dts - fps_first_dts 来计算
        if (t == 0
            && st->codec_info_nb_frames>30
            && st->info->fps_first_dts != AV_NOPTS_VALUE
            && st->info->fps_last_dts  != AV_NOPTS_VALUE)
            t = FFMAX(t, av_rescale_q(st->info->fps_last_dts - st->info->fps_first_dts, st->time_base, AV_TIME_BASE_Q));


        //如果流信息都探测完（analyzed_all_streams = 1），limit = max_analyze_duration
        if (analyzed_all_streams)
            limit = max_analyze_duration;
        else if (avctx->codec_type == AVMEDIA_TYPE_SUBTITLE)
            limit = max_subtitle_analyze_duration;
        else limit = max_stream_analyze_duration;

        //如果当前已经读取到packet的总时长 >= 上面的 max_analyze_duration，退出
        if (t >= limit) {
            av_log(ic, AV_LOG_VERBOSE, "max_analyze_duration %"PRId64" reached at %"PRId64" microseconds st:%d\n",
                   limit,
                   t, pkt->stream_index);
            if (ic->flags & AVFMT_FLAG_NOBUFFER)
                av_packet_unref(pkt);
            //break4: 读取到packet的总时间 >= max_analyze_duration
            break;
        }

        //更新已经读取到的packet的总时长
        if (pkt->duration) {
            //...
            st->info->codec_info_duration += pkt->duration;
            //...
        }
    }

    if (st->codecpar->codec_type == AVMEDIA_TYPE_VIDEO) {
#if FF_API_R_FRAME_RATE
        ff_rfps_add_frame(ic, st, pkt->dts);
#endif
        if (pkt->dts != pkt->pts && pkt->dts != AV_NOPTS_VALUE && pkt->pts != AV_NOPTS_VALUE)
            st->info->frame_delay_evidence = 1;
    }
    if (!st->internal->avctx->extradata) {
        ret = extract_extradata(st, pkt);
        if (ret < 0)
            goto find_stream_info_err;
    }

    /* If still no information, we try to open the codec and to
     * decompress the frame. We try to avoid that in most cases as
     * it takes longer and uses more memory. For MPEG-4, we need to
     * decompress for QuickTime.
     *
     * If AV_CODEC_CAP_CHANNEL_CONF is set this will force decoding of at
     * least one frame of codec data, this makes sure the codec initializes
     * the channel configuration and does not only trust the values from
     * the container. */

    //到这里，调用 try_decode_frame() 对获取的 packet 进行音视频的解码，
    //正常情况下，会得到当前流的所有的解码期信息，
    //比如视频的宽高、pixel format，音频的 sample format, 采样率、通道数等。
    try_decode_frame(ic, st, pkt,
                     (options && i < orig_nb_streams) ? &options[i] : NULL);

    if (ic->flags & AVFMT_FLAG_NOBUFFER)
        av_packet_unref(pkt);

    //已经探测的帧数+1，count总数+1
    st->codec_info_nb_frames++;
    count++;
}

我们用伪代码来简化一下上面代码的主要逻辑：

for (;;) {
    if 所有stream 满足 has_codec_parameters(st, ..)
       || probe_size > 设置值 {
        break 退出;
    } else {
        //继续读取 packet
        read_frame_internal(ic, &pkt1);
        //尝试对读取到的 packet 解码
        try_decode_frame(ic, st, pkt, ...);
    }
}

下面我们详细地来看一下这三个函数的作用。

has_codec_parameters () 、read_frame_internal ()、try_decode_frame () 函数的作用

上面提到的 has_codec_parameters() 函数，是一个很重要的函数，它来检测当前的音视频流信息是否完整。

static int has_codec_parameters(AVStream *st, const char **errmsg_ptr)
{
    AVCodecContext *avctx = st->internal->avctx;
    //...
    if (   avctx->codec_id == AV_CODEC_ID_NONE
        && avctx->codec_type != AVMEDIA_TYPE_DATA)
        FAIL("unknown codec");
    switch (avctx->codec_type) {
    case AVMEDIA_TYPE_AUDIO:
        if (!avctx->frame_size && determinable_frame_size(avctx))
            FAIL("unspecified frame size");
        if (st->info->found_decoder >= 0 &&
            avctx->sample_fmt == AV_SAMPLE_FMT_NONE)
            FAIL("unspecified sample format");
        if (!avctx->sample_rate)
            FAIL("unspecified sample rate");
        if (!avctx->channels)
            FAIL("unspecified number of channels");
        if (st->info->found_decoder >= 0 && !st->nb_decoded_frames && avctx->codec_id == AV_CODEC_ID_DTS)
            FAIL("no decodable DTS frames");
        break;
    case AVMEDIA_TYPE_VIDEO:
        if (!avctx->width)
            FAIL("unspecified size");
        if (st->info->found_decoder >= 0 && avctx->pix_fmt == AV_PIX_FMT_NONE)
            FAIL("unspecified pixel format");
        if (st->codecpar->codec_id == AV_CODEC_ID_RV30 || st->codecpar->codec_id == AV_CODEC_ID_RV40)
            if (!st->sample_aspect_ratio.num && !st->codecpar->sample_aspect_ratio.num && !st->codec_info_nb_frames)
                FAIL("no frame in rv30/40 and no sar");
        break;
    case AVMEDIA_TYPE_SUBTITLE:
        if (avctx->codec_id == AV_CODEC_ID_HDMV_PGS_SUBTITLE && !avctx->width)
            FAIL("unspecified size");
        break;
    case AVMEDIA_TYPE_DATA:
        if (avctx->codec_id == AV_CODEC_ID_NONE) return 1;
    }

    return 1;
}

可以看到音频要检测是否拿到 frame size，sample format, sample rate, channels 等重要参数，视频则会检测视频的 width, pixel format 等等。

代码中，我们可以看到，为了获取音视频流信息，涉及到了两个重要的函数调用：

read_frame_internal() 函数
try_decode_frame() 函数

在讨论他们的作用之前，我们首先以 FLV 封装格式为例（以音频编码为 AAC，视频编码为 H.264 为例），来解释一下为什么需要这两个函数。

FLV 封装格式的大概示意图如下（为了简洁，省略了一些信息，详细细节参考 FLV specification)，

我们可以这么来理解 FLV 封装格式，除了 header 之外，它里面包含了一系列的 Tag，可能是 Video Tag，也可能是 Audio Tag, 这个是 FLV 文档来定义的。其中每个 Tag 里面包含了一些描述性信息，以及对应的编码后的 AAC 或者 H.264 数据。如果我们分为两层来看的话，一层是 FLV Tag，一层是编码后的音视频数据。

了解这个之后，我们再来试着理解上面提到的 read_frame_internal() 函数和 try_decode_frame() 在这里的作用。

read_frame_internal() 函数本质上就是从网络中读取音视频的 packet，对应到 FLV 格式的话，其实就是读取第一层，也就是也就是 FLV Tag 信息，从 tag 里可以读取 tag 的一些描述性信息 , 这些描述性信息包括（参考自 FLV Specification）：

音频：

编码格式，是 AAC 还是 MP3，还是 Linear PCM？
Sample rate, 采样率，比如 48000
通道数，单声道还是双声道？（FLV 最多支持两个声道）
Bit depth

视频：

帧类型，关键帧还是中间帧？
编码格式，H.264 还是 H.263，还是 VP6 等其他格式？

那 read_frame_internal() 函数能拿到的就是上面的这些信息，这个信息是否够全呢？跟上面提到的 has_codec_parameters() 检测函数里的要求相比，确实还差了一些信息。比如音频的 sample format（比如 AV_SAMPLE_FMT_FLTP），它需要打开音频解码器之后才能确定，sample rate 等信息也是解码后得到的更加准确。

视频的宽高、pixel format 信息是存放在 H.264 流信息里，所以也需要解码之后才能获取到，所以，这里才需要 try_decode_frame() 函数去做解码的工作才能拿到完整的信息。

也就是说 read_frame_internal() 函数负责从第一层 FLV Tag 里获得流信息，try_decode_frame() 函数负责解码第二层的编码数据，来获取更多的流编码信息，最终汇总为完整的流信息，所以两处函数调用都是必要的。

OK，我们这里不展开 read_frame_internal() 函数和 try_decode_frame() 函数内部的实现，有兴趣的小伙伴可以自己读读源码。

如何合理设置 probesize 来降低播放首屏时间？

在直播场景下，我们为了提高用户的体验，减少首屏时间，希望直播流是秒开的。这个时候我们会希望 avformat_find_stream_info() 函数在可以完成流信息探测完整的情况下，尽可能的早一些返回。根据前面的分析，我们可以知道，read_frame_internal() 函数的耗时依赖网络的情况，try_decode_frame() 函数负责解码，依赖软件 / 硬件执行的效率，这两者可能都会比较耗时，所以我们要尽可能的减少这两个方法的调用，从而减少 avformat_find_stream_info() 函数执行的时间。

avformat_find_stream_info() 退出的条件有很多个，probesize 、max_analyze_duration 和 fps_analyze_framecount 以及是其中的三个：

已读取的数据 > probesize
已读取视频帧播放时间长度 > max_analyze_duration

我们先来看 probesize 和 max_analyze_duration，这两个判断是强制性的，就是说不管是否获取到了完整的流信息，只要达到了这两个条件，就会退出。下面这段代码摘自 avformat_find_stream_info() 函数的前一部分：

...
int64_t max_analyze_duration = ic->max_analyze_duration;
...
int64_t probesize = ic->probesize;
int *missing_streams = av_opt_ptr(ic->iformat->priv_class, ic->priv_data, "missing_streams");


if (!max_analyze_duration) {
    max_stream_analyze_duration =
    max_analyze_duration        = 5*AV_TIME_BASE;
}

这两个值用来设置函数探测流信息的最大 size，以及最大时长。probesize 默认值是 5,000,000 bytes 也就是 5MB 大小，max_analyze_duration 默认值是 5*AV_TIME_BASE, 也就是 5,000,000 micro-seconds 也就是 5 秒。

PS: 另外 missing_streams 是个指向 int 的指针，*missing_streams 只要是 > 0，就说明还有某些流没探测到，这个后面的循环有个关键判断会用到。（假设我们要播放的是 flv 流，有兴趣的同学可以到 flvdec.c 文件搜索一下这个属性）

默认值对直播来说都蛮大的，不过他们都支持在调用 avformat_find_stream_info() 之前手动地设置。那设置多少比较合适呢？

通过我们刚才的分析，理论上获取到一帧视频和一帧音频，并对他们解码，我们就可以拿到完整的音视频信息。所以理论上我们把 probe size 设置为第一次获取完音频和视频帧时所需读取的长度即可。当然这是理想的情况，实际中有诸多意外因素。比如第一帧视频帧通常是关键帧会比较大，对于不同的码率的流，大小差异会比较大，还有些 CDN 下发的流中，前面放了很多的视频帧之后，才有一个音频帧（这种最好要求 CDN 厂商修改）。

可见 probe size 如果设置的太大会导致首帧时间比较长，设置的太小，可能一些 case 下会获取流信息失败，所以需要根据自己流信息的情况（特别是码率，因为码率会影响音频、视频帧的大小）去设置。我们目前用的一种策略是，设置 probe size 为一个针对我们目前直播稍大于上面所说的长度的一个值，应对大部分 case，对于一小部分 case，比如可能要播放外部流，我们除了支持服务器动态配置之外，还会在失败之后，对 probe size 和 max_analyze_duration 乘以一个系数之后再重试。

PS: 对于 FLV 格式，具体到理论上的最小的 probe size 的大小，大概等于

>smallest probe_size =  sizeof(FLV header) +
                       sizeof(script tag) +
                       sizeof(audio tag of AAC sequence header) +
                       sizeof(audio tag of AAC raw data) +
                       sizeof(video tag of H.264 sequence header) +
                       sizeof(video tag of H.264 NALU data)