A little question about mmdit attention

Nice work. The MM-DiT black has a concat operation between image modal and text modal before the Q K V Attention, emmmm I could not find it......

Look forward to your reply.

https://github.com/lucidrains/mmdit/blob/cca1e6c3d66aab7ae7c4bc03564b6f2e2fd779d2/mmdit/mmdit_pytorch.py#L119-L150

<img width="524" alt="Image" src="https://github.com/user-attachments/assets/383c9215-9f29-4da9-8e94-68be97e41c51" />

	for x, mask, to_qkv, q_rmsnorm, k_rmsnorm in zip(inputs, masks, self.to_qkv, self.q_rmsnorms, self.k_rmsnorms):

	qkv = to_qkv(x)
	qkv = self.split_heads(qkv)

	# optional qk rmsnorm per modality

	if self.qk_rmsnorm:
	q, k, v = qkv
	q = q_rmsnorm(q)
	k = k_rmsnorm(k)
	qkv = torch.stack((q, k, v))

	all_qkvs.append(qkv)

	# handle mask per modality

	if not exists(mask):
	mask = torch.ones(x.shape[:2], device = device, dtype = torch.bool)

	all_masks.append(mask)

	# combine all qkv and masks

	all_qkvs, packed_shape = pack(all_qkvs, 'qkv b h * d')
	all_masks, _ = pack(all_masks, 'b *')

	# attention

	q, k, v = all_qkvs

	outs, *_ = self.attend(q, k, v, mask = all_masks)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

A little question about mmdit attention #8

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

A little question about mmdit attention #8

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions