dattalldood/m2_llama_cpp.diff

## m2_llama_cpp.diff
diff --git a/ggml-metal.m b/ggml-metal.m
index 87fa172..3ed1378 100644
--- a/ggml-metal.m
+++ b/ggml-metal.m
@@ -274,18 +274,16 @@ static void ggml_metal_log(enum ggml_log_level level, const char* format, ...){
         GGML_METAL_ADD_KERNEL(mul_mv_q4_K_f32);
         GGML_METAL_ADD_KERNEL(mul_mv_q5_K_f32);
         GGML_METAL_ADD_KERNEL(mul_mv_q6_K_f32);
-        if ([ctx->device supportsFamily:MTLGPUFamilyApple7]) {
-            GGML_METAL_ADD_KERNEL(mul_mm_f32_f32);
-            GGML_METAL_ADD_KERNEL(mul_mm_f16_f32);
-            GGML_METAL_ADD_KERNEL(mul_mm_q4_0_f32);
-            GGML_METAL_ADD_KERNEL(mul_mm_q8_0_f32);
-            GGML_METAL_ADD_KERNEL(mul_mm_q4_1_f32);
-            GGML_METAL_ADD_KERNEL(mul_mm_q2_K_f32);
-            GGML_METAL_ADD_KERNEL(mul_mm_q3_K_f32);
-            GGML_METAL_ADD_KERNEL(mul_mm_q4_K_f32);
-            GGML_METAL_ADD_KERNEL(mul_mm_q5_K_f32);
-            GGML_METAL_ADD_KERNEL(mul_mm_q6_K_f32);
-        }
+        GGML_METAL_ADD_KERNEL(mul_mm_f32_f32);
+        GGML_METAL_ADD_KERNEL(mul_mm_f16_f32);
+        GGML_METAL_ADD_KERNEL(mul_mm_q4_0_f32);
+        GGML_METAL_ADD_KERNEL(mul_mm_q8_0_f32);
+        GGML_METAL_ADD_KERNEL(mul_mm_q4_1_f32);
+        GGML_METAL_ADD_KERNEL(mul_mm_q2_K_f32);
+        GGML_METAL_ADD_KERNEL(mul_mm_q3_K_f32);
+        GGML_METAL_ADD_KERNEL(mul_mm_q4_K_f32);
+        GGML_METAL_ADD_KERNEL(mul_mm_q5_K_f32);
+        GGML_METAL_ADD_KERNEL(mul_mm_q6_K_f32);
         GGML_METAL_ADD_KERNEL(rope_f32);
         GGML_METAL_ADD_KERNEL(rope_f16);
         GGML_METAL_ADD_KERNEL(alibi_f32);
@@ -366,18 +364,16 @@ void ggml_metal_free(struct ggml_metal_context * ctx) {
     GGML_METAL_DEL_KERNEL(mul_mv_q4_K_f32);
     GGML_METAL_DEL_KERNEL(mul_mv_q5_K_f32);
     GGML_METAL_DEL_KERNEL(mul_mv_q6_K_f32);
-    if ([ctx->device supportsFamily:MTLGPUFamilyApple7]) {
-        GGML_METAL_DEL_KERNEL(mul_mm_f32_f32);
-        GGML_METAL_DEL_KERNEL(mul_mm_f16_f32);
-        GGML_METAL_DEL_KERNEL(mul_mm_q4_0_f32);
-        GGML_METAL_DEL_KERNEL(mul_mm_q8_0_f32);
-        GGML_METAL_DEL_KERNEL(mul_mm_q4_1_f32);
-        GGML_METAL_DEL_KERNEL(mul_mm_q2_K_f32);
-        GGML_METAL_DEL_KERNEL(mul_mm_q3_K_f32);
-        GGML_METAL_DEL_KERNEL(mul_mm_q4_K_f32);
-        GGML_METAL_DEL_KERNEL(mul_mm_q5_K_f32);
-        GGML_METAL_DEL_KERNEL(mul_mm_q6_K_f32);
-    }
+    GGML_METAL_DEL_KERNEL(mul_mm_f32_f32);
+    GGML_METAL_DEL_KERNEL(mul_mm_f16_f32);
+    GGML_METAL_DEL_KERNEL(mul_mm_q4_0_f32);
+    GGML_METAL_DEL_KERNEL(mul_mm_q8_0_f32);
+    GGML_METAL_DEL_KERNEL(mul_mm_q4_1_f32);
+    GGML_METAL_DEL_KERNEL(mul_mm_q2_K_f32);
+    GGML_METAL_DEL_KERNEL(mul_mm_q3_K_f32);
+    GGML_METAL_DEL_KERNEL(mul_mm_q4_K_f32);
+    GGML_METAL_DEL_KERNEL(mul_mm_q5_K_f32);
+    GGML_METAL_DEL_KERNEL(mul_mm_q6_K_f32);
     GGML_METAL_DEL_KERNEL(rope_f32);
     GGML_METAL_DEL_KERNEL(rope_f16);
     GGML_METAL_DEL_KERNEL(alibi_f32);
@@ -1040,7 +1036,7 @@ void ggml_metal_graph_compute(

                             // for now the matrix-matrix multiplication kernel only works on A14+/M1+ SoCs
                             // AMD GPU and older A-chips will reuse matrix-vector multiplication kernel
-                            if ([ctx->device supportsFamily:MTLGPUFamilyApple7] &&
+                            if (true &&
                                 !ggml_is_transposed(src0) &&
                                 !ggml_is_transposed(src1) &&
                                 src1t == GGML_TYPE_F32 &&
	diff --git a/ggml-metal.m b/ggml-metal.m
	index 87fa172..3ed1378 100644
	--- a/ggml-metal.m
	+++ b/ggml-metal.m
	@@ -274,18 +274,16 @@ static void ggml_metal_log(enum ggml_log_level level, const char* format, ...){
	GGML_METAL_ADD_KERNEL(mul_mv_q4_K_f32);
	GGML_METAL_ADD_KERNEL(mul_mv_q5_K_f32);
	GGML_METAL_ADD_KERNEL(mul_mv_q6_K_f32);
	- if ([ctx->device supportsFamily:MTLGPUFamilyApple7]) {
	- GGML_METAL_ADD_KERNEL(mul_mm_f32_f32);
	- GGML_METAL_ADD_KERNEL(mul_mm_f16_f32);
	- GGML_METAL_ADD_KERNEL(mul_mm_q4_0_f32);
	- GGML_METAL_ADD_KERNEL(mul_mm_q8_0_f32);
	- GGML_METAL_ADD_KERNEL(mul_mm_q4_1_f32);
	- GGML_METAL_ADD_KERNEL(mul_mm_q2_K_f32);
	- GGML_METAL_ADD_KERNEL(mul_mm_q3_K_f32);
	- GGML_METAL_ADD_KERNEL(mul_mm_q4_K_f32);
	- GGML_METAL_ADD_KERNEL(mul_mm_q5_K_f32);
	- GGML_METAL_ADD_KERNEL(mul_mm_q6_K_f32);
	- }
	+ GGML_METAL_ADD_KERNEL(mul_mm_f32_f32);
	+ GGML_METAL_ADD_KERNEL(mul_mm_f16_f32);
	+ GGML_METAL_ADD_KERNEL(mul_mm_q4_0_f32);
	+ GGML_METAL_ADD_KERNEL(mul_mm_q8_0_f32);
	+ GGML_METAL_ADD_KERNEL(mul_mm_q4_1_f32);
	+ GGML_METAL_ADD_KERNEL(mul_mm_q2_K_f32);
	+ GGML_METAL_ADD_KERNEL(mul_mm_q3_K_f32);
	+ GGML_METAL_ADD_KERNEL(mul_mm_q4_K_f32);
	+ GGML_METAL_ADD_KERNEL(mul_mm_q5_K_f32);
	+ GGML_METAL_ADD_KERNEL(mul_mm_q6_K_f32);
	GGML_METAL_ADD_KERNEL(rope_f32);
	GGML_METAL_ADD_KERNEL(rope_f16);
	GGML_METAL_ADD_KERNEL(alibi_f32);
	@@ -366,18 +364,16 @@ void ggml_metal_free(struct ggml_metal_context * ctx) {
	GGML_METAL_DEL_KERNEL(mul_mv_q4_K_f32);
	GGML_METAL_DEL_KERNEL(mul_mv_q5_K_f32);
	GGML_METAL_DEL_KERNEL(mul_mv_q6_K_f32);
	- if ([ctx->device supportsFamily:MTLGPUFamilyApple7]) {
	- GGML_METAL_DEL_KERNEL(mul_mm_f32_f32);
	- GGML_METAL_DEL_KERNEL(mul_mm_f16_f32);
	- GGML_METAL_DEL_KERNEL(mul_mm_q4_0_f32);
	- GGML_METAL_DEL_KERNEL(mul_mm_q8_0_f32);
	- GGML_METAL_DEL_KERNEL(mul_mm_q4_1_f32);
	- GGML_METAL_DEL_KERNEL(mul_mm_q2_K_f32);
	- GGML_METAL_DEL_KERNEL(mul_mm_q3_K_f32);
	- GGML_METAL_DEL_KERNEL(mul_mm_q4_K_f32);
	- GGML_METAL_DEL_KERNEL(mul_mm_q5_K_f32);
	- GGML_METAL_DEL_KERNEL(mul_mm_q6_K_f32);
	- }
	+ GGML_METAL_DEL_KERNEL(mul_mm_f32_f32);
	+ GGML_METAL_DEL_KERNEL(mul_mm_f16_f32);
	+ GGML_METAL_DEL_KERNEL(mul_mm_q4_0_f32);
	+ GGML_METAL_DEL_KERNEL(mul_mm_q8_0_f32);
	+ GGML_METAL_DEL_KERNEL(mul_mm_q4_1_f32);
	+ GGML_METAL_DEL_KERNEL(mul_mm_q2_K_f32);
	+ GGML_METAL_DEL_KERNEL(mul_mm_q3_K_f32);
	+ GGML_METAL_DEL_KERNEL(mul_mm_q4_K_f32);
	+ GGML_METAL_DEL_KERNEL(mul_mm_q5_K_f32);
	+ GGML_METAL_DEL_KERNEL(mul_mm_q6_K_f32);
	GGML_METAL_DEL_KERNEL(rope_f32);
	GGML_METAL_DEL_KERNEL(rope_f16);
	GGML_METAL_DEL_KERNEL(alibi_f32);
	@@ -1040,7 +1036,7 @@ void ggml_metal_graph_compute(

	// for now the matrix-matrix multiplication kernel only works on A14+/M1+ SoCs
	// AMD GPU and older A-chips will reuse matrix-vector multiplication kernel
	- if ([ctx->device supportsFamily:MTLGPUFamilyApple7] &&
	+ if (true &&
	!ggml_is_transposed(src0) &&
	!ggml_is_transposed(src1) &&
	src1t == GGML_TYPE_F32 &&