[TODO] SIMD, BF16/FP16, INT8 optimization

Currently NanoRT does not utilize SIMD/AVX.

Also no quantized BVH support.

It'd be better to start to consider optimization and quantization.

Fortunately, recent CPU architecture(AlderLake, ZEN4) supports native BF16/FP16 and INT8 op support, which will boost quantized BVH construction/traversal.