1. 分布式环境的初始化  2. AutoTokenizer的选择和get_pad_id的返回  3. worker最好添加一个参数传给PredictorArgument,同时load完模型后初始化kv cache 