Непонятно зачем вам это нужно. Две специализированные нейросети лучше одной общей. Их обучать лучше по отдельности. Они будут более эффективными.
Уточните вашу цель.
Например, если цель, это просто определять по фото есть человек или нет, и, плюс к этому, какая на фото есть одежда и аксессуары, и есть ли они. То лучше обучить эти две нейросети по отдельности на одних и тех же данных.
А если, например, цель, это определять, есть ли человек, и если есть, то только тогда определять его одежду и аксессуары, тогда тоже делаем раздельное обучение, но вторую сеть обучаем только по фото с человеком.