>>Некоторое количество объединенных Кузнецовых из Петербурга будут компенсированы опечатками >>ФИО + год тоже на самом деле можно если фамилия за пределами топ 100 > >Имхо начального наброса - можно просто взять какую-то выборку и руками/глазами проверить процент дублей. Кроме того, если по разным выборкам процент примерно похожий, то результат уже можно считать стабильным.
Для начала сделайте выборку по количеству донесений об именных потерях дивизионных и их календарному покрытию. Ну и заодно задублированные донесения уберете. Ну чтобы сразу понять, что это достаточно бестолковое занятие, потому что будут дырки в годы иногда.
Дальше у вас проблемы: 1. Отсутствие сведений о частях первых месяцев войны. 2. Не понятная ситуация по госпиталям, архив 15 лет назад был в аварийном состоянии и большое количество документов уже фактически было утеряно. 3. Умершие в плену пленные.
>Для начала сделайте выборку по количеству донесений об именных потерях дивизионных и их календарному покрытию. Ну и заодно задублированные донесения уберете. >Ну чтобы сразу понять, что это достаточно бестолковое занятие, потому что будут дырки в годы иногда. >Дальше у вас проблемы: >1. Отсутствие сведений о частях первых месяцев войны. >2. Не понятная ситуация по госпиталям, архив 15 лет назад был в аварийном состоянии и большое количество документов уже фактически было утеряно. >3. Умершие в плену пленные. >По донесениям был ресурс, сейчас лень искать.
Здесь же локальный вопрос. Не общий - на сколько данные точны, а сколько дублей в конкретных данных. Система выдала, что у нее есть конкретное количество записей. И задача просто оценить сколько в этих записях уникальных. Ничего другого в конкретной ситуации не требуется