От apple16
К mordig
Дата 05.06.2026 10:42:36
Рубрики WWII; Современность;

Вы как записи склеивали?

Очевидно что источников несколько и записей сильно больше чем людей

ФИО + год + место рождения это надо клеить
Некоторое количество объединенных Кузнецовых из Петербурга будут компенсированы опечатками
ФИО + год тоже на самом деле можно если фамилия за пределами топ 100

От AMX
К apple16 (05.06.2026 10:42:36)
Дата 05.06.2026 13:30:55

Re: Вы как...

>Очевидно что источников несколько и записей сильно больше чем людей

>ФИО + год + место рождения это надо клеить
>Некоторое количество объединенных Кузнецовых из Петербурга будут компенсированы опечатками
>ФИО + год тоже на самом деле можно если фамилия за пределами топ 100

Из чего и в каком месте вы собрались клеить? Из донесений о потерях? Так они не полные, и потеряны в боевых условиях. По госпиталям еще большая задница, архив в состоянии не стояния. По погибшим пленным маленький кусочек.

Ваши претензии к чему? К тому, что документы в окружении уничтожались? К тому что немцы по концлагерям уничтожали документы?

Не получилось сто тысяч миллионов потерь, как вам хотелось?
Читайте Кривошеева, у него данные не из этих документов, а из более контролируемого в то время источника - обезличенных докладов о потерях.

От iggalp
К apple16 (05.06.2026 10:42:36)
Дата 06.06.2026 00:01:03

Re: Вы как...

>ФИО + год + место рождения это надо клеить
Там много без годов и мест рождения.

>Некоторое количество объединенных Кузнецовых из Петербурга будут компенсированы опечатками
>ФИО + год тоже на самом деле можно если фамилия за пределами топ 100

Имхо начального наброса - можно просто взять какую-то выборку и руками/глазами проверить процент дублей. Кроме того, если по разным выборкам процент примерно похожий, то результат уже можно считать стабильным.

От AMX
К iggalp (06.06.2026 00:01:03)
Дата 06.06.2026 11:52:40

Re: Вы как...

>>Некоторое количество объединенных Кузнецовых из Петербурга будут компенсированы опечатками
>>ФИО + год тоже на самом деле можно если фамилия за пределами топ 100
>
>Имхо начального наброса - можно просто взять какую-то выборку и руками/глазами проверить процент дублей. Кроме того, если по разным выборкам процент примерно похожий, то результат уже можно считать стабильным.

Для начала сделайте выборку по количеству донесений об именных потерях дивизионных и их календарному покрытию. Ну и заодно задублированные донесения уберете.
Ну чтобы сразу понять, что это достаточно бестолковое занятие, потому что будут дырки в годы иногда.

Дальше у вас проблемы:
1. Отсутствие сведений о частях первых месяцев войны.
2. Не понятная ситуация по госпиталям, архив 15 лет назад был в аварийном состоянии и большое количество документов уже фактически было утеряно.
3. Умершие в плену пленные.

По донесениям был ресурс, сейчас лень искать.

От iggalp
К AMX (06.06.2026 11:52:40)
Дата 06.06.2026 16:28:46

Re: Вы как...


>Для начала сделайте выборку по количеству донесений об именных потерях дивизионных и их календарному покрытию. Ну и заодно задублированные донесения уберете.
>Ну чтобы сразу понять, что это достаточно бестолковое занятие, потому что будут дырки в годы иногда.
>Дальше у вас проблемы:
>1. Отсутствие сведений о частях первых месяцев войны.
>2. Не понятная ситуация по госпиталям, архив 15 лет назад был в аварийном состоянии и большое количество документов уже фактически было утеряно.
>3. Умершие в плену пленные.
>По донесениям был ресурс, сейчас лень искать.

Здесь же локальный вопрос. Не общий - на сколько данные точны, а сколько дублей в конкретных данных. Система выдала, что у нее есть конкретное количество записей. И задача просто оценить сколько в этих записях уникальных. Ничего другого в конкретной ситуации не требуется