clean up

Started by Private User on Tuesday, July 7, 2020
Problem with this page?

Participants:

Profiles Mentioned:

Related Projects:

Showing all 19 posts

В этом проекте, как и в связанном с ним "Мемориал: Жертвы политического террора в СССР", очень много дубликатов. Мне несколько раз попадалось по 5-6 профилей одного и того же человека, а уж 2-3 профиля - обычное дело. Изначально по непонятной причине во всех (или почти во всех) профилях не были проставлены даты смерти, хотя в описаниях они обычно присутствуют. Теперь это досадное недоразумение потихоньку исправляется (Thank you, Juha Mustonen (Geni Curator)!), и Geni автоматически распознаёт дубликаты, предлагая Tree Matches. Давайте общими усилиями наведём порядок и хотя бы объединим дубликаты. В идеале неплохо было бы и географию привести в божеский вид, а то в полях места рождения зачастую, помимо разнобоя, встречаются Ленинград для XIX века и падежные формы типа г.Самары (уроженец г.Самары?).

Обращаться нужно скорее к инициатору идеи "загрузить на geni весь мемориал россыпью". Профили без связи большой пользы не принесли, скорее (имхо) дискредитировали идею. Идея в связях, а не в списках и в личном участии, которое таким размещением не стимулировалось. Хорошо, что блокадные списки никто не додумался чохом бахнуть на geni. Или obd-memorial. Зачем мне дубль профиля моего прадеда "автоматически созданный" да еще и с ошибками от НКВД при наличии нормального, в котором информации раз в 100 больше и есть связи? Объединять даже неприятно ... Просил Володю удалить, был не понят. А других репрессированных родных нет. И я не буду рад, если они чье-то волей "автоматически" появятся. Не думаю, что с таким ощущением я одинок.

То, что трактором напахали, трактором и запахивать. Руками это делать - бессмысленная трата сил. Я бы предложил три скрипта:
1. при выявлении дублирующих профилей, среди которых есть достаточно полно описанный (критерий заполненности по полям и наличие нескольких связей задать несложно), а остальные не имеют связей, автоматически созданы - автоматические удалить.
2. Если есть очень близко дублирующие автоматически созданные имеющие более одной связи связи (даты рождения, смерти) - принудительно объединить. Если до профиля доберутся руками, то и возможную ошибку идентификации исправят.
3. Автоматически созданные профили, имеющие только одну связь (отца) удалить за невостребованностью в течении 5 лет. Вероятность, что ими кто-то займется в разумное время невелика.

Сейчас скрипт помогает выявить дубликаты. Их можно объединить, соединив в одном профиле информацию из разных источников. Остальные профили без дат потом удалить как незаполненные и невостребованные. В проекте "Мемориал" сейчас вообще 2762246 профилей. Это, конечно, перебор, и руками такое не исправить. Согласен, что такая свалка дискредитирует генеалогический проект, а для проектов памяти есть другие ресурсы. Но то, что можно сохранить, можно сохранить.

Я объединяю дубликаты, когда встречаю, и вычищаю описания так, чтобы они в итоге не дублировались.

К сожалению, у geni.com есть еще одна проблема - это дубликаты людей с одинаковыми фамилиями на разных языках. Особенно это касается потомков русских эмигрантов, которые пишут фамилии своих предков из россии на иностранных языках, но не русском.
Понятно, что Ivanov - он и в Африке Иванов, но ведь есть еще Ivanoff) - но это простой вариант.
(см. например Aleksei "Vasilii" Kononov / Ivanov)

Приходится в поиске забивать разные варианты фамилий.
А если это более мудреная фамилия?
Аналогично, фамилии потомков иностранцев в россии часто указаны только на русском, что усложняет возможный поиск со стороны иностранцев.
Такое попадается в данной теме. Например, если репрессирован эстонец, поляк или немец, но фамилия записана на русском. Наверняка, у таких лиц могут быть и дубликаты, записанные "на родных языках".
И это если говорить только про латиницу и кириллицу.
Остается только гадать, сколько может быть дубликатов лиц из стран и территорий, где письменность имеет совсем другую основу (взять даже лиц грузинского происхождения - наверняка есть дубликаты на грузинском, русском и английском, которые можно было бы объединить, но вряд ли кто-то когда-то до этого дойдет в обозримом будущем).

Поэтому было бы здорово, если бы хотя бы фамилии дублировались на том языке и в том написании, откуда родом предок и хотя бы был общий дубляж на русском (для территорий, ранее бывших в составе Российской империи) и английском (для международных случаев).

Не все иностранцы в достаточной степени владеют русским. Заметили ошибку в публичном профиле - исправьте. Ясон белыйстороны (sic!), видимо, хотел воспроизвести дореволюционную орфографию с ъ, но перепутал буковку :). Ещё многие копируют из Википедии с символами ударения, не подозревая, возможно, что в русском языке таких букв просто нет, а лишние символы ударений ломают внутренний поиск Geni. Но это всё лирика, не имеющая непосредственного отношения к данному проекту и проблеме дубликатов в нём.

Но глобально проблема разных языков остаётся и это не лирика.
Ясон белойстороны - это как примерно Denis Wolf, да) Исправить чужие профили и ошибки в них кстати могут только модераторы и PRO. Но достоинство этого проекта - это как раз достаточно широкие возможности и без этих статусов.
Применительно к данному проекту я бы все таки предложил по репрессированным лицам не русского происхождения добавлять транскрипции фамилий на их родных языках. Будет не хуже и возможно облегчит их присоединение к основному дереву.

Что говорить об иностранцах, если сплошь и рядом фамилия на кириллице, а имя на латинице, один брат на кириллице, а другой на латинице.
Есть специальное поле для титула, так нет, титул пишут впереди фамилии, причем с различными вариантами написания, и делают это люди, которые, согласно должности, должны быть примером для остальных.
Такое впечатление, что человек никогда не открывал телефонный справочник, я уже не говорю о книгах Весь Петербург..

Unfortunately I cannot contribute to your discussion in Russian as I have mostly forgotten the little I learned about thirty years ago in school and university. I will most likely add names in latin script for at least those profiles that are marked as Finns. This should help in finding duplicates created from Finnish documents. Reproducing correct latinized names will be challenging and in some cases the best you can do is to make an educated guess - e.g. Ivan is probably Juho in Finnish.

In my opinion even direct transliteration would be useful for all profiles.

yes, Juha, please do it for Finns, it would really help identify duplicates with existing trees. As for direct transliteration, I would refrain from that as there are far too many ways of transliterating Russian into Latin script. Instead, I would suggest adding Russian to those profiles that have names of Russian origin. This is very common, for instance, for Finns where Aleksi Ivanpoika = Алексей Иванович.

Bumping old discussion.

I wrote 2 short scripts to add Latin transliteration to Russian-language profiles. Maybe they will help someone else.

Я написал 2 коротких скрипта, чтобы добавлять латинскую транслитерацию к русскоязычным профилям. Может быть, еще кому-нибуть пригодятся.

https://www.geni.com/discussions/258054

Also I suggested earlier that Geni profiles without Latin transliteration need improvement.

Еще, ранее я предложил, что профили без латинской транслитерации нужно улучшать..

https://www.geni.com/discussions/244163

К сожалению, вставка английских имен профилей c русскоязычным ... хм... бэкграундом создаст лишний повод всяким троллям и не очень добросовестным людям с излишней (а порой, просто больной) фантазией дублировать бездумно эти профили в своих gedcom-файлах и потом их загружать сюда автоматом. В результате чего будет путаница и мешанина профилей одинаковых людей, которые потом замучаешься вычищать.
В конце прошлого уже был случай, когда некая дама из америки загрузила сюда тысячи профилей российских дворян, но на английском. И все бы ничего, но она написала, что она правнучка Григория Распутина, потом Романовых и т.п.. В результате загрузки gedcom файла достаточно большое количество профилей объединились и стали показывать ее как потомка Григория Распутина и многих других известных личностей.
Кураторам пришлось принимать меры, чтобы остановить дальнейшую загрузку этого дерева.
Хорошо, тут заметили - случай уж больно показательный.
А сколько таких "детей лейтенанта Шмидта" реально присутствует в geni, которые когда-то сюда загрузили свои деревья, а теперь показываются как потомки или родственники известных людей? Подавляющее большинство профилей просто никак не подтверждено ссылками ни какие источники, даже пускай на вторичные. По мере возможности, постепенно эти профили заполняются ссылками на источники. Но это крайне малая часть профилей. Большинство вообще никак источниками не подтверждено.
И уследить за всем этим просто невозможно.

И наверное это общее больное место не только русских профилей, но и иностранных. Даже по известным, хорошо представленным в документах, фамилиям - какие-то обрывки сведений и деревьев.
Например, достаточно набрать в поиске какое-нибудь популярные иностранные имена и фамилии. Например, по какому-нибудь Patrick Stewart или John Smith вылезет уйма профилей, где наверняка можно найти уйму совпадений. И кто во что горазд. Есть лица из рода Стюартов и других шотландских родов, которые идентифицируются по принадлежности к определенному семейству (с порядковым или по титулу, например, Stewart, 1st (2nd, 3rd) Earl of Bute. Stewart, 1st of Ardvorlich. Gordon, of , Пользователи как-то только не вводят такие профили - кто с титулами (номерами), кто без - без "бутылки" не разберешься. И только по времени, жена и детям можно идентифицироваться тот или иной профиль.

Только это настолько муторно - рыскать по страницам с результами, что этим особо никто не занимается. В свое время я как-то пытался заняться шотландскими родами - литературы по ним в интернете досточно много. Только потом забросил, потому что ... Какое-то дерево доведено (посредством ввода от предков до потомков) до определенного поколения и далее стоп. А потом ищи на десяткам страниц в результатах поиска профили следующее поколение, которые когда-то кто вводил наоборот (от потомков к предкам).

С русскими профилями в этом плане как-то проще работать - все таки у нас не настолько много профилей с одинаковыми именами и фамилиями и в результатах в основном достаточно четко все выискивается (если не считать, пресловутых профилей Моженкова). И есть такая важная составляющая, как отчество. Иностранцам иногда это очень сложно понять. Многие из них вводят профили с именами и фамилиями, а отчество не вводят. И потом попробуй найти и идентифицируй дубликат русского профиля на английском и наоборот. Попробуй найди какого нибудь Ивана Петровича Сидорова, которого могут написать как Ivan Sidorow, Iwan Petrovicz Sydorov и еще кучей разных других способов.

Поэтому, наверное важнее заполнять дерево в плане комплектности известных (представленных) родословных, работы с источниками (в том числе, уже многочисленными размещенными метриками, РС и ИВ - у Мормонов, на сайтах архивов и т.п. С ними не очень много кто здесь работает).

Все таки давайте будет откровенны - "русскими" профилями очевидно должны занимаются прежде всего пользователи, которые знают русский язык и соответствующую литературу и источники. И не маловажно, в том числе, из-за разного написания.

А русскоязычным кураторам я бы предложил профили, которые подтверждены документами и источниками (особенно архивными) в профиле - делать Masterprofile для исключения bad merges.

Огромное спасибо за такой детальный комментарий! Я почти 100% согласен по всем пунктам.

Да, на Geni проблема - много фактически недостоверной и неполной информации. Иногда из-за вандализма / хулиганства, но чаще по незнанию. Еше много дупликатов. Все проблемы сразу мы тут не решим, но я надеюсь немного помочь в их решении.

Да, есть вероятность, что любые новые данные данные на Geni кто-нибудь использует не по назначению. Но мне более вероятными кажутся сценарии, когда наличие транслитерация поможет. Например: добавляем в Geni профиль человека, прожившего всю или почти всю жизнь в Российской Империи или в СССР. Соответственно, имя - по-русски. Но когда я стал добавлять транслитерацию к своим старым профилям, то уже не один десяток раз(!) обнаруживал, что ещё кто-то когда-то добавил в Geni другой профиль того же человека с именем только латиницей, без русского. При слиянии дупликатов нередко находится новая информация, что хорошо.

Не о транслитерациях латиницей:

Согласен, что отчества очень полезно заполнять - и по-русски, и в транслитерации!

Согласен, что источники лучше документировать, и Geni для этой цели довольно удобен. Согласен, что многие - в Западной Европе и северной Америка чаще, чем в России :) попросту врут/врали - о своём происхождение от всяких знаменитостей, о получении дворянства, и т.п. Эта огромная проблема в генеалогии уже много веков, а хорошее решение - документировать источники. Нет источников - значит в большей вероятностью неправда или ошибка.

Согласен, что если кураторы начнут больше MP-ть русские профили, когда уместно, то уменьшат ошибочные слияния, но не создание дупликатов.

Volodya Mozhenkov Volodya Mozhenkov has long been inactive, and this and the related project https://www.geni.com/projects/Memorial-USSR-political-terror-victims/28427 seem to be abandoned. He never returned to thousands of profiles he created years ago for these projects. There are lots of duplicates, and most profiles have little to no genealogical value, they only clog search lists. I'd suggest mass-removing those profiles in these two projects that have never been edited since creation. We won't lose any genealogical value with this cleanup. Info is still available online on sites like https://lists.memo.ru and https://ru.openlist.wiki. What do you think, Mike Stangel?

Private User . Отчасти я понимаю, что вы написали - тяжело иногда искать какие-то в результатах поиска по ФИО (или частично - по отчеству и фамилии, например), когда в эти результатах много Моженковских профилей.

Но технически трудоемко сделать такое массовое удаление. Алгоритм удаления будет сложный и будет сжирать компьютерные ресурсы сервера. Я точно не знаю, конечно, каким образом построена база. Но по ссылке на страницы профилей каждый профиль закодирован под номером

Amos Eagle Elliston это профиль № 1, он был создан первым в 2006 году и до сих пор активен

N - этот профиль я создал несколько минут назад

Не уверен конечно же, но возможно, в базе данных, соответствующем каждому профилю, есть типа свойства "удалено-активно". Соответственно, теоретически можно "удалить" профили, пройдя по всем ним и сделать соотв. отметку в свойствах.

Причем, удаление профилей не удаляют всю их историю. Она остается в базе. Если профиль восстанавливается, то и история восстанавливается.

Соответственно всего на проекте уже минимум 6000000205172077916 профилей. Часть из них удалена, часть объединена с другими профилями. Но число это все равно очень большое.
Механизм поиска профилей должен пройти все из них, определить какие из них Моженковские и удалить - это минимум.

Но большая часть Моженковских профилей уже вклинена в систему - объединена между собой и с другими и встроена во Всемирное древо. Часть Моженковских профилей не соединена во Всемирное древо, но соединена в локальное древо.

Часть Моженковских профилей не объединена, но в них уже есть изменения. Например, я иногда пишу в них информацию, что это возможный дубликат другого профиля, когда я в этом не уверен. С перекрестными ссылками между профилями.

Удалять возможно надо лишь те профили, которые НИКАК не затронуты никакими изменениями, подобными выше описанным. Написание такого алгоритма - конечно не настолько трудная задача для настоящих программистов, но это уже не целесообразно.

К тому же, удалять ВСЕ Моженковские профили - это унижает труд других пользователей, которые с этими профилями работали. Моральную составляющую тоже надо учитывать.

Также профили с "little to no genealogical value" и не имеющих никакие связи (родителей, детей, супругов и т.п.), есть и у господина Квашнина, господина Волкова и других пользователей. Тогда уж по справедливости надо все такие профили удалять, а не только Моженковские.

И потом, что значит little genealogical value? Little is not equal to No. ФИО, дата и место рождения, которые есть в большинстве Моженковских профилей - это уже какая-то информация, имеющая определенное значение.

Если уж удалять - их надо было в 2016 году, когда Моженков их загружал.

Сейчас их удаление уже неактуально, потому что поезд ушел, поздняк метаться.

Private User, мне кажется, вы невнимательно прочитали или неправильно поняли. Я не предлагаю удалять ВСЕ моженковские профили, и "унижать труд других пользователь", а удалить только те из них, которые после создания ни разу не редактировались (это программно легко отслеживается по истории изменений, с дельтой по времени, допустим, +- сутки). Удаление их в любом случае актуально, потому что пользы от них всё равно никакой нет. Мне также кажется, что вы ошибаетесь на счёт количества записей в базе, и шестёрка с несколькими нулями - это не порядковый номер, а некий запас для подстраховки, чтобы счётчик записей не переполнялся. Механизм поиска НЕ должен проходить по всем профилям в базе - это просто нерационально сравнивать пересечения большого множества (вся база) с малым подмножеством (профили в двух проектах, многие из которых одновременно находятся в обоих). Наоборот, достаточно проверить эти малые подмножества на соответствие условиям (не редактировалось с момента создания)

Признаю свое заблуждение:-)

Давно это было, в начале 90-х, поэтому теория немного подзабылась. Была у меня книжка еще советская переводная кажется "Мир Лиспа", где были программы аж на ЛИСПе для нахождения кратчайшего пути между станциями в метро, и программы для работы с множествами.
Поиск пути между двумя профилями (ближайших общих предков) - по тем же принципам построено. Теория граф.

Насчет номера, похоже, вы тоже правы. Здесь зарезервированы номера от 1 до максимального 19-ти значного номера.
Номер 6666666666666666666 - 19 (девятнадцать) шестерок - еще доступен и выдает "Профиль (Нет имени) больше не доступен."
Аналогично 19-цать восьмерок, семерок также выдает.

Вот 19-цать девяток - уже переход на свой профиль.

А уже двадцать цифр и больше - выдает страницу Error: Page or Resource Not Found

Поэтому в принципе, если сравнивать множества - алгоритм поиска не очень сложный и должен достаточно оперативно сработать с Моженковскими профилями.

Другой вопрос - захотят ли в geni заморачиваться этим?

3-4 раза я добавлял профили, и она оказывались дубликатами профилей, которые когда-то добавил Моженко. Один раз даже узнали из его прифиля дату смерти (в тюрьме), которой раньше не знали. Моё мнение - пусть все остаются, возможно кому-то еще пригодятся.

4 года назад написал "ТЗ" для очистки, были уточнения от Дениса. Не думаю, что это ковид остановил процесс )) Видимо, время так и не пришло. Мир сильно изменился, распознавание слитного рукописного текста позволяет индексировать архивы, мы много тащим из https://ya.ru/archive из госкаталога, из базы genotek, Иконникова, но уже хочется этот процесс механизировать. Более того плотность данных возросла, если 10 лет назад можно было заводить родословные и иметь редкие пересечения, сейчас не так. То есть, наблюдается потребность в других скриптах, причем с использованием AI, например, проверить большой список лиц на наличие профилей, сверить метрические записей с датами в профилях и т.д.А с другой стороны, проекты типа Фамилио перетягивают на себя внимание неофитов и многое там выглядит весьма привлекательно.
Решение вопроса с Моженковским наследством не считаю достаточно важной проблемой, есть другие.

Showing all 19 posts

Create a free account or login to participate in this discussion