Обмен XML (выписки из кадастровой)

Тема в разделе "Исходные данные", создана пользователем ANAT01, 23 апр 2014.

?

У меня есть xml данные запросов и я :

  1. поделюсь ими, мне не жалко

    91,6%
  2. оставлю у себя, пусть кто хочет сами делают запросы и платят деньги

    2,1%
  3. отпишусь в комментариях

    6,3%
  1. -=13=-

    -=13=- Форумчанин

    Gan, ANAT01, куда послать свои выписки по кварталам чтобы их включили в обмен через BitTorrent Sync?
    Ну и меня к раздаче/скачиванию всего "богатства" добавили?
     
  2. ANAT01

    ANAT01 Форумчанин

    Свои выписки можете отправить на freexml@yandex.ru
    Для скачивания всего "богатства" в программе битторентсинк нажмите на "ввести ключ" и укажите BUT3FQ23W7IGM42O2JUXFJM3JAFHN5JU5
    Вся база в архивах 7z. (Для распаковки понадобится архиватор 7z)
    Сейчас все работает так сказать в пробном режиме.
     
    Последнее редактирование: 8 дек 2014
    -=13=- нравится это.
  3. геоволк

    геоволк Форумчанин

    данных не жалко. только вопрос:я заказал кпт для работ-скинул вам-провел работы-кпт изменился. кому нужен не правильный?
     
  4. -=13=-

    -=13=- Форумчанин

    геоволк, я писал на прошлой странице... ДДЗ, генпланы, проекты планировок и т.п. по кадастрам удобно сажать.
    Для проведения статистики, там +/- участок - не важно.
    Есть ещё задачи по выбору участков, определению землепользователей при проектировании линейных объектов, хотя бы примерно понять перечень пересекаемых лиц. Ну а наличие ЗОУИТ - помощь при выявлении коммуникаций при изысканиях. Пользы - вагон.
     
  5. ANAT01

    ANAT01 Форумчанин

    Скиньте на почту! ::biggrin24.gif::
    Про тех кто это использует могу только сказать:
    Не знаю кто они, но апельсины xml'ки любят ::laugh24.gif::
     
  6. ANAT01

    ANAT01 Форумчанин

    Выкроил день позаниматься "нашей базой" и провел, так сказать, аудит данных в ней.
    В итоге на сегодня в ней
    - данных КПТ ~9000 файлов
    - данных КВЗУ ~2000 файлов
    - данных ЕГРП ~100 файлов
    (по крайней мере это те файлы что у меня есть в наличии. из-за различия версий выписок не получается выложить их все. Выкладываются только 8ой версии и похожие по заголовкам)

    Столкнулся с проблемой, что парсер на php не может обработать файлы больше 20мб из за недостатка памяти (сейчас оперативки 3Гб).
    Это были пробные наскоки и как появится время попробую поточные парсеры.

    PHP мне принципиален, т.к. завязываю на нем все управление данными (использую фреймворк laravel)
    Сейчас он используется для задач по поиску и конвертированию кпт'шек, например:
    php artisan kpt:search 66:12:0100201
    php artisan kpt:convert --type=mif 66:12:0100201
    и т.д.

    Надеюсь, что хватит сил и времени допилить задуманное! ::biggrin24.gif::
     
    -=13=- нравится это.
  7. adon73

    adon73 Форумчанин

    немного не разобрался, как скачать только интересующий регион, поэтому скачал все, что было ... :(
    все никак времени и ресурсов (нормального интернета) нет, чтобы свои выписки выложить...
     
  8. -=13=-

    -=13=- Форумчанин

    adon73, засылайте авторам сайта и обмена. В этом и суть - всё для всех.
     
  9. ANAT01

    ANAT01 Форумчанин

    В раздаче есть файл "Инструкция.txt" - там все написано о том как качать только интересующие регионы.
    Смысл в том, чтобы указать все ненужное в файле IgnoreList (он находится в папке .sync директории куда идет загрузка раздачи)

    Тот регион который вам нужен пометьте "решеткой" # или удалите из списка.
    IgnoreList (раскрыть)

    01*.7z
    02*.7z
    03*.7z
    04*.7z
    05*.7z
    06*.7z
    07*.7z
    08*.7z
    09*.7z
    10*.7z
    11*.7z
    12*.7z
    13*.7z
    14*.7z
    15*.7z
    16*.7z
    17*.7z
    18*.7z
    19*.7z
    20*.7z
    21*.7z
    22*.7z
    23*.7z
    24*.7z
    25*.7z
    26*.7z
    27*.7z
    28*.7z
    29*.7z
    30*.7z
    31*.7z
    32*.7z
    33*.7z
    34*.7z
    35*.7z
    36*.7z
    37*.7z
    38*.7z
    39*.7z
    40*.7z
    41*.7z
    42*.7z
    43*.7z
    44*.7z
    45*.7z
    46*.7z
    47*.7z
    48*.7z
    49*.7z
    50*.7z
    51*.7z
    52*.7z
    53*.7z
    54*.7z
    55*.7z
    56*.7z
    57*.7z
    58*.7z
    59*.7z
    60*.7z
    61*.7z
    62*.7z
    63*.7z
    64*.7z
    65*.7z
    66*.7z
    67*.7z
    68*.7z
    69*.7z
    70*.7z
    71*.7z
    72*.7z
    73*.7z
    74*.7z
    75*.7z
    76*.7z
    77*.7z
    78*.7z
    79*.7z
    80*.7z
    81*.7z
    82*.7z
    83*.7z
    84*.7z
    85*.7z
    86*.7z
    87*.7z
    88*.7z
    89*.7z
    90*.7z
    91*.7z
    92*.7z
    93*.7z
     
    -=13=- нравится это.
  10. Yar_26

    Yar_26 Форумчанин

    Добрый день! А есть там КПТ-шки по Крыму?
     
  11. ANAT01

    ANAT01 Форумчанин

  12. ANAT01

    ANAT01 Форумчанин

    Прислали выписки XML. Архив около 600 мб.
    В архиве около 10000 тысяч файлов, в том числе различный хлам вроде файлов Mapinfo, картинок (jpeg, tif), PDF-файлов и прочее. Все в папках и подпапках различной структуры.

    Для добавления в базу потребовалось "отделить зерна от плевел". В этом очень выручает консоль linux.
    Поместив все файлы в папку alldata натравливаем на нее find для поиска и вытягивания всех XML и SIG файлов в папку unsorted
    Код:
    find ./alldata -type f -iname "*.xml" -o -iname "*.sig" -exec mv {} unsorted/ \;
    ,далее там могли остаться архивы и другие файлы. Чтобы не лазать по папкам переместим все файлы в папку tmpdata и вручную посмотрим остатки.
    Код:
    find ./alldata -type f -exec mv {} tmpdata/ \;
    т.к. есть вероятность того что одинаковые файлы могли называться по разному (например выписка была в формате doc_32432423.xml, а человек положил ее копию в другое место и назвал 73-16-0000000.xml), а так же есть вероятность, что фалы с расширением XML - вовсе не xml файлы, то натравим на папку unsorted скрипт
    В итоге получим все валидные xml'ки без дубликатов в папке xml. К слову изначальный архив похудел после обработки с ~600мб до ~150мб.

    Внимание! Перед всеми манипуляциями сделайте копию исходных данных, чтобы потом не пришлось долго и мучительно откусывать себе пальцы.
     
    Последнее редактирование: 5 мар 2015
    -=13=- и adon73 нравится это.
  13. ANAT01

    ANAT01 Форумчанин

    Количество файлов по типу выписки
    КоличествоТип
    1EGRP/Reestr_Extract_Object/03/Common.xsl
    1EGRP/Reestr_Extract_Object/04/Common.xsl
    2GKN/KPT/09/common.xsl
    2GKN/Decision/01/common.xsl
    3GKN/KVOKS/01/common.xsl
    7GKN/KPOKS/02/common.xsl
    7GKN/RefusalByDecision/01/common.xsl
    9GKN/Vidimus/06/common.xsl
    12GKN/Vidimus_KP/04/common.xsl
    18GKN/Vidimus/03/common.xsl
    30GKN/RefusalNoData/03/common.xsl
    37GKN/Vidimus_KP/03/common.xsl
    98GKN/KPT/01/common.xsl
    137EGRP_FIR/Reestr_Extract_Object/03/Common.xsl
    1102GKN/Vidimus/05/common.xsl
    1938GKN/Vidimus/04/common.xsl
    4308GKN/KPT/07/common.xsl
    8142GKN/KPT/08/common.xsl
    Ссылка на полный архив файлов здесь. (размер архива 800мб, после распаковки 10Гб !!!)
    Не забывайте присылать XML-выписки на freexml@yandex.ru

    PS: Потерял скрипты сортировщики/упаковщики, поэтому пока что данные в раздаче не обновляются.
     
    Последнее редактирование: 26 мар 2015
  14. ANAT01

    ANAT01 Форумчанин

    [​IMG]
    [​IMG]
    --- Сообщения объединены, 26 мар 2015, Оригинальное время сообщения: 26 мар 2015 ---
    Какие данные должны быть в раздаче?
    Я считаю, что КПТ и моооожет быть КВЗУ. Все остальное пустить под нож.
     
    -=13=- нравится это.
  15. adon73

    adon73 Форумчанин

    ЕГРП можно оставить...
     
  16. -=13=-

    -=13=- Форумчанин

    Мда, весьма не однородно. жадничают кадастровые инженеры. Не понимаю, ведь всё равно через пару-тройку месяцев КПТ устаревает и нужен новый.
    По моему вполне достаточно.
    ЕГРП устаревают ещё быстрее чем КПТ и выписки.
     
  17. ANAT01

    ANAT01 Форумчанин

    Обновил раздачу (Убрано все кроме КПТ, только самые "свежие")

    Только не знаю как. Или префикс ставить (EGRP_66-05....) или отдельной раздачей раздавать.

    С упаковкой в архивы думаю завязывать надо... Упаковка базы заняла 40 минут (Core i3, SSD, 16GBRAM)
    К тому же из-за пары новых файлов перепаковывать затратно, да и трафика много уходит на обновление архива.
     
    -=13=- и adon73 нравится это.
  18. -=13=-

    -=13=- Форумчанин

    ANAT01, нужно как-то тему распространять, залежи у людей есть, особенно работающих по конкретной местности.
    Я не вижу пользы, кроме как контурная основа для привязки ДДЗ и белее-менее свежей статистики при анализе территорий. Обмен полезен всем кто касается кадастра опосредованно при работе в какой либо местности без акцентирования работ для кадастра. Жаль сам не богат, также сижу в одном районе, базой владею, но не XML.
    Знаю, что многие запрашивают районы целиком для своих работ, но не "светят" из жадности, всё же получение стоит десятки тысяч рублей.
     
  19. stavr

    stavr Форумчанин

    ANAT01, то, что я выложил на http://kpt.kadnet.ru/ за 2014 г есть смысл вам присылать? Или данные оттуда есть в вашей обновлённой раздаче?
     
  20. ANAT01

    ANAT01 Форумчанин

    С данным сайтом никак не связан, поэтому не знаю что там есть.
    Присылайте. Пока что место на харде и безлимитный интернет позволяют принимать все.
    К тому же очистка от дубликатов данных происходит довольно быстро (см. на несколько сообщений выше)
     
  1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie.
    Скрыть объявление
  1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie.
    Скрыть объявление