URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 133926
[ Назад ]

Исходное сообщение
"Первый стабильный релиз СУБД DuckDB"
Отправлено opennews , 04-Июн-24 15:56

После шести лет разработки представлен выпуск СУБД DuckDB 1.0, позиционируемой как вариант SQLite для аналитических запросов. DuckDB сочетает такие свойства SQLite, как компактность, возможность подключения в форме встраиваемой библиотеки, хранение БД в одном файле и удобный CLI-интерфейс, со средствами и оптимизациями для выполнения аналитических запросов, охватывающих значительную часть хранимых данных, например, выполняющих агрегирование всего содержимого таблиц или слияние нескольких больших таблиц. Код проекта написан на языке C++ и распространяется под лицензией MIT...
Подробнее: https://www.opennet.me/opennews/art.shtml?num=61309

Содержание

Первый стабильный релиз СУБД DuckDB,Аноним, 15:56 , 04-Июн-24
Первый стабильный релиз СУБД DuckDB,Аноним, 16:07 , 04-Июн-24
- Первый стабильный релиз СУБД DuckDB,Аноним, 16:45 , 04-Июн-24
  - Первый стабильный релиз СУБД DuckDB,Аноним, 17:31 , 04-Июн-24
    - Первый стабильный релиз СУБД DuckDB,гага, 20:25 , 04-Июн-24
      - Первый стабильный релиз СУБД DuckDB,Аноним, 22:08 , 04-Июн-24
        
        Первый стабильный релиз СУБД DuckDB,Аноним, 23:02 , 04-Июн-24
        Первый стабильный релиз СУБД DuckDB,гага, 12:57 , 05-Июн-24
      - Первый стабильный релиз СУБД DuckDB,Sw00p aka Jerom, 11:28 , 05-Июн-24
        
        Первый стабильный релиз СУБД DuckDB,гага, 12:56 , 05-Июн-24
        
        Первый стабильный релиз СУБД DuckDB,Sw00p aka Jerom, 13:28 , 05-Июн-24
- Первый стабильный релиз СУБД DuckDB,penetrator, 17:10 , 04-Июн-24
  - Первый стабильный релиз СУБД DuckDB,Аноним, 01:13 , 05-Июн-24
- Первый стабильный релиз СУБД DuckDB,Wine is not emulator, 19:04 , 04-Июн-24
  - Первый стабильный релиз СУБД DuckDB,economist, 08:32 , 05-Июн-24
- Первый стабильный релиз СУБД DuckDB,Аноним, 01:10 , 05-Июн-24
Первый стабильный релиз СУБД DuckDB,Аноним, 10:07 , 05-Июн-24
- 123,Аноним, 10:31 , 05-Июн-24
  - 123,Аноним, 13:58 , 05-Июн-24
- Первый стабильный релиз СУБД DuckDB,Аноним, 12:01 , 05-Июн-24
  - Первый стабильный релиз СУБД DuckDB,Аноним, 14:04 , 05-Июн-24
    - Первый стабильный релиз СУБД DuckDB,Аноним, 16:20 , 05-Июн-24
    - Первый стабильный релиз СУБД DuckDB,Аноним, 21:10 , 05-Июн-24
      - Первый стабильный релиз СУБД DuckDB,Neon, 22:00 , 05-Июн-24
        
        Первый стабильный релиз СУБД DuckDB,Аноним, 00:23 , 06-Июн-24
Первый стабильный релиз СУБД DuckDB,Аноним, 20:44 , 05-Июн-24
Первый стабильный релиз СУБД DuckDB,Neon, 22:01 , 05-Июн-24

Сообщения в этом обсуждении

"Первый стабильный релиз СУБД DuckDB"
Отправлено Аноним , 04-Июн-24 15:56

Когда переменные начинают крякать это я понимаю. Но когда начинают крякать целые базы данных это уже явная девиация.

"Первый стабильный релиз СУБД DuckDB"
Отправлено Аноним , 04-Июн-24 16:07

Пробовал несколько месяцев назад, надо было подмёрживать небольшую таблицу к большой (несколько сотен ГБ), которая лежит в паркетах на HDFS. Т.е. простой мёрж, никаких там группировок на всех данных. Так вот, если искусственно скармливать этой утке небольшие чанки от большой таблицы - то вывозит. А если сразу всё, то падает с ошибкой выделения памяти, хотя свободной памяти на серваке ещё. Интересно, пофиксили ли.

"Первый стабильный релиз СУБД DuckDB"
Отправлено Аноним , 04-Июн-24 16:45

Может ты просто не правильно делаешь булк инсерт?

"Первый стабильный релиз СУБД DuckDB"
Отправлено Аноним , 04-Июн-24 17:31

Причём тут булк инсерк? У меня есть несколько сотен ГБ в паркетах, к ним нужно примёржить пару МБ и получить результат (тоже пару МБ). Всё это из питона.

"Первый стабильный релиз СУБД DuckDB"
Отправлено гага , 04-Июн-24 20:25

Так и говорите терминами хотя-бы свойственных базам данных, делаете джоин - так делайте меньшее в большее т.к. базе в ином случае нужно хранить в памяти все ключи первой таблицы и она пошлет вас на три буквы если датасет окажется слишком большим

"Первый стабильный релиз СУБД DuckDB"
Отправлено Аноним , 04-Июн-24 22:08

Так разрабы этой субд как раз хвалились, что она у них для больших данных и типа умеет не тащить всё в память, а при необходимость работать с большими таблицами даже если в память всё не влезает. А в моём случае ещё и памяти свободной на серваке было завались. А по факту оказалось, что ей надо на чанки все равно бить. Ну и нафига оно тога нужно?

"Первый стабильный релиз СУБД DuckDB"
Отправлено Аноним , 04-Июн-24 23:02

Без кода гадать по комментам что где и почему упало бессмысленно. Может у тебя там в цикле все паркеты в память читаются.

"Первый стабильный релиз СУБД DuckDB"
Отправлено гага , 05-Июн-24 12:57

> Так разрабы этой субд как раз хвалились, что она у них для
> больших данных и типа умеет не тащить всё в память, а
> при необходимость работать с большими таблицами даже если в память всё
> не влезает. А в моём случае ещё и памяти свободной на
> серваке было завались. А по факту оказалось, что ей надо на
> чанки все равно бить. Ну и нафига оно тога нужно?
кликхаус тоже хвалится что может в большие данные, но большее в меньшее точно так-же вызовет повышенный расход памяти, то что оно может - эт не значит что головой думать не надо

"Первый стабильный релиз СУБД DuckDB"
Отправлено Sw00p aka Jerom , 05-Июн-24 11:28

> Так и говорите терминами хотя-бы свойственных базам данных, делаете джоин
юнион что такое?

"Первый стабильный релиз СУБД DuckDB"
Отправлено гага , 05-Июн-24 12:56

>> Так и говорите терминами хотя-бы свойственных базам данных, делаете джоин
> юнион что такое?
Юнион не даст результат в пару мегабайт при подаче на вход множества гигабайт

"Первый стабильный релиз СУБД DuckDB"
Отправлено Sw00p aka Jerom , 05-Июн-24 13:28

> Юнион не даст результат в пару мегабайт при подаче на вход множества
> гигабайт
"""
Т.е. простой мёрж, никаких там группировок на всех данных.
"""
что такое "простой мОрж" двух множест?

"Первый стабильный релиз СУБД DuckDB"
Отправлено penetrator , 04-Июн-24 17:10

так join вроде не фишка этих баз, она columnar?
ну 200 гигов нормальная реляционка без проблемы вывезет на join
вопрос там только в том сколько из этих 200 гигов тебе надо отдать и сколько там будет index scan

"Первый стабильный релиз СУБД DuckDB"
Отправлено Аноним , 05-Июн-24 01:13

Она умеет в join, но при неоптимальном запросе spillover может быть неприлично большим.
https://duckdb.org/docs/configuration/pragmas#temp-directory...

"Первый стабильный релиз СУБД DuckDB"
Отправлено Wine is not emulator , 04-Июн-24 19:04

Не 32-битная версия СУБД и/или клиента, случаем?
А зачем в таком встраиваемом формате хранят такие объёмы? Не знал, тут же полноценную RDBMS уже можно.

"Первый стабильный релиз СУБД DuckDB"
Отправлено economist , 05-Июн-24 08:32

RDBMS медленнее и намного. Колоночное хранение рулит. Большинство сравнений бессмысленны без понимания специфики данных. Например, большинство SQL-запросов к БД у экономистов читают 10% строк и многоуровнево группируют с множ. отборами. С такими данными и запросами DuckDB очень быстр. Та же SQLite примерно в 2,5 раза тормознее (но все же быстрее сетевых БД).

"Первый стабильный релиз СУБД DuckDB"
Отправлено Аноним , 05-Июн-24 01:10

Результат EXPLAIN ANALYZE в студию. А там посмотрим.
Может, утку неправильно приготовили.

"Первый стабильный релиз СУБД DuckDB"
Отправлено Аноним , 05-Июн-24 10:07

Знаю вопрос глупый, но нафига очередная база данных? Имеющихся мало? Какое уникальное торговое предложение (УТП) сабжа?
Вот допустим ищу я вакансию Девопса, в вакансиях в разделе знания БД у всех разные названия. Я думал что в ИТ принято перенимать лучшие практики? Нафига этот зоопарк?

"123"
Отправлено Аноним , 05-Июн-24 10:31

Потому что если ты знаешь допустим мускуль ты уточнишь в выдаче среди конкурентов. А когда ты знаешь какую то мутную фигню, которая почему то понадобилась эйчеру ты будешь возможно даже на первой странице.
А зачем кто-то стал это искать сотрудников для работы с фигнёй? Например потому что повелся на маркетинговый буль-щит.

"123"
Отправлено Аноним , 05-Июн-24 13:58

>А когда ты знаешь какую то мутную фигню, которая почему то понадобилась эйчеру ты будешь возможно даже на первой странице.
Ну и вакансий будем меньше и не факт что ЗП будет больше.

"Первый стабильный релиз СУБД DuckDB"
Отправлено Аноним , 05-Июн-24 12:01

Описание читал? Если да, то какие аналоги?

"Первый стабильный релиз СУБД DuckDB"
Отправлено Аноним , 05-Июн-24 14:04

А ты читал?
>позиционируемой как вариант SQLite для аналитических запросов.

"Первый стабильный релиз СУБД DuckDB"
Отправлено Аноним , 05-Июн-24 16:20

Какие аналоги?

"Первый стабильный релиз СУБД DuckDB"
Отправлено Аноним , 05-Июн-24 21:10

> Знаю вопрос глупый, но нафига очередная база данных? ... Нафига этот зоопарк?
...
> А ты читал?
>>позиционируемой как вариант SQLite для аналитических запросов.
Ну так сам и ответил - из приведенной тобой цитаты следует, что сабж лучше подходит для аналитических запросов, чем SQLite. Потому и зоопарк, что единственной серебряной пули для всех типов задач нет. Подбираешь БД под задачу.

"Первый стабильный релиз СУБД DuckDB"
Отправлено Neon , 05-Июн-24 22:00

Хотя бы простой примерчик аналитического запроса. А то одни общие слова

"Первый стабильный релиз СУБД DuckDB"
Отправлено Аноним , 06-Июн-24 00:23

Бог подаст. Типа, на слабо решил взять? Но "мопед не мой, я просто разместил..." А, стоп. И объява не моя, я только цитировал цитированное.
А вообще - учись уиться, если не троллишь. Для начала просто почитай в интернетах как обычно организованы традиционные реляционные БД (все эти таблицы, индексы и т.д.), что такое транзакции в БД и их уровни изоляции. Обязательно почитай про колоночные СУБД, чем они отличаются от традиционных реляционных построчных. Почитай про OLTP и OLAP. Потом желательно бы поработать с тем и другим на крупных базах, хотя бы с десятками и сотнями миллионами строк. Чтобы с одной стороны начальник тебя дрюкал за то, что документы медленно проводятся в системе и постоянно блокировки всплывают и ты бы с этим разбирался и прокачивался (тут больше OLTP), а потом дрюкал за то, что отчеты в налоговую или накопительные с начала года итоги по десяткам показателей для начальства по пол дня формируются (а это уже больше OLAP). Вот в процессе и изучил бы что такое Data Warehouses для аналитики, все эти построчные и колоночные БД и все эти агрегатные функции, включая разные ROLLUP и CUBE в GROUP BY, GROUPING и GROUPING SETS и оконные функции, все эти (если взять в пример ораклю) ... OVER(), которые тоже аналитика.

"Первый стабильный релиз СУБД DuckDB"
Отправлено Аноним , 05-Июн-24 20:44

как там с регистронезавимым кириллическим поиском?

"Первый стабильный релиз СУБД DuckDB"
Отправлено Neon , 05-Июн-24 22:01

Приложили бы в описании хотя бы простой пример аналитического запроса. А то одни общие слова.