Компания Jina открыла под лицензией Apache 2.0 модель машинного обучения для векторного представления текста - jina-embeddings-v2. Модель позволяет преобразовать произвольный текст, включающий до 8192 знаков, в небольшую последовательность вещественных чисел, образующих вектор, сопоставленный с исходным текстом и воспроизводящий его семантику (смысл). Jina Embedding стала первой открытой моделью машинного обучения, обладающей характеристиками, не уступающими пропретарной модели векторизации текста от проекта OpenAI (text-embedding-ada-002), также способной обрабатывать тексты, насчитывающие до 8192 токенов...Подробнее: https://www.opennet.me/opennews/art.shtml?num=59996
Я только не понимаю, почему так популярно повторять эту чушь в духе "не уступающими пропретарной модели", ведь, совершенно очевидно, это сразу позволяет сделать все нужные выводы об авторах и их поделке.
Круто, а можно скормить текст этой новости? Что на выходе?
на выходе будет 4739427419879182482756384539874569234
Не верю. Модель выводит не одно десятичное число, а вектор float32.
да, это вектор, просто я весь вектор привел в int128.
128 / 32 = 4. Ты хочешь сказать, что 4мя флоатами любой текст описывается?
А доку открыть никак? Там 512-ти мерный вектор. Еще можно 1024-мерный. В зависимости от модели и заданных параметров.. Но речь про 512 флоатов по 4 байта.
Йа, йа! Ничуть не хуже!* Аналогов нет!** Бесплатно!***
* Одной протестированной (по непонятным критериям) соперницы из десятков** Среди таких же бесплатных.
*** До первого серьёзного коммерческого предложения
Ты чего рвёшься то на ровном месте?
это плато
>под лицензией Apache 2.0В репозиториях нет файла лицензии.
Достаточно упоминания.
> (базовая - 0.27 ГБ и сокращённая - 0.07 ГБ)а в петабайтах будет казаться ещё меньше! вам бы маркетологов на завод отправить
Базовая 270000 KB и сокращённая 70000 КБ.
Можно на микроконтроллерах крутить.
я для базовой 2319282339.84 бит насчитал, можно даже в столбик обработать, микроконтроллеры избыточны
Этот человек еще со школы не понимал шутку про 1,5 землекопа )))
так ты бы объяснил, а то мы все тупые
Шутку про землекопа может понять тот, кто вырос на советских мультиках.
А смысл?
Смысл станет ясным к завершению проекта. Сейчас можно лишь предполагать, что результатом будет иск на $75 млн. https://www.cnews.ru/news/top/2023-10-23_muzykalnaya_otrasl_...
Почему на Гугл иск не подали, ведь у него в индексе весь интернет?
Ты не понял смысл написанного. Иди и прочти новость 10 раз.
Иска не будет. они будут Свободный текст превращать в ветор.
Это ещё ничего. Вот когда кто-то догадается натренировать нейросетку на юридических и судебных материалах стран с прецедентным правом, и стоящую в США миллионы долларов работу целой оравы адвокатов и юристов будет делать с таким же качеством какой-нибудь LawyerGPT за два доллара, вот тогда будет эпичное веселье.
лоеры научаться эксплуатировать несовершенства модели и будут обдирать всех пользователей оных как липки.
Не думаю. Поиск в сети уже отравлен. ИИ уже в коллапсе.
Например, к спамобойке прикрутить. Тогда админ задаёт некий общий смысл (например, "несите ваши денежки инвестировать вместе с Тинькофф"), а сабж накидывет парочку баллов в оценку, если смысл текста близок к заданному.
Угадай сколько в этом тексте латинских символов?
>неcитe вaши дeнeжки Nнвeстирoвaть вмeстe с 7иньк0фф
Делов-то, для каждой буквы кириллицы составить список омоглифов и перед обработкой проводить нормализацию текста.
И наоборот можно будет? Типа задал вектор 42, и оно тебе сгенерировало текст о смысле жизни. Добавил к вектору ещё 0.13 и оно модифицировало смысл в сторону бессмыслености жизни и т.п.
Ты выныриваешь раз в три года чтобы написать комментарий? Похвально чо.
"Правитель наблюдает мир и знает,
Что путь управления един.
Но единое всегда превращается в двойственность явлений,
А все явления имеют троичную структуру,
В которой соединяется идеальное, материальное и реальное.
А вот из троичности образуется множественность всех событий и предметов..."
дао-де цзин, глава 42 (из 81)
Ты только что изобрел ChatGPT, только циферки вводятся неявно.
Тут интереснее скорее можно ли, взял другую сетку натренированную на русском языке, подсунул ей векторы полученные в английской и у тебя перевод? Не нужно тренировать отдельно сетку переводящую с монгольского на японский, а взял сетку японскую и сетку монгольскую и ага.
Не раскрыта тема размерности векторного пространства.
768
1024
Речь не о тех векторах.
Не смысла, а поля интерпретаций из текста в текст. Хотя, в современной семантике смысл трактуется именно, как отображение одного текста в другой.
А как работает смысл не относительно чего-то? И разве относительно чего-то мои чувства и ощущения?
Ваши чувства и ощущения - это иллюзия порождаемая всего лишь несколькими тысячами (десятками тысяч в редких случаях) паттернов выстраиваемых в цепочки генератором псевдослучайных чисел.
Тексты для тренировки подбираются запатентованным образом или достаточно взять все существующие работы по схоластике, астрологии и марксизму-ленинизму?
Предполагаю, что для отбора текстов использовалась другая LLM с текстовым запросом.
Да весь рекламный бред от маркетологов скормить бедному AI и посмотреть, что с ним будет.)))
Векторный гипертекстовый фидонет всё ближе
Шутка, понятная не только лишь всем
А есть ссылка на пример ? Текст + Картинка.
> позволяет преобразовать произвольный текст, включающий до 8192 знаковТокенов, а не знаков.
ЛСДУЗ и ЙФЯУ9 в ней сгенерили?