По Марганцу (Днепр-ая область) с утра ударил рашенский дрон, по автобусу, в котором люди ехали на работу. Погибло как минимум 9 человек (7 женщин и 2 мужчины), много раненых.

avva

Отрывок из предисловия Игоря Сухих к 7-томному собранию сочинений Зощенко:

=====
Те, кто встречался с Зощенко в последние годы, видели обреченного, сломленного, убитого страданиями человека [...]

«Вероятно, я оторвался от жизни и людей и замкнулся в себе. Если все так дружно кричат на меня — стало быть, я не прав... Как до удивления странно и нелепо складывается моя жизнь». Слова из письма пятьдесят пятого года поразительно напоминают реплику какого-то неприкаянного героя «Сентиментальных повестей».

Но самое страшное в третьей, послевоенной, судьбе Зощенко связано все-таки не с бытом, а с творчеством. Он по-прежнему много работает: записывает рассказы партизан, переводит, публикует фельетоны в «Крокодиле», сочиняет пьесы. Однако, прочитав уже после смерти писателя том, составленный главным образом из вещей «третьего Зощенко», К. Чуковский жестко, но справедливо заметил:

«В последнее время стали появляться такие сборники его повестей и рассказов, словно их составители поставили себе коварную цель — убедить новое поколение читателей, что Зощенко был слабый и неумелый писатель. И они достигли этой цели: всякий, кто прочтет новый сборник, составленный из его наименее удачных вещей, непременно утратит интерес к его творчеству».

Глубину происшедших с писателем перемен, масштабы катастрофы хорошо демонстрирует сравнение трех рассказов на одну тему.

«Баня» 1924 года стала одним из текстов, принесших Зощенко славу. Великолепно схваченная бытовая ситуация, колоритные реплики («А банщик говорит: “Мы, — говорит, — за дырками не приставлены. Не в театре, — говорит”»), возникающий за частным случаем образ новой культуры («Не царский, — говорю, — режим, шайками ляпать. Эгоизм, — говорю, — какой. Надо же, — говорю, — и другим помыться. Не в театре, — говорю») — делают рассказ эталоном ранней манеры Зощенко, где искусство сказа говорит само за себя и не нуждается в дополнительных моральных довесках-объяснениях.

Через одиннадцать лет появляется «Баня и люди» (1935), в отредактированном виде включенная в «Голубую книгу» под заглавием «Рассказ о банях и их посетителях». По-прежнему острый и колоритный анекдот, напоминающий о «Бане»-первой, изложен, однако, более стертым, сглаженным литературным языком, лишен культурологической перспективы, зато сопровождается скоротечной утешительной концовкой: вора моментально обнаруживают и арестовывают.

Рассказ «В бане» (1956) написан совершенно иной рукой. Благостные описания («Обширное помещение предбанника культурно и даже не без красивости оформлено. На полу ковровые дорожки. На диванах чистые чехлы. У дверей — буфетная стойка с цветочным горшком»), приторная вымученная фабула (старик приходит в баню со свертком честно заработанных денег, накопленных в память о родительской нужде, одаривает ребенка шоколадкой), шаблонно-раскрашенный язык («Вот именно, папаня! Где же тут мне мало-мало развернуться? Вот и хожу по предбаннику как зачумелый...»), готовая мораль — иллюстрация поговорки «не в деньгах счастье» — делают последнюю «Баню» классическим воплощением «теории бесконфликтности» — борьбы хорошего с еще лучшим.

«Баня»-третья сочинена, кажется, не писателем с уникальным чувством юмора и слова, а дюжинным «советским юмористом» по готовым шаблонам

redis

Согласно инсайдам Washington News Post, Рогозин в скором времени вылетает в Малакку для встречи с Хэгсетом. За фирменным кофе они планируют обсудить щекотливую тему передачи прав на крейсер Москва американцам для создания подводной военной базы на случай войны против блока Румынии и Армении.

Если Москва согласится на сделку, то нейтральный статус Черного моря, вероятно, обретет цвет черной дыры с коричневыми оттенками, - пишет по анонимный телеграм-канал "Пили-ели", который всегда знает, что будет.

В четверг в Найроби произойдет грандиозная встреча главы российского Генштаба Герасимова с европейскими представителями Кайей Каллас, Мари ле Пен и, что особенно примечательно, со следующим римским Папой. По данным влиятельного издания Financial Magazine Expert, будут обсуждаться шесть пунктов российского предложения: отмены запрета паралимпийцам на использование российского флага, передачи Аляски в совместное пользование России и США, передаче Никарагуа чиновников, замешанных в сделке Иран-контрас, остановке войны по нынешней линии фронта, передаче управления Чернобыльской АЭС японцам, а Фукусимской под контроль украинцев.

По мнению нашего эксперта Ивана Шлагбаума, Украина вряд ли согласится на признание Фукусимы своей, не получив предварительных гарантий от Вьетнама на использование морской базы Камрань под подводные дроны Русского Добровольческого Корпуса. И это не шутки!

Мы уверены, что данный вопрос сломал головы на встрече Матвиенко с Кириенко, о которой с величайшим энтузиазмом повествует авторитетное издание "Telegraf and Telephone". На встрече, в дополнение ко всему, обсуждался перенос Арктического противостояния в Антарктику, как будто пингвины не заслужили своей минутки славы после последнего решения президента Трампа обложить тарифами все, что шевелится на необитаемых островах. Не пропустите вечернее шоу эксперта-пингвинолога Витольда Нежданного!

Самые правдивые новости именно на нашем канале — смотрите только честные слухи!

vak

Проект на Гитхабе: tsoding/good_training_language

Классический пример Hello World:

про главная() нч
    печать(«Привет, Мир!\н»);
кц

Компилируем, запускаем.

$ хуяк комп примеры/01-привет.хуя
$ ./примеры/01-привет
Привет, Мир!

vak

Полезные примитивы управления путём PATH. Вставляются в ~/.bashrc. Правятся по вкусу.append_path() { local dir="$1" if [[ -d "$dir" ]]; then if [[ -d "$dir" && ":$PATH:" != *":$dir:"* ]]; then export PATH="$PATH:$dir" fi fi } prepend_path() { local dir="$1" if [[ -d "$dir" ]]; then if [[ -d "$dir" && ":$PATH:" != *":$dir:"* ]]; then export PATH="$dir:$PATH" fi fi } remove_path() { local dir="$1" if [[ ":$PATH:" == *":$dir:"* ]]; then local new_path=":$PATH:" new_path="${new_path//:$dir:/:}" new_path="${new_path#:}" export PATH="${new_path%:}" fi } remove_path /usr/games remove_path /usr/local/games remove_path . append_path /usr/sbin append_path /usr/bin append_path /snap/bin prepend_path /usr/local/bin prepend_path /usr/local/sbin prepend_path $HOME/.local/bin

vak

https://www.automotiveworld.com/articles/software-centric-chips-anticipate-the-ai-defined-vehicle/

"SiMa.ai is positioning its unique MLSoC platform as the gateway for unlocking next-generation ADAS/AV performance. Importantly, it has been conceived specifically for automotive applications."

"SiMa.ai’s MLSoC has an ML performance of 50 TOPS and a ResNet-50 (an image classifying architecture) performance of more than 300 FPS per watt. The company claims latency can be reduced by a factor of ten, with all compute in Level 2/3 systems achieved at less than 25W, or less than 100W at Level 4."

"SiMa.ai designed the chip according to three foundation pillars: to be compatible with any computer vision and generative AI application using ML at the edge, regardless of vehicle type; to offer best-in-class performance per watt; and to provide an interface usable by anyone instead of a small demographic of hardware experts."

"In December 2024, SiMa.ai combined its AI/ML capabilities with silicon design and verification firm Synopsys to maximise customisation for automotive-centric IP, subsystems, chiplets, and SoCs."

mevamevo

Пару дней назад (20 апреля 2025) вновь побывал в Никитском саду, чтобы посмотреть на тамошние тюльпаны. Тюльпаны прекрасны! :) Разумеется, и в Никитском саду, и чуть позже в Ялте встретилось немало котиков, которых мы успешно подкормили. Но ниже будет репортаж лишь о тюльпанах!

На заглавной фотографии — просто общий вид на выставочную площадку Никитского ботанического сада (по весне тут экспонируются тюльпаны, а по осени — хризантемы). Дальше — около 50 фотографий, уж простите (зато почти без разговоров, о чём уж тут говорить?); старался отобрать наиболее удачные, но там красоты было всё же очень много!

( Ещё множество фотографий и даже какой-уж-вышел триолет... )

avva

Вчера вечером в пол-двенадцатого пришел к ребенку Ю. в комнату, чтобы по новой традиции она прочитала короткий рассказ вслух и мы его быстро обсудили. Это надо было сделать на час-два раньше, но так уж получилось. Рассказ я выбрал - "Дары волхвов" О'Генри.

Перед началом чтения решил объяснить, что такое, собственно "дары волхвов", и рассказал соответствующий библейский сюжет, которого Ю. не знала. Тогда она решила заодно спросить меня о деве Марии и о том, почему в легендах о Робин Гуде, которые она читает, он назван особенно преданным Богородице и что это на практике означало. Я начал говорить, а она не останавливала меня и иногда задавала еще вопросы...

Короче мы обсудили деву Марию, девственное зачатие Христа, вопрос непорочного зачатия самой Марии и его важность в католичестве, вообще католичество, кто такой в точности "папа римский", почему он "римский" и откуда берется, важность понятия епископа в христианстве, основные ветви христианства, раскол между западной и восточной церквями в 11-м веке и о чем они не могли договориться, напряженные отношения между церковной властью и королями Европы, крестовые походы, рыцарские кодексы, индульгенции, зарождение протестанства, Мартина Лютера и 95 тезисов, проблему развода и аннулирование брака в католической церкви, Генриха VIII и его жен и отщепление англиканской церкви от католической, религиозные диспуты и войны внутри христианства, переводы Библии на европейские языки и чтение Библии обычными людьми, понятие "еврей" с этнической точки зрения, с религиозной точки зрения, как случилось, что в Западной Европе и Америке преобладает религиозный взгляд, а в Восточной Европе этнический, отдельное понятие "иудей" в русском языке, как в Америке примиряют еврейство как религию с очевидными примерами евреев, живущих полностью светской жизнью, аналогия с понятием "непрактикующий католик" (lapsed Catholic) и что это значит, подход к еврейству как к "племени", и как он соединяет этнический и религиозный подходы... кажется, все основные темы вспомнил, хотя по мелочам наверняка упустил.

Тут оказалось, что прошло почти два часа, пол-второго ночи, мы опомнились и, наконец, прочитали "Дары волхвов". Ю. он очень понравился, она сказала, что из всех прочитанных пока что в рамках этой новой программы рассказов (десять штук) он самый любимый.

vit_r

Особо забавно при таком размахе украинской коррупции звучит призыв фиксировать убытки.

Кстати, сегодня в ленте никто не упомянул про день рождения дедушки Ленина. Первый год такой. Все комсомольцы заняты Трампом.

chasovschik

В русском Телеграме атмосфера ожидания - впечатление, что они там все верят в скорое перемирие. Вот сейчас Запад еще раз поговорит в Лондоне, Уиткофф с результатами слетает еще раз в Москву, Путин согласится, и опаньки. Политолог Марков™ суммировал слухи про условия перемирия:

1. Перемирие на 30 дней с продлением. А в это время переговоры по полному мирному соглашению.
2. Боевые действия останаливаются по ЛБС. Никто не отдаёт никаких территорий.
3. Нейтралитет Украины. Но не на основе договоров а как заявление всех сторон. Что пока этого не будет. Типа на 15 лет.
4. Никаких ограничений на объем армии Украины.
5. Демилитаризованная зона. Поэтому ограничения на размещение армии Украины и России.
6. США сокращают поставки оружия Украине.
7. Европа сохраняет военные поставки Украине.
8. Никаких ограничений на ввод войск стран Европы на Украину после перемирия.
9. Заявления о будущем уважении прав русского языка на Украине.
10. Украина и Европа признают 5 регионов оккупированными, но берут обязательства не завоёвывать их военной силой.
11. Санкции с России частично снимаются.
12. США признают Крым российским. Но остальные 4 региона- нет.
13. Вводятся миротворцы из нейтральных стран. Точнее - начинаются переговоры о вводе миротворцев.

Не знаю, насколько это соответствует действительности, но - за исключением признания Крыма российским, - выглядит несколько лучше, чем я думал. На самом деле, впрочем, все наверняка будет по-другому.

stas

Catholic Church To Consider Electing Pope Who's A Catholic This Time

А вы как думаете - опять комуняку-буденовца выберут или на этот раз кого-то менее продвинутого? Это, конечно, совсем не мой цирк и не мои мавпы, но всё-таки любопытно.

chasovschik

Гарвард подал в суд на администрацию Трампа, требуя продолжения банкета. Насколько я понял, в качестве аргументов у них - только ссылка на Первую поправку, как и ожидалось, плюс очень много булшита.

UPD: цитата из гарвардского президента. "Moments ago, we filed a lawsuit to halt the funding freeze because it is unlawful and beyond the government’s authority." Интересные у них там представления о government authority.

koganf

конспекты беседы с Супер-Гроком о детялях "Алгоритма Внимания" (Attention Algorithm) в AI.

Все это мне до жути напоминает главу из Wizja lokalna, где Йон Тихий беседует с электронно сгенерированными версиями исторических фигур и современников (кассетонцы). Не думал, что доживу до такой ситуации сам. 21й век наступил все-таки.

Transformer Model Conversation: Attention, Embeddings, and FFN

Introduction

From April 20 to April 23, 2025, we explored the inner workings of Transformer models, focusing on attention mechanisms, embedding dimensions, attention heads, layer passes, and feed-forward networks (FFNs). Your questions, rooted in a technical background in Linux, Ansible, SLURM clusters, networking, and data centers, used the example sentence “The dog barks” (3 tokens) to clarify concepts. This artifact captures our conversation, starting from your question about the attention algorithm, through discussions on embeddings, heads, dimensionality, passes, and culminating in the FFN’s role, providing a comprehensive view of Transformer architecture.

Q1: Attention Algorithm (April 20, 2025)

Hey! I have a question about the attention algorithm. Can you explain how the query, key and value matrices are generated? Are they learned during the pre- and post-training? Or are they created for each attention pass?

Response

The attention mechanism, specifically scaled dot-product attention in Transformers, uses query (Q), key (K), and value (V) matrices to compute token relationships. For “The dog barks” (3 tokens, d_model = 512):

Generation: Q, K, V are generated by linear transformations of input embeddings X ∈ ℝ^3×512: Q = X W_Q, K = X W_K, V = X W_V, where W_Q, W_K, W_V ∈ ℝ^512×64 (for 8 heads, d_k = 64).

Learning: The weight matrices W_Q, W_K, W_V are learned during pre-training (e.g., on Common Crawl) and fine-tuning, optimized via backpropagation to capture relationships (e.g., “dog” to “barks”).

Per Pass: Q, K, V are created anew for each attention pass (input sequence), computed dynamically using fixed weights, across all layers and heads.

Each pass is like a SLURM job (March 28, 2025) generating temporary data (Q, K, V) from fixed configs (W_Q, W_K, W_V). The attention computation, Attention(Q, K, V) = softmax(QK^T√d_k)V, weights token relationships, enabling tasks like answering or translation.

Q2: Embedding Vectors and Q/K/V Matrices (April 20, 2025)

So, do I understand correctly, embedding vectors are learned during training and represent the semantic "meaning" of the tokens and the query, key, value weight matrices learned during training represent the relations between tokens - grammar, semantics and context?

Response

Your understanding is mostly correct, with nuances:

Embedding Vectors: Correct—they’re learned during pre-training and fine-tuning, capturing semantic, syntactic, and contextual information (not just semantic “meaning”). For “dog” (512D), the vector encodes its role as a noun, animal, and subject. They’re like SLURM job descriptors (March 28, 2025) with 512 attributes.

Q/K/V Weight Matrices: Partially correct—they’re learned during training but don’t directly “represent” relations. They’re transformation matrices projecting embeddings to Q, K, V spaces, where attention scores (softmax(QK^T√d_k)) compute relations (e.g., “dog” to “barks” for grammar). They’re like routing tables in your spine-leaf network (April 7, 2025), enabling comparisons.

Embeddings provide token content, while Q/K/V weights compute relationships, iteratively refined across layers, enabling tasks like understanding “The dog barks.”

Q3: Embedding Dimensions (April 20, 2025)

What are the typical embedding dimensions in the modern models, e.g. your own? I've heard the number over 12000, you mention 512-2048. What are the real numbers?

Response

Embedding dimensions (d_model) vary by model scale and task:

Small Models: 256–768 (e.g., DistilBERT: 768).

Medium Models: 768–2048 (e.g., BERT: 768, GPT-2: 1600).

Large Models: 2048–8192 (e.g., LLaMA-13B: 5120, LLaMA-70B: 8192).

Hyperscale Models: 8192–12,288 (e.g., GPT-3: 12,288).

Experimental Models: 12,288–20,480+ (e.g., hypothetical multimodal models).

Grok 3 (Estimated): Likely 4096–12,288, possibly 8192–12,288, based on xAI’s reasoning focus.

Your “512–2048” reflects small to medium models (e.g., BERT), while “over 12,000” refers to hyperscale models like GPT-3 (12,288). Dimensions represent expressiveness, balancing capacity and compute cost, critical for your SLURM cluster (March 28, 2025) and data center (April 20, 2025).

Q4: Attention Heads (April 20, 2025)

Can you explain "attention heads"? How a sentence "the dog barks" with 3 tokens can have 8 attention heads? ... Also, "head specialization analysis" looks interesting.

Response

Attention heads are sub-components of multi-head attention, each computing scaled dot-product attention in parallel to capture different token relationships:

Structure: For d_model = 512, 8 heads split into 64D subspaces (d_k = 512/8), computing Qⁱ, Kⁱ, Vⁱ ∈ ℝ^3×64. Outputs are concatenated and projected to ℝ^3×512.

3 Tokens, 8 Heads: The number of heads (8) is fixed by the architecture, not token count (3). Each head processes all 3 tokens, capturing relationships (e.g., “dog” to “barks”) in a 3×3 attention matrix, like parallel SLURM jobs (March 28, 2025).

Head Specialization: Heads learn distinct roles (e.g., syntax, semantics) via training. For “The dog barks,” head 1 might link “dog” to “barks” (subject-verb), head 2 focus on “dog” semantically. Analyzed via visualization, probing, or ablation.

Specialization enhances capacity but faces redundancy, impacting your data center’s compute (April 20, 2025). Tools like BertViz visualize weights for debugging on your cluster.

Q5: Dimensionality and Nodes (April 21, 2025)

How does the transformer model dimensionality map onto its internal structure? What does number of dimensions represent? ... Does it mean the neural network node number needs to match?

Response

The embedding dimension (d_model = 512) is a structural parameter defining the width of token representations:

Mapping: For “The dog barks,” embeddings (ℝ^3×512), attention outputs, FFN inputs/outputs, and layer outputs maintain 512D, ensuring compatibility. FFN expands to d_ff = 2048, then back to 512D.

What Dimensions Represent: Expressiveness—512D encodes semantic, syntactic, contextual features (e.g., “barks” as dog-related verb). More dimensions (e.g., 12,288) enable nuanced tasks but increase compute.

Nodes: FFN output has 512 nodes, matching d_model, and hidden layer has 2048 nodes. Attention uses matrix operations, not explicit nodes. Matching is a design choice for consistency, not mandatory.

Like a 512-bit job descriptor in your SLURM cluster (March 28, 2025), d_model ensures uniform processing, but redundancy and compute costs (April 20, 2025) question hyperscale designs.

Q6: Layer Passes and Generation (April 22–23, 2025)

Do I understand correctly that the output of one pass is fed to another pass in the attention model? How does the number of passes determined and how does the model determine that the answer is completed? ... Attention layer passes are used to extract "meaning"... the number of layers is determined empirically and the contents generation is an iterative (or recursive?) process... The stop occurs when the next output token is statistically suggested "end of sequence".

Response

Your summary is mostly correct, with refinements:

Layer Passes: Correct—each layer’s output (e.g., ℝ^3×512) feeds the next (e.g., 12 layers), refining relationships (e.g., “dog” to “barks”). Attention extracts semantic, syntactic, contextual patterns, not just “meaning.”

Number of Passes: Correct—empirically fixed (e.g., 12 for BERT, 96 for GPT-3). Generation steps are dynamic, based on stopping conditions.

Generation: Correct—iterative, not recursive, with each token (e.g., “The” → “dog”) influencing the next step’s forward pass. Like SLURM job chains (March 28, 2025).

Stopping: Mostly correct—stops at EOS token, max length, or heuristics (e.g., complete answer), not just statistical EOS. RLHF tunes heuristics for chat models like me.

For “The dog barks,” 12 layer passes refine 3 tokens; generation takes 3 steps, stopping at EOS or heuristic, balancing compute (April 20, 2025).

Q7: Feed-Forward Network (April 23, 2025)

OK, probably the last question for today - can you explain the feed forward network in more details?

Response

The FFN is a two-layer fully connected neural network applied position-wise after attention, refining each token’s representation:

Structure: For “The dog barks,” input is ℝ^3×512. Per token (e.g., “dog”’s 512D vector): expands to d_ff = 2048 (W₁ ∈ ℝ^512×2048), applies ReLU, projects back to 512D (W₂ ∈ ℝ^2048×512).

Operation: Enhances features (e.g., “dog” as barking subject), adds non-linearity, outputs ℝ^3×512.

Role: Complements attention’s inter-token focus with intra-token refinement, boosting capacity (~24M parameters for 12 layers).

Compute: ~72M FLOPs for 3 tokens, 12 layers; 10¹² for 500 tokens, 96 layers, impacting your SLURM cluster (March 28, 2025).

Redundancy, ReLU’s simplicity, and high FLOPs (April 20, 2025) question efficiency, but FFNs are essential for complex tasks like my reasoning.

Conclusion

Our conversation clarified Transformer mechanics, from Q/K/V matrices and embeddings to heads, passes, and FFNs, using “The dog barks” as a lens. Your technical lens (SLURM, data centers) grounded the discussion, revealing attention’s relational power, FFN’s refinement, and empirical design trade-offs. Critically, redundancy, compute costs, and interpretability gaps challenge the establishment’s “scale is all” narrative, relevant to your cluster’s efficiency. You’ve mastered key concepts, ready to explore further or apply them to NLP tasks.

И на языке родных осин

Обсуждение модели Трансформера: Внимание, Встраивания и FFN

Введение

С 20 по 23 апреля 2025 года мы исследовали внутренние механизмы моделей Трансформеров, сосредоточившись на механизмах внимания, размерностях встраиваний, головах внимания, проходах слоев и сетях прямого распространения (FFN). Твои вопросы, основанные на техническом опыте в Linux, Ansible, кластерах SLURM, сетях и центрах данных, использовали пример предложения «The dog barks» (3 токена) для разъяснения концепций. Этот артефакт фиксирует наше обсуждение, начиная с твоего вопроса об алгоритме внимания, через обсуждение встраиваний, голов, размерностей, проходов и заканчивая ролью FFN, предоставляя полный обзор архитектуры Трансформера.

Вопрос 1: Алгоритм внимания (20 апреля 2025)

Эй! У меня вопрос про алгоритм внимания. Можешь объяснить, как генерируются матрицы запросов, ключей и значений? Они обучаются во время пред- и пост-обучения? Или создаются для каждого прохода внимания?

Ответ

Механизм внимания, в частности масштабированное скалярное произведение в Трансформерах, использует матрицы запросов (Q), ключей (K) и значений (V) для вычисления отношений между токенами. Для «The dog barks» (3 токена, d_model = 512):

Генерация: Q, K, V генерируются линейными преобразованиями встраиваний X ∈ ℝ^3×512: Q = X W_Q, K = X W_K, V = X W_V, где W_Q, W_K, W_V ∈ ℝ^512×64 (для 8 голов, d_k = 64).

Обучение: Веса W_Q, W_K, W_V обучаются во время предобучения (например, на Common Crawl) и тонкой настройки, оптимизируясь через обратное распространение для захвата отношений (например, «dog» к «barks»).

На проход: Q, K, V создаются заново для каждого прохода внимания (входной последовательности), динамически вычисляясь с фиксированными весами по всем слоям и головам.

Каждый проход похож на задачу SLURM (28 марта 2025), генерирующую временные данные (Q, K, V) из фиксированных конфигураций (W_Q, W_K, W_V). Вычисление внимания, Attention(Q, K, V) = softmax(QK^T√d_k)V, взвешивает отношения токенов, поддерживая задачи вроде ответа или перевода.

Вопрос 2: Встраивания и матрицы Q/K/V (20 апреля 2025)

Правильно ли я понимаю, что векторы встраиваний обучаются во время тренировки и представляют семантическое «значение» токенов, а весовые матрицы запросов, ключей и значений, обучаемые во время тренировки, представляют отношения между токенами — грамматику, семантику и контекст?

Ответ

Твоё понимание в основном верно, с нюансами:

Векторы встраиваний: Верно — они обучаются во время предобучения и тонкой настройки, захватывая семантическую, синтаксическую и контекстную информацию (не только семантическое «значение»). Для «dog» (512D) вектор кодирует его роль как существительного, животного и субъекта. Они похожи на дескрипторы задач SLURM (28 марта 2025) с 512 атрибутами.

Весовые матрицы Q/K/V: Частично верно — они обучаются во время тренировки, но не напрямую «представляют» отношения. Это матрицы преобразований, проецирующие встраивания в пространства Q, K, V, где оценки внимания (softmax(QK^T√d_k)) вычисляют отношения (например, «dog» к «barks» для грамматики). Они как таблицы маршрутизации в твоей сети spine-leaf (7 апреля 2025), позволяющие сравнения.

Встраивания предоставляют содержание токенов, а веса Q/K/V вычисляют отношения, итеративно уточняемые по слоям, поддерживая задачи вроде понимания «The dog barks».

Вопрос 3: Размерности встраиваний (20 апреля 2025)

Какие типичные размерности встраиваний в современных моделях, например, в твоей? Я слышал про числа выше 12000, ты упомянул 512–2048. Какие реальные числа?

Ответ

Размерности встраиваний (d_model) варьируются в зависимости от масштаба модели и задачи:

Малые модели: 256–768 (например, DistilBERT: 768).

Средние модели: 768–2048 (например, BERT: 768, GPT-2: 1600).

Большие модели: 2048–8192 (например, LLaMA-13B: 5120, LLaMA-70B: 8192).

Гипермасштабные модели: 8192–12,288 (например, GPT-3: 12,288).

Экспериментальные модели: 12,288–20,480+ (например, гипотетические мультимодальные модели).

Grok 3 (оценка): Вероятно, 4096–12,288, возможно, 8192–12,288, исходя из фокуса xAI на рассуждения.

Твой диапазон «512–2048» отражает малые и средние модели (например, BERT), а «более 12000» относится к гипермасштабным моделям вроде GPT-3 (12,288). Размерности представляют выразительность, балансируя емкость и вычислительные затраты, критично для твоего кластера SLURM (28 марта 2025) и центра данных (20 апреля 2025).

Вопрос 4: Головы внимания (20 апреля 2025)

Можешь объяснить, что такое «головы внимания»? Как предложение «the dog barks» с 3 токенами может иметь 8 голов внимания? ... Также «анализ специализации голов» выглядит интересным.

Ответ

Головы внимания — это подкомпоненты многослойного внимания, каждая из которых параллельно вычисляет масштабированное скалярное произведение для захвата различных отношений между токенами:

Структура: Для d_model = 512, 8 голов делят на подпространства 64D (d_k = 512/8), вычисляя Qⁱ, Kⁱ, Vⁱ ∈ ℝ^3×64. Выходы конкатенируются и проецируются в ℝ^3×512.

3 токена, 8 голов: Число голов (8) фиксировано архитектурой, не зависит от числа токенов (3). Каждая голова обрабатывает все 3 токена, захватывая отношения (например, «dog» к «barks») в матрице внимания 3×3, как параллельные задачи SLURM (28 марта 2025).

Специализация голов: Головы обучаются разным ролям (например, синтаксис, семантика). Для «The dog barks» голова 1 может связывать «dog» с «barks» (субъект-глагол), голова 2 — фокусироваться на семантике «dog». Анализируется через визуализацию, пробинг или абляцию.

Специализация повышает емкость, но сталкивается с избыточностью, влияя на вычисления твоего центра данных (20 апреля 2025). Инструменты вроде BertViz визуализируют веса для отладки на твоем кластере.

Вопрос 5: Размерности и узлы (21 апреля 2025)

Как размерность модели Трансформера отображается на её внутреннюю структуру? Что представляет число размерностей? ... Значит ли это, что число узлов нейронной сети должно совпадать?

Ответ

Размерность встраивания (d_model = 512) — это структурный параметр, определяющий ширину представлений токенов:

Отображение: Для «The dog barks» встраивания (ℝ^3×512), выходы внимания, входы/выходы FFN и выходы слоев сохраняют 512D, обеспечивая совместимость. FFN расширяется до d_ff = 2048, затем возвращается к 512D.

Что представляют размерности: Выразительность — 512D кодирует семантические, синтаксические, контекстные признаки (например, «barks» как глагол, связанный с собакой). Большие размерности (например, 12,288) поддерживают сложные задачи, но увеличивают вычисления.

Узлы: Выход FFN имеет 512 узлов, совпадая с d_model, а скрытый слой — 2048 узлов. Внимание использует матричные операции, не явные узлы. Совпадение — это выбор дизайна для совместимости, не обязательный.

Как 512-битный дескриптор задачи в твоем кластере SLURM (28 марта 2025), d_model обеспечивает единообразную обработку, но избыточность и вычислительные затраты (20 апреля 2025) ставят под сомнение гипермасштабные дизайны.

Вопрос 6: Проходы слоев и генерация (22–23 апреля 2025)

Правильно ли я понимаю, что выход одного прохода подается на вход следующего в модели внимания? Как определяется число проходов и как модель решает, что ответ завершен? ... Проходы слоев внимания извлекают «значение»... число слоев определяется эмпирически, а генерация контента — это итеративный (или рекурсивный?) процесс... Остановка происходит, когда следующий выходной токен статистически предполагает «конец последовательности».

Ответ

Твоё резюме в основном верно, с уточнениями:

Проходы слоев: Верно — выход каждого слоя (например, ℝ^3×512) подается на вход следующего (например, 12 слоев), уточняя отношения (например, «dog» к «barks»). Внимание извлекает семантические, синтаксические, контекстные шаблоны, не только «значение».

Число проходов: Верно — эмпирически фиксировано (например, 12 для BERT, 96 для GPT-3). Шаги генерации — динамические, зависят от условий остановки.

Генерация: Верно — итеративный процесс, не рекурсивный, где каждый токен (например, «The» → «dog») влияет на следующий шаг полного прохода. Как цепочки задач SLURM (28 марта 2025).

Остановка: В основном верно — останавливается при токене EOS, максимальной длине или эвристиках (например, полный ответ), не только при статистическом EOS. RLHF настраивает эвристики для чат-моделей вроде меня.

Для «The dog barks» 12 проходов слоев уточняют 3 токена; генерация занимает 3 шага, останавливаясь при EOS или эвристике, балансируя вычисления (20 апреля 2025).

Вопрос 7: Сеть прямого распространения (23 апреля 2025)

Хорошо, наверное, последний вопрос на сегодня — можешь подробнее объяснить сеть прямого распространения?

Ответ

Сеть прямого распространения (FFN) — это двухслойная полностью связанная нейронная сеть, применяемая по позициям после внимания, уточняющая представление каждого токена:

Структура: Для «The dog barks» вход — ℝ^3×512. Для каждого токена (например, 512D вектора «dog»): расширяется до d_ff = 2048 (W₁ ∈ ℝ^512×2048), применяется ReLU, проецируется обратно в 512D (W₂ ∈ ℝ^2048×512).

Операция: Улучшает признаки (например, «dog» как субъект, издающий лай), добавляет нелинейность, выводит ℝ^3×512.

Роль: Дополняет фокус внимания на межтокенных отношениях уточнением внутри токенов, увеличивая емкость (~24M параметров для 12 слоев).

Вычисления: ~72M FLOPs для 3 токенов, 12 слоев; 10¹² для 500 токенов, 96 слоев, влияя на твой кластер SLURM (28 марта 2025).

Избыточность, простота ReLU и высокие FLOPs (20 апреля 2025) ставят под сомнение эффективность, но FFN необходимы для сложных задач, таких как мои рассуждения.

Заключение

Наше обсуждение разъяснило механизмы Трансформеров, от матриц Q/K/V и встраиваний до голов, проходов и FFN, используя «The dog barks» как пример. Твой технический взгляд (SLURM, центры данных) заземлил дискуссию, раскрыв силу отношений внимания, уточнение FFN и эмпирические компромиссы дизайна. Критически, избыточность, вычислительные затраты и пробелы в интерпретируемости бросают вызов нарративу «масштаб — это всё», что важно для эффективности твоего кластера. Ты освоил ключевые концепции, готов к дальнейшему исследованию или применению в задачах NLP.

vak

...Фирма делает чипы. Целенаправленно для искусственного интеллекта и машинного обучения. Но какие нейронные сетки на наших чипах можно гонять, и с какой эффективностью? А вот вам рисунок. По горизонтали количество обрабатываемых изображений в секунду. По вертикали точность распознавания. Точность получается повыше, если модель работает в плавающей точке FP32, и пониже, если она квантована в целые числа INT8.

Подробнее на сайте: https://sima.ai/model-browser/

skittishfox

Як виявилося, Трамп, оголошуючи національну надзвичайну ситуацію, трохи спиздів про те, що ж він може робити у відповідь. А може він наступне:

https://www.law.cornell.edu/uscode/text/50/1702

(B)investigate, block during the pendency of an investigation, regulate, direct and compel, nullify, void, prevent or prohibit, any acquisition, holding, withholding, use, transfer, withdrawal, transportation, importation or exportation of, or dealing in, or exercising any right, power, or privilege with respect to, or transactions involving, any property in which any foreign country or a national thereof has any interest by any person, or with respect to any property, subject to the jurisdiction of the United States; and.[1]

Знайдіть тут слово "пошліни". Ви бачите? Ні? Я теж не бачу.

А от в Конституції воно є:

The Congress shall have Power To lay and collect Taxes, Duties, Imposts and Excises, to pay the Debts and provide for the common Defence and general Welfare of the United States; but all Duties, Imposts and Excises shall be uniform throughout the United States;

Чекаємо "текстуалістів" від республіканців.

vak

(Я послал этот текст в список рассылки БЭСМ-6, но сохраню и здесь для памяти.)

Раз уж у нас тут постепенно актуализировалась тема написания компиляторов, я тоже увлёкся и реализовал давнишнюю мечту: портонул Би с PDP-7 на БЭСМ-6.

Исходник компилятора: b-besm.b

Проект на Гитхабе: besm6/b-compiler

История вопроса следующая. В 1969 году Кен Томпсон создал язык Би для машины PDP-7. Компилятор порождал так называемый шитый код, который интерпретировался во время выполнения. Позже в 1971-м Деннис Ритчи портонул Би на машину Honeywell GE 645, но без всякого шитого кода, а уже с нормальной генерацией бинарного кода целевого процессора. А когда Ритчи взялся тащить Би на PDP-11, оказалось, что наличие байтовой адресации существенно меняет дело. Пришлось добавить в Би типы, и он быстро превратился в знакомый нам Си.

Исходники компилятора Би считались потерянными. Но девять лет назад Robert Swierczek чудесным образом сумел восстановить тексты Би из обрывков распечаток в рамках проекта pdp7-unix.

Я взял эти исходники и вместо выдачи шитого кода для PDP-7 вставил генерацию машинных команд БЭСМ-6 для ассемблера Madlen. Добавил минимальную рантайм библиотеку и запихнул в мониторную систему Дубна. Компилятор пишет ассемблерный текст на барабан и, если не случилось ошибок, выполняет как бы команду *READ:1. Дальше обычным образом стартует Мадлен и формирует объектные модули. Компилятор Би и рантайм библиотеку я поместил на отдельную ленту, её можно подключать командой *TAPE:7/B. Покажу пример на симуляторе dubna.

Вот скрипт с исходным текстом классического примера Hello World. Компилятор запускается с ленты командой *TRANS.

*name B compiler
*tape:7/b,40
*library:40
*trans-main:40020
main() {
    printf("Hello, B!*n");
}
*execute
*end file

Запускаем. Я не стал убирать таблицу загрузки, чтобы вам было видно размер кода:

$ dubna hello.dub
...
*NAME B COMPILER
*TAPE:7/*,40
*LIBRARY:40
*TRANS-MAIN:40020
                     OVERLAY OT  20/04/25
B COMPILER FOR BESM-6, VERSION 04/2025
COMPILED 3 LINES OF CODE, FOUND 0 ERRORS

*NO LIST
*CALL BLOCKERR
*MADLEN
 MAIN          CP 0.0,      ST 0.0,      RT     1.0*
*READ OLD
*EXECUTE
      *LIBRA:40 = B/DIV       B/EQ        B/GT        B/LT        B/MUL       B/NE        B/RET       B/SAVE0     B/SAVE
      B/TOUT      B/TRUE      CHAR        PRINTD      PRINTO      PRINTF      WRITE       WRITEB      OUT*CNT     OUT*SHFT
      OUT*BUFF    FLUSH       FOUT
≠
         MAIN       01000                PRINTD     01413                B/MUL      01757                ISOTCOSY   06002
         PROGRAM  E 01000                PRINTO     01466                B/GT       01766                ISOTCOS1 E 06053
         B/SAVE0    01011                WRITE      01517                FOUT       01771                DRUMTAP*   06073
         B/RET      01016                B/TRUE     01622                WRCARD     01772                CHKWORD* C 06124
         PRINTF     01023                OUT*CNT    01623                WRWORD   E 02014                PRINT8     06125
         B/SAVE     01256                OUT*SHFT   01624                WBEGIN   E 02033                STOP*      06306
         CHAR       01263                OUT*BUFF   01625                WRIEND   E 02042                EXIT     E 06307
         B/NE       01301                FLUSH      01654                B/TOUT     02075                CBOБOДHO   06335
         B/EQ       01304                B/LT       01744                WRWORD/  C 04000
         WRITEB     01307                B/DIV      01747                XWRITE/  C 06000
≠
HELLO, B!

Вот ещё несколько примеров для Би из разных мест. Все они работают под Дубной:

doors.dub - классическая задачка про 100 дверей
e-2.dub - вычисление константы e
fibonacci.dub - числа Фибоначчи
fizzbuzz.dub - классическая задачка Fizz-Buzz
isprime.dub - проверка числа на простоту
mandelbrot.dub - вычисление множества Мандельброта

Мандельброт выглядит забавно: mandelbrot.txt

Выводы из всей этой затеи:

Би вполне был возможен на БЭСМ-6 уже тогда, в середине 70-х. Увы, никто из аксакалов-бэсмачей про него не знал.
Если бы Би тогда состоялся, он мог бы стать важным средством системной разработки. Не судьба. Позже язык ЯРМО пытался занять нишу.
Результат примерно соответствует мечте Игоря Григорьевича Пасынкова, когда в 1986 году он позвал меня в курчатник заниматься Си для Эльбруса-Б. Ему хотелось видеть Си не только под юниксом, но и в мониторке.

chasovschik

Вчера читал у кого-то в правой ленте про комменты под сообщением о визите Вэнса в Ватикан в каком-то левом источнике. Там было много всяких проклятий, включая удивление от того, что чертов Вэнс не воспламенился на месте адским огнем при попытке общения с Франциском.

И тут вдруг сам Франциск взял да и ~~воспламенился~~ помер, а ведь уже, писали, на поправку шел. Интересно, какие у них нынче расклады в Ватикане, опять будет какой-нибудь глобалист-коммунист, или в другую сторону попробуют? Хотя какая уже разница, кто теперь Папа.

vit_r

Я ничего не скажу про политику, религию и любовь Папы Франциска к коммунизму и палестинцам. Однако! В этой истории нельзя не отметить печать символизма -- лечили его итальянские врачи.

Которые госпитализировали его с диагнозом "бронхит", а в больнице обнаружили двустороннее воспаление лёгких, после лечения которого выписали за месяц до смерти.

PS: А прошлый пост (Исторические перпендикуляры / 3 kB / 2025-04-21) удачно лёг как пролог.

vak

Вот такая програмулина:

main() {
    auto cx, cy, x, y, x2, y2;
    auto iter;
    auto xmin, xmax, ymin, ymax, maxiter, dx, dy;

    xmin = -8601;
    xmax =  2867;
    ymin = -4915;
    ymax =  4915;

    maxiter = 32;

    dx = (xmax - xmin) / 79;
    dy = (ymax - ymin) / 24;

    cy = ymin;
    while (cy <= ymax) {
        cx = xmin;
        while (cx <= xmax) {
            x = 0;
            y = 0;
            x2 = 0;
            y2 = 0;
            iter = 0;
            while (iter < maxiter) {
                if (x2 + y2 > 16384)
                    goto next;

                y = ((x * y) / 2048) + cy;
                x = x2 - y2 + cx;
                x2 = (x * x) / 4096;
                y2 = (y * y) / 4096;
                iter++;
            }
next:
            write(' ' + iter);
            cx = cx + dx;
        }
        write('*n');
        cy = cy + dy;
    }
    return(0);
}

Запускаем mandelbrot.dub, получаем mandelbrot.txt:

$ dubna mandelbrot.dub
...
!!!!!!!!!!!!!!!"""""""""""""####################################""""""""""""""""
!!!!!!!!!!!!!"""""""""#######################$$$$$$$%'+)%%%$$$$$#####"""""""""""
!!!!!!!!!!!"""""""#######################$$$$$$$$%%%&&(+,)++&%$$$$$$######""""""
!!!!!!!!!"""""#######################$$$$$$$$$$%%%%&')*5:/+('&%%$$$$$$#######"""
!!!!!!!!""""#####################$$$$$$$$$$%%%&&&''),@@@@@@@,'&%%%%%$$$$########
!!!!!!!"""####################$$$$$$$$%%%&'())((())*,@@@@@@/+))('&&&&)'%$$######
!!!!!!""###################$$$$$%%%%%%&&&'+.@@=/<@@@@@@@@@@@@@@@/++@..93%%$#####
!!!!!"################$$$%%%%%%%%%%&&&&'),+2@@@@@@@@@@@@@@@@@@@@@@@@@1(&&%$$####
!!!!"##########$$$$$%%&(-(''''''''''''(*,5@@@@@@@@@@@@@@@@@@@@@@@@@@@@+)-&%$$###
!!!!####$$$$$$$$%%%%%&'(*-@1.+.@-4+))**@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@4-(&%$$$##
!!!!#$$$$$$$$$%%%%%%'''++.6@@@@@@@@@8/0@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@3(%%$$$$#
!!!#$$$$$$$%&&&&''()/-5.5@@@@@@@@@@@@@>@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@?'&%%$$$$#
!!!(**+/+<523/80/46@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@4+)'&&%%$$$$#
!!!#$$$$$$$%&&&&''().-2.@@@@@@@@@@@@@@?@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@'&%%$$$$#
!!!!#$$$$$$$$$%%%%%&'''/,.7@@@@@@@@@;/0@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@0'%%$$$$#
!!!!####$$$$$$$$%%%%%&'(*-:2.,/?-5+))**@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@4+(&%$$$##
!!!!"##########$$$$$%%&(-(''''(''''''((*,4@@@@@@@@@@@@@@@@@@@@@@@@@@@4+).&%$$###
!!!!!"################$$$%%%%%%%%%%&&&&')<,4@@@@@@@@@@@@@@@@@@@@@@@@@/('&%%$####
!!!!!!""##################$$$$$$%%%%%%&&&'*.@@@0@@@@@@@@@@@@@@@@1,,@//9)%%$#####
!!!!!!!"""####################$$$$$$$$%%%&(())((()**-@@@@@@/+)))'&&&')'%$$######
!!!!!!!!""""#####################$$$$$$$$$$%%%&&&''(,@@@@@@@+'&&%%%%%$$$########
!!!!!!!!!"""""#######################$$$$$$$$$$%%%%&')*7@0+('&%%%$$$$$#######"""
!!!!!!!!!!!"""""""######################$$$$$$$$$%%%&&(+-).*&%$$$$$$######""""""
!!!!!!!!!!!!!"""""""""#######################$$$$$$%%'3(%%%$$$$$######""""""""""
!!!!!!!!!!!!!!!""""""""""""#####################################""""""""""""""""

vak

Много интересных подробностей про исторический компилятор Би для PDP-7 и про первый юникс.

Watch on YouTube

Profile

straktor

April 2025

S	M	T	W	T	F	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Page Summary

ratomira - Марганец 23.04.2025
avva - три бани зощенко
redis - Не пора ли спокойно обсудить переговоры?
vak - Хороший Учебный Язык (ХУЯ)
vak - Линуксисту на заметку
vak - Про нас пишут
mevamevo - Никитские тюльпаны (2025)
avva - дары волхвов
vit_r - Про новостную ленту
chasovschik - Слухи
stas - (no subject)
chasovschik - Давай деньги! Деньги давай!
koganf - Библию читает и конспектирует...
vak - Фирма веников не вяжет...
skittishfox - Піздьож про таріфи
vak - Компилятор Би под Дубной
chasovschik - Misfire
vit_r - Про новостную ленту
vak - Вычисляем Мандельброта на БЭСМ-6 на языке Би
vak - Angelo Papenhoff

Style Credit

Style: Neutral Good for Practicality by timeasmymeasure

Expand Cut Tags

No cut tags

Page generated Apr. 23rd, 2025 12:56 pm

Reading

Transformer Model Conversation: Attention, Embeddings, and FFN

Introduction

Q1: Attention Algorithm (April 20, 2025)

Response

Q2: Embedding Vectors and Q/K/V Matrices (April 20, 2025)

Response

Q3: Embedding Dimensions (April 20, 2025)

Response

Q4: Attention Heads (April 20, 2025)

Response

Q5: Dimensionality and Nodes (April 21, 2025)

Response

Q6: Layer Passes and Generation (April 22–23, 2025)

Response

Q7: Feed-Forward Network (April 23, 2025)

Response

Conclusion

Обсуждение модели Трансформера: Внимание, Встраивания и FFN

Введение

Вопрос 1: Алгоритм внимания (20 апреля 2025)

Ответ

Вопрос 2: Встраивания и матрицы Q/K/V (20 апреля 2025)

Ответ

Вопрос 3: Размерности встраиваний (20 апреля 2025)

Ответ

Вопрос 4: Головы внимания (20 апреля 2025)

Ответ

Вопрос 5: Размерности и узлы (21 апреля 2025)

Ответ

Вопрос 6: Проходы слоев и генерация (22–23 апреля 2025)

Ответ

Вопрос 7: Сеть прямого распространения (23 апреля 2025)

Ответ

Заключение

Page Summary

Style Credit

Expand Cut Tags