As últimas duas semanas antes do prazo foram agitadas. Oficialmente, parte da equipe ainda tinha mesas no prédio de 1945, mas a maioria trabalhava em 1965 porque a microcozinha tinha uma máquina de café expresso melhor. “As pessoas não estavam dormindo”, diz Gomez. Como estagiário, ele estava constantemente depurando e criando visualizações e diagramas para artigos. A ablação é comum em tais projetos. Isso significa retirar as coisas e ver se o que resta é suficiente para realizar o trabalho.
“Agora que temos todos os tipos de combinações de truques e módulos, e sabemos quais são úteis e quais não são, vamos eliminar isso. Vamos substituir isso por isso”, diz Gomez. “Por que o modelo se comporta de maneira tão contra-intuitiva? Ah, esqueci de fazer um bom trabalho de mascaramento. Ainda funciona? OK, seguindo em frente. “Todos esses componentes do design foram o resultado desse ritmo muito acelerado , processo iterativo de tentativa e erro.'' A ablação, com a ajuda da implementação de Shazeer, produziu algo “minimalista'', diz Jones. “Gnomos são bruxos.”
Vaswani se lembra de ter caído no sofá de seu escritório uma noite, enquanto sua equipe escrevia um artigo. Ele olhou para a cortina que separava o sofá do resto da sala, impressionado com o padrão do tecido. Parecia-lhe uma sinapse ou um neurônio. Gomez estava lá e Vaswani disse a ele que o trabalho deles iria além da tradução automática. “Em última análise, precisamos integrar todas as modalidades, como fala, voz e visão, sob uma única arquitetura, semelhante à do cérebro humano”, diz ele. “Tínhamos um forte pressentimento de que estávamos pensando em algo mais geral.”
Mas nos escalões superiores do Google, a pesquisa foi vista apenas como um projeto interessante de IA. Perguntei a vários funcionários dos Transformers se seus chefes já os haviam chamado para obter atualizações sobre um projeto. Não há tantos. Mas “sabíamos que isso poderia ser um problema muito grande”, diz Ushkoreit. “E isso nos deixou realmente fixados em uma linha no final do artigo comentando sobre trabalhos futuros.”
Esta frase previu o que aconteceria a seguir: aplicar o modelo Transformer a essencialmente todas as formas de expressão humana. “Estamos entusiasmados com o futuro dos modelos baseados na atenção”, escrevem eles. “Planejamos estender este transformador para problemas que envolvam outras modalidades de entrada/saída além de texto” e explorar “imagens, áudio e vídeo”.
Algumas noites antes do prazo final, Ushkolet percebeu que precisava de um título. Jones observou que a equipe chegou a uma rejeição fundamental das melhores práticas aceitas, especificamente do LSTM, em relação a uma técnica: atenção. De acordo com Jones, os Beatles chamaram a música de “All You Need Is Love”. Por que não chamar este artigo de “Tudo que você precisa é de atenção”?
os Beatles?
“Sou britânico”, diz Jones. “Eu literalmente pensei nisso por cinco segundos. Não achei que eles usariam isso.”
Eles continuaram a coletar resultados experimentais até o prazo final. “Os números em inglês e francês chegaram cerca de cinco minutos antes de eu entregar meu trabalho”, disse Palmer. “Em 1965, eu estava sentado na minha cozinha digitando o último número.” Faltando apenas dois minutos, eles deixaram o jornal.

