算法作曲

算法作曲（英语：Algorithmic Composition），亦称自动作曲，是指使用算法或明确的形式化规则来创作音乐的技术与实践。在此过程中，一个由人类设计或由机器学习生成的程序，会有意地参与音乐的创作决策。这个过程如同撰写一份音乐食谱，将音乐创作中模糊的、直觉性的部分，转化为一系列逻辑清晰、可执行的指令。^[1]

算法作曲的动机之一，是为了摆脱人类创作时的惯性，探索超越直觉与习惯的全新音乐可能性。其应用范围涵盖了从辅助人类作曲家的工具，到能够完全自主生成音乐作品的系统，展现了艺术与科学的深度融合。

历史发展

算法作曲的概念远早于电子计算机的出现，其历史可追溯至数个世纪前。

早期探索

在西方音乐史上，使用规则和几率来创作音乐的早期著名例子是音乐骰子游戏（英语：Musical Dice Game / Musikalisches Würfelspiel）。这类游戏在18世纪的欧洲颇为流行，其中最知名的据信与莫札特有关。该游戏预先创作了数百个（例如272个）音乐小节，创作者透过掷骰子来随机选取并组合这些片段，最终自动生成一首结构完整的华尔兹或舞曲。这体现了透过随机过程与规则组合来生成音乐的核心思想。

电脑时代的黎明

随着电子计算机的诞生，算法作曲进入了新的纪元。

《伊利亚克组曲》（英语：Illiac Suite）：1957年，化学家莱哈伦·希勒（Lejaren Hiller）与 Leonard Isaacson 使用伊利亚克一号（ILLIAC I）计算机创作了这部弦乐四重奏，它被公认为第一部完全由计算机创作的音乐作品。其创作过程主要基于马可夫链（Markov Chain）模型来生成具有特定风格的音符序列。^[2]
随机音乐的开拓：希腊裔法籍作曲家兼建筑师扬尼斯·泽纳基斯（Iannis Xenakis）是将数学思想引入音乐创作的关键人物。与当时序列主义音乐家（如皮耶·布莱兹）追求对音乐各个层面进行极致入微的控制不同，泽纳基斯认为这种做法过于僵化。他反其道而行，拥抱不确定性与几率论，将卜瓦松分布、高斯分布等统计学模型应用于音高、节奏与音色的控制，创作出如《Pithoprakta》（1955-56）等充满原始力量与宏观结构美感的作品。

人工智能与规则系统

到了20世纪后期，研究者开始尝试使用人工智能中的知识库系统（Knowledge-based System）来模拟特定音乐风格。最具代表性的是美国音乐教授大卫·科 Cope（David Cope）开发的EMI（英语：Experiments in Musical Intelligence）系统。EMI能够分析现有作曲家（如巴赫、萧邦）的作品，从中提取独特的音乐语汇与规则，并利用这些规则生成具有该作曲家风格的新作品，其成果在当时引起了广泛的关注与争议。

当代与深度学习

进入21世纪，随着机器学习与深度学习的飞速发展，算法作曲的能力达到了新的高度。

神经网络模型：循环神经网络（RNN）及其变体如LSTM，因其处理序列数据的能力，被广泛用于旋律和和声的生成。近年来，Transformer架构因其捕捉长距离依赖关系的优势，在生成结构更复杂、更长篇的音乐上展现出巨大潜力。
代表性专案与商业应用：
- Google旗下的Magenta计划，开发了多种基于TensorFlow的开源音乐与艺术生成模型。
- OpenAI开发的Jukebox模型，能够生成包含人声、多种乐器且具有特定风格的原始音讯（raw audio），而非仅是MIDI等符号数据。
- 商业平台如 AIVA、Amper Music 等，已能为影视、游戏或广告快速提供客制化的背景音乐。
现场编码（英语：Live Coding）：一种新兴的表演艺术形式，表演者在舞台上即时编写与修改程式码来生成音乐与视觉艺术，将算法创作的过程本身作为表演的核心。

主要方法与模型

算法作曲的方法多种多样，以下列举几种主要的技术模型。

数学与几率模型

随机过程（Stochastic Processes）：以马可夫链为代表，透过分析现有音乐建立一个几率矩阵，描述一个音符或和弦进行到下一个的几率。系统基于此几率模型进行“随机游走”（Random Walk），生成新的旋律。
碎形与自然模型：
- L系统（L-System）：源于模拟植物（如藻类）生长过程的生物学模型。它从一个简单的“公理”（如单个音符）开始，透过迭代应用一组生成规则，发展出具有自相似性的复杂树状音乐结构。
- 细胞自动机（Cellular Automata）：在一个网格中，每个细胞的状态根据其邻近细胞的规则进行演化。例如在著名的“康威生命游戏”中，简单的生存与死亡规则就能涌现出极其复杂的宏观模式，这种特性可用于生成音乐的织体（texture）与动态演化。

基于规则与文法的系统

知识库系统：如前述的EMI，系统内建一套关于特定音乐风格的“专家知识”（例如，在巴赫风格的圣咏中，哪些和声进行是被允许的），并根据这些规则进行创作。
生成文法（Generative Grammars）：借鉴杭士基的形式文法理论，将音乐结构类比为语言的句法结构，透过语法规则来确保生成音乐的合逻辑性。

机器学习模型

机器学习方法不依赖人类明确设定的规则，而是让模型从大量的音乐数据中自动学习其内在模式。其生成内容可分为两类：

符号数据生成（Symbolic Generation）：生成如 MIDI 格式的乐谱数据，其中包含音高、时长、力度等资讯，但不包含真实的音色。
音讯数据生成（Audio Generation）：直接生成如 WAV 格式的原始音讯波形，这种方式可以创造出独特的、全新的音色，技术挑战性也更高。

应用与影响

算法作曲的应用日益广泛，其主要影响可归纳为以下几个面向：

辅助创作与灵感启发：为作曲家提供创作动机，克服“灵感枯竭”的困境，或自动生成旋律、和声与节奏的草稿，作为创作的起点。
功能性音乐的自动生成：为电影、电视剧、电子游戏、广告等需要大量配乐的媒体，快速生成符合特定情境与情感需求的背景音乐，大幅降低了制作成本与时间。
风格模拟与音乐分析：透过模仿特定作曲家的风格，不仅能创作音乐，更能作为一种分析工具，逆向工程般地解构该风格的内在规律。
开拓音乐的未知边界：作为实验音乐与当代艺术的一部分，算法作曲家利用程式码探索人类作曲家因生理或思维限制而难以触及的复杂结构与音响，拓展了音乐艺术的疆域。

参见

参考文献

^ David Cope, Computer Models of Musical Creativity, MIT Press, 2005, ISBN 978-0262033381.
^ Lejaren A. Hiller & L. M. Isaacson, Experimental Music: Composition with an Electronic Computer, McGraw-Hill, 1959.

[1] David Cope, Computer Models of Musical Creativity, MIT Press, 2005, ISBN 978-0262033381.

[2] Lejaren A. Hiller & L. M. Isaacson, Experimental Music: Composition with an Electronic Computer, McGraw-Hill, 1959.

[1]

[2]