文字列
string は、文字が連結されたものです。PHP では、 文字は 1 バイトと同じです。つまり、256 個の異なる文字を使用可能です。 これは、PHP が Unicode をネイティブにサポートしていないことも意味します。 文字列型の詳細を参照ください。
注意: 32bit ビルドでは、 文字列の最大長は 2GB (2147483647 バイト) です。
構文
文字列リテラルは、4 つの異なる方法で指定することが可能です。
引用符
文字列を指定する最も簡単な方法は、引用符 (文字
'
) で括ることです。
引用符をリテラルとして指定するには、バックスラッシュ
(\
) でエスケープする必要があります。
バックスラッシュをリテラルとして指定するには、二重
(\\
) にします。
それ以外の場面で登場するバックスラッシュは、すべてバックスラッシュそのものとして扱われます。
つまり、\r
や \n
といったおなじみのエスケープシーケンスを書いても特別な効果は得られず、
書いたままの形式で出力されます。
注意: ダブルクォート 構文や ヒアドキュメント構文 とは異なり、 変数と特殊文字のエスケープシーケンスは、 引用符 (シングルクオート) で括られた文字列にある場合には展開されません。
<?php
echo 'this is a simple string';
echo 'You can also have embedded newlines in
strings this way as it is
okay to do';
// 出力: Arnold once said: "I'll be back"
echo 'Arnold once said: "I\'ll be back"';
// 出力: You deleted C:\*.*?
echo 'You deleted C:\\*.*?';
// 出力: You deleted C:\*.*?
echo 'You deleted C:\*.*?';
// 出力: This will not expand: \n a newline
echo 'This will not expand: \n a newline';
// 出力: Variables do not $expand $either
echo 'Variables do not $expand $either';
?>
二重引用符
文字列が二重引用符 ("
) で括られた場合、
PHP は、以下のエスケープシーケンスを特殊な文字として解釈します。
記述 | 意味 |
---|---|
\n |
ラインフィード (LF またはアスキーの 0x0A (10)) |
\r |
キャリッジリターン (CR またはアスキーの 0x0D (13)) |
\t |
水平タブ (HT またはアスキーの 0x09 (9)) |
\v |
垂直タブ (VT またはアスキーの 0x0B (11)) |
\e |
エスケープ (ESC あるいはアスキーの 0x1B (27)) |
\f |
フォームフィード (FF またはアスキーの 0x0C (12)) |
\\ |
バックスラッシュ |
\$ |
ドル記号 |
\" |
二重引用符 |
\[0-7]{1,3} |
8進数: 正規表現 [0-7]{1,3} にマッチする文字シーケンスは、8 進数表記の 1 文字 (例:. "\101" === "A" ) です。
正規表現にマッチする文字シーケンスは、8 進数表記の 1 文字です。
1 バイトに収まらない部分は、何もメッセージを出さずにオーバーフローします
(例: "\400" === "\000" ) 。
|
\x[0-9A-Fa-f]{1,2} |
16進数: 正規表現 [0-9A-Fa-f]{1,2} にマッチする文字シーケンスは、16 進数表記の 1 文字(例: "\x41" === "A" )です。
|
\u{[0-9A-Fa-f]+} |
Unicode: 正規表現 [0-9A-Fa-f]+ にマッチする文字シーケンスは、Unicode のコードポイントです。
そのコードポイントの UTF-8 表現を文字列として出力します。
シーケンスを波括弧で囲む必要があります。例 "\u{41}" === "A"
|
繰り返しますが、この他の文字をエスケープしようとした場合には、 バックスラッシュも出力されます!
しかし、二重引用符で括られた文字列で最も重要なのは、 変数名が展開されるところです。詳細は、文字列の補間を参照ください。
ヒアドキュメント
文字列を区切る別の方法としてヒアドキュメント構文 ("<<<")
があります。この場合、ある ID (と、それに続けて改行文字)
を <<<
の後に指定し、文字列を置いた後で、
同じ ID (終端ID) を括りを閉じるために置きます。
終端ID は、スペースまたはタブでインデントできます。 その場合、インデントされた部分は文字列の全ての行から取り除かれます。 PHP 7.3.0 より前のバージョンでは、 終端ID はその行の最初のカラムから始めなければ いけませんでした。
また、終端ID は、PHP の他のラベルと同様の命名規則に従う必要があります。 つまり、英数字およびアンダースコアのみを含み、 数字でない文字またはアンダースコアで始まる必要があります。
例1 PHP 7.3.0 以降での、基本的なヒアドキュメントの使い方
<?php
// 終端IDをインデントしない場合
echo <<<END
a
b
c
\n
END;
// 終端IDを4つのスペースでインデントする場合
echo <<<END
a
b
c
END;
上の例の PHP 7.3 での出力は、このようになります。
a b c a b c
終端ID が、文字列のいずれかの行より奥にインデントされている場合、 ParseError がスローされます。
例2 終端ID は 文字列本体よりも奥にインデントしてはいけない
<?php
echo <<<END
a
b
c
END;
上の例の PHP 7.3 での出力は、このようになります。
PHP Parse error: Invalid body indentation level (expecting an indentation level of at least 3) in example.php on line 4
終端ID をインデントする場合、 インデントに使う文字として、タブまたはスペースが使えます。 しかし、終端ID、および (終端ID までの)文字列の本体どちらであっても、 インデントする際にタブとスペースを混ぜては いけません。 混ぜた場合、 ParseError がスローされます。 インデントに使う文字に制限があるのは、 タブとスペースを混ぜてしまうと可読性が損なわれるためです。
例3 文字列本体 や 終端ID のインデントに違う文字を使う
<?php
// 以下のコードはいずれも動作しません。
// 文字列本体(スペース) と 終端ID(タブ) とで、異なる文字でインデントする
{
echo <<<END
a
END;
}
// 文字列本体に、タブとスペースを混ぜてインデントする
{
echo <<<END
a
END;
}
// 終端IDのインデントに、スペースとタブを混ぜる
{
echo <<<END
a
END;
}
上の例の PHP 7.3 での出力は、このようになります。
PHP Parse error: Invalid indentation - tabs and spaces cannot be mixed in example.php line 8
文字列本体の後に置かれる 終端ID の後に、 セミコロンや改行を続ける必要はありません。 たとえば、次のようなコードが PHP 7.3.0 以降で動作します:
例4 終端ID の後に式を継続する
<?php
$values = [<<<END
a
b
c
END, 'd e f'];
var_dump($values);
上の例の PHP 7.3 での出力は、このようになります。
array(2) { [0] => string(11) "a b c" [1] => string(5) "d e f" }
終端ID が行のはじめに見つかった場合、 それが別の単語の一部かどうかにかかわらず、 それが終端IDと見なされ、 ParseError が起きる可能性があります。
例5 文字列本体に 終端ID が含まれると、ParseError が起きがち
<?php
$values = [<<<END
a
b
END ING
END, 'd e f'];
上の例の PHP 7.3 での出力は、このようになります。
PHP Parse error: syntax error, unexpected identifier "ING", expecting "]" in example.php on line 6
この問題を避けるために、 次のようなシンプルなルールに従っておくと安全です: 文字列本体に出現するテキストを、終端ID として採用しない
PHP 7.3.0 より前のバージョンで注意すべき非常に重要な点は、
終端ID がある行には、セミコロン
(;
)
以外の他の文字が含まれていてはいけなかったことです。
これは、特に ID はインデントしてはならないということ、
セミコロンの前に空白やタブを付けてはいけないことを意味していました。
終端ID の前の最初の文字は、使用するオペレーティングシステムで定義された
改行である必要があることにも注意を要します。
これは、UNIX システムでは macOS を含め \n
となります。
最後の区切り文字の後にもまた、改行を入れる必要があります。
この規則が破られて 終端ID が "clean" でない場合、 終端ID と認識されず、PHP はさらに終端 ID を探し続けます。 適当な 終端ID がみつからない場合、 スクリプトの最終行でパースエラーが発生します。
例6 PHP 7.3.0 より前のバージョンでの間違った例
<?php
class foo {
public $bar = <<<EOT
bar
EOT;
}
// 識別子はインデントしてはいけません
?>
例7 PHP 7.3.0 より前のバージョンでも有効な例
<?php
class foo {
public $bar = <<<EOT
bar
EOT;
}
?>
変数を含んでいるヒアドキュメントは、クラスのプロパティの初期化に用いることはできません。
ヒアドキュメントは二重引用符を使用しませんが、 二重引用符で括られた文字列と全く同様に動作します。 これはつまり、引用符をエスケープする必要はないが、 上記のリストにあるエスケープされたコードは同様に使用できるということです。 変数は展開されますが、文字列の場合と同様に ヒアドキュメントの内部で複雑な変数を表わす場合には注意が必要です。
例8 ヒアドキュメントで文字列を括る例
<?php
$str = <<<EOD
Example of string
spanning multiple lines
using heredoc syntax.
EOD;
/* 変数を使用するより複雑な例 */
class foo
{
var $foo;
var $bar;
function __construct()
{
$this->foo = 'Foo';
$this->bar = array('Bar1', 'Bar2', 'Bar3');
}
}
$foo = new foo();
$name = 'MyName';
echo <<<EOT
My name is "$name". I am printing some $foo->foo.
Now, I am printing some {$foo->bar[1]}.
This should print a capital 'A': \x41
EOT;
?>
上の例の出力は以下となります。
My name is "MyName". I am printing some Foo. Now, I am printing some Bar2. This should print a capital 'A': A
ヒアドキュメント構文を用いて、 関数の引数にデータを渡すこともできます。
例9 ヒアドキュメントを引数に使用する例
<?php
var_dump(array(<<<EOD
foobar!
EOD
));
?>
static変数やクラスのプロパティ/定数は、 ヒアドキュメント構文で初期化することができます。
例10 ヒアドキュメントを用いた静的な値の初期化
<?php
// static 変数
function foo()
{
static $bar = <<<LABEL
Nothing in here...
LABEL;
}
// クラスのプロパティ/定数
class foo
{
const BAR = <<<FOOBAR
Constant example
FOOBAR;
public $baz = <<<FOOBAR
Property example
FOOBAR;
}
?>
ヒアドキュメントの宣言をダブルクォートで囲むこともできます。